Titre : | Un moteur de recherche pour les documents en format pdf |
Auteurs : | Samira Mazouzi, Auteur ; Dounia Latrach, Auteur ; Belkacem Abdelli, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2015 |
ISBN/ISSN/EAN : | MINF/18 |
Format : | 1 vol. (43 p.) / 30 cm |
Langues: | Français |
Résumé : |
Dans notre projet on a essayée de définir la recherche d’information (RI) et les systèmes de recherche d’information (SRI) pour le but de réaliser un moteur de recherche d’information dans les documents en format PDF. Le fonctionnement de ce moteur de recherche est de ésoudre le problème de difficulté d’accès au contenu des documents PDF par la conversion de ces documents en format TXT avant de faire les recherches.’objectif de notre application (desktop) est permet l’utilisateur d’avoir des résultats améliorées, plus précis et parfaits à partir la recherche dans ses répertoires. |
Sommaire : |
Introduction générale................................................................................................................01 Chapitre (1) : LA RACHARCHA D4INFORAMTION 1 - Introduction 2 –Définitions…………………………….……………………...……………………………02 3- Concepts de base de la RI..…………………….…….…………………….………………02 3.1. Document….………………………….……………..…...........................................03 3.4. Requête…...………..............................................................................................…..03 4- Système de recherche d’information…………...…...………………………………….….04 4.1. Processus de recherche d’information………………………………………….…04 4.1.1. Processus d’indexation……………..……………………………….……….05 4.1.1.1. L’analyse lexicale………………….……………………………….05 4.1.1.1.1. L’élimination des mots vides..............................................06 4.1.1.1.2. Racinisation……………..……………...............................06 4.1.1.1.3. Lemmatisation…………………………………….……....06 4.1.1.1.4. L’analyse syntaxique et morphosyntaxique………..…......06 4.1.1.2. Pondération des termes (IF*IDF)………….……………..……….07 4.1.1.2.1. La pondération locale TFIJ……………………...………...07 4.1.1.2.2. La pondération globale IDFI……….…………...………...08 5 - Le processus d’appariement …………………………………..………………………….08 6 - Evaluation des systèmes des recherches d’informations……………….……….…….…..09 6.1. Les mesures d’évaluation……………………………………….…………………….09 7- Moteur de recherche……………………………...………..…….……………….….…….10 7.1. Définition d’un Moteur de Recherche………………………..………………………10 7.2. Les différents moteurs de recherche…...……………………………………….…….10 8- Conclusion ………………………………………………………………………….….….11 Chapitre (2) : LES DOCUMENTS EN FORMET PDF 1 - Introduction 2 - DocumentPDF……………………………………….……………………………...…….12 2.1. Définition document……………………………………………...………………….12 2.2. Définition PDF…………………………………………………………………..12 2.3. Historique………………………………………………………………………..13 2.4. Caractéristique……………………………………..……………………….…...13 2.5. Quelques utilisations du format PDF…………………………………...………. 14 3 - Parser (Conversion) PDF en TXT………….……………………..…………………..… .15 4 - Outils de conversion……...…………………..……………………………………….….16 4.1. JPedal………………………………………...……………………………………...17 4.2. ItextPDF……………………………………………………….…………………….17 4.3. PDFBox………………………………………………………………………….…..17 5 - Conclusion……………………………………………...……………………………...….18 Chapitre (03) LA CONCEPTION 1 -Introduction……………………………………………………………………………… ..19 2 - Conception Globale………………………………………………………………….........19 3 - Conception Détaillée……………………………………………………………………...20 3.1. Module document en format PDF…………………………………………………….20 3.2. Module conversion…………………………………………………………………...20 3.3. Module Analyse…………………………………………………………………........21 3.3.1. Prétraitement………………………………………………………………...22 3.3.1.1. L’Elimination des majuscules……………………………………......22 3.3.1.2. L’élimination de suffixe et préfixe………………………………... ..23 3.3.1.3. Tokenisation……………………………………………………..…..23 3.3.1 .4.Suppression des caractères spéciaux……………………………..…..23 3.3.1.5. Lemmatisation……………………………………………………. .....23 3.3.1.6. La racinisation……………………………………………………. .....24 3.3.1.7. L’élémination des mots vides………………………………………...24 3.3.2. Représentation………………………………………………………………..25 3.4. Module indexation…………………………………………………………………..26 3.4.1. La pondération des termes (TF* IDF)………………………………………. 27 3.4.1.1. TF* IDF…………………………………………………………….27 3.4.1.1.1. TF (TermFrequency)…………………… …………….……27 3.4.1.1.2. IDF (Inverse Document Fréquence)………………….…….27 3.4.1.2. Fréquence des mots dans les documents………… ……….………28 3.5. Base d’index………………………………………………………………………...28 3.6. Module requête…………………………………………………………………….. .29 3.7. Module analyse requête……………………………………………………………..30 3.7.1. Reformulation……………………………………………………………….30 3.7.2. Le correcteur orthographique……………………………………………….31 3.8. Module d’appariement……………… ………………………………………….......31 3.9. Module d’interface………………………………………………………………… .32 3.10. Module Résultat…………………………………………………………………....32 4 - Conclusion………………………………………...………………………………………33 Chapitre (04) IMPLIMENTAION 1 - Introduction……………………………………………..…………………………………34 2 - Langage de programmation….……………………………………………………………34 2.1. JAVA………………………………………………………………………………34 3 - Environnement et outils de développement…………………………………………….…34 3 .1. NetBeans……………………………………………………………………..………34 3.2. Apache Lucene…………………………………………………….…………………35 3.3. ItextPdf………………………………………………………………………………..36 4 - Fenêtres principales de l’application………………..…………………………….………36 4.1. Fenêtre ParsePdf……………………………...………………………………………37 4.2. Fenêtre D’Analyse………………………...…………………………………………38 4.3. Fenêtre d’indexation………………...……..………………………………… ………40 4.4 Fenêtre de recherche……………………...…...……………………………………….40 5 - Conclusion……...…………………………………………………………………………42 Conclusion générale………….………………………………………………………………43 |
Type de document : | Mémoire licence |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
MINF/18 | Mémoire licence | bibliothèque sciences exactes | Consultable |