Titre : | Une approche sémantique pour les documents numériques |
Auteurs : | Belkacem Abdelli, Auteur ; Okba Kazar, Directeur de thèse ; Jean-Marie Pinom, Directeur de thèse |
Type de document : | Thése doctorat |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2016 |
Format : | 1 vol. (127 p.) / 30 cm |
Langues: | Français |
Mots-clés: | Documents numériques,web sémantique,ontologies,similarité sémantique,structure de documents,indexation,recherche d'information. |
Résumé : |
L'immense volume de documents numériques disponibles, est devenu une problématique pour l'organisation automatique de ces documents afin de faciliter l'interrogation et l'accès à l'information pertinente.La plupart de ces documents n'ont aucune structuration. Ou bien ils ont une structuration (physique et logique), mais difficile à l'identifier et l'exploiter, ce qui rend pénible la récupération des informations pertinentes à partir de ces documents. Dans notre thèse on s'intéresse à la modélisation structuro-sémantique de la représentation des documents et la mettre dans un format interprétable et exploitable efficacement par les algorithmes de recherche d'information. Afin de retourner les fragments de documents les plus pertinents.Dans notre travail, nous modélisons les collections de documents homogène avec un contenu textuel en langue naturelle, comme les publications scientifiques, les articles et les thèses en format PDF ou Word, et les documents web comme les pages de Wikipédia en format XML. |
Sommaire : |
Introduction générale ................. 1 1. Contexte ............................ 1 2. Problématique ................... 2 3. Contributions ....................... 3 4. Organisation de la thèse ................. 4 Chapitre 1 Documents Numériques 6 1.1. Introduction ................. 7 1.2. La notion de document ................... 7 1.3. Document numérique ................... 8 1.4. Représentation de documents ......... 9 1.4.1. Structures du document .......... 9 1.4.1.1. Structure physique d’un document ....................................... 10 1.4.1.2. Structure logique d’un document .................................. 10 1.4.1.3. Structure sémantique d’un document .......................... 12 1.4.2. Les modèles de représentation des documents ...................... 12 1.4.2.1. Modèle vectoriel ..................................................................................................... 13 1.4.2.2. Modèle probabiliste ..... 14 1.4.3. Représentation du contenu ... 14 1.4.3.1. Types du contenu textuel ........................................................................................ 15 1.4.3.1.1. Unités lexicales ........ 15 1.4.3.2. Mot ......................... 15 1.4.3.3. Lemme ............. 15 1.4.3.4. Racine................... 15 1.4.3.5. Mot composé .......... 16 1.4.3.6. Phrase ................... 16 1.4.3.7. Concept .................. 16 1.5. Gestion électronique des documents ........................................... 16 1.5.1. Acquisition des documents .... 17 1.5.1.1. Création .......................... 17 1.5.1.1.1. L’intégration de documents électroniques existants : ................. 17 1.5.1.1.2. La numérisation de documents papiers existants : ........................................... 17 1.5.1.2. Le classement des documents .................................................. 20 1.5.1.3. L’indexation des documents ......................... 20 1.5.2. Conservation des documents numériques .......................................... 20 1.5.3. La diffusion du document ....... 21 1.6. Les métadonnées ............... 21 1.6.1. Définition de métadonnées .... 22 1.6.2. Importance des Métadonnées ............................................. 22 1.6.2.1. Découverte des ressources ................. 22 1.6.2.2. Interopérabilité........... 23 1.6.2.3. Organiser les ressources électroniques ................................................................... 23 1.6.2.4. Identification numérique ..................... 23 1.6.3. Dublin Core ............................. 23 1.7. Conclusion ..................... 24 Chapitre 2 Web Sémantique 25 2.1. Introduction ........................ 26 2.2. Web sémantique ................ 26 2.1.1. Définition globale du web sémantique .................................... 26 2.1.2. Langages du Web Sémantique ............................................ 27 2.1.3.1. XML ..................... 27 2.1.3.2. RDF .............................. 30 2.1.3.3. SPARQL .................................................................................................................... 31 2.1.3.4. OWL ......................................................................................................................... 31 2.3. Ressources sémantiques (les ontologies) ................................................................................. 31 2.3.1. Taxonomie ........................................................................................................................ 32 2.3.2. Thesaurus ......................................................................................................................... 32 2.3.2.1. Composants d'un thesaurus .................................................................................... 33 2.3.2.2. WordNet .................................................................................................................. 34 2.3.2.2.1. Les relations dans WordNet .............................................................................. 35 2.3.2.2.2. Une ressource pour la désambiguïsation........................................................... 36 2.3.3. Ontologie.......................................................................................................................... 36 2.3.3.1. définition ................................................................................................................. 37 2.3.3.2. PROTÉGÉ-2000: outils de construction d'ontologie ................................................ 37 2.3.3.3. Outils de manipulation d'ontologies: Jena .............................................................. 38 2.3.3.4. Exemple d'ontologies .............................................................................................. 38 2.3.3.5.1. YAGO .................................................................................................................. 38 2.3.3.5.2. DEPEDIA ............................................................................................................. 38 2.4. Traitement automatique de la langue ...................................................................................... 39 2.4.1. Le traitement statistique de la langue naturelle .............................................................. 40 2.4.2. Traitement linguistique de la langue naturelle ................................................................ 40 2.4.3. Etiquetage morphosyntaxique ......................................................................................... 40 2.4.4. désambiguïsation lexicale ................................................................................................ 41 2.5. Similarité sémantique .............................................................................................................. 41 2.5.1. Types de mesure de similarité sémantique ...................................................................... 41 2.5.1.1. Calcul de similarité par le nombre d’arcs ................................................................ 42 2.5.1.1.1. La mesure de Wu-Palmer ................................................................................... 42 2.5.1.2. Calcul de similarité par le contenu informatif ......................................................... 42 2.6. Conclusion .................................................................................................................... 43 Chapitre 3 . Modélisation des documents numérique: Indexation et recherche ................................................. 44 3.1. Introduction .................................................................................................................... 45 3.2. Définition de la recherche d'information ................................................................................. 45 3.3. Recherche d'information classique .......................................................................................... 45 3.3.1. Processus de recherche d'information ............................................................................. 46 3.3.1.1. Indexation et représentation................................................................................... 46 3.3.1.1.1. Analyse lexicale .................................................................................................. 46 3.3.1.1.2. L'élimination des mots vides .............................................................................. 46 3.3.1.1.3. Lemmatisation ................................................................................................... 47 3.3.1.1.4. Pondération des termes .................................................................................... 47 3.3.1.2. Appariement document-requête ............................................................................ 48 3.3.1.2.1. Le modèle booléen ............................................................................................ 48 3.3.1.2.2. Le modèle vectoriel............................................................................................ 49 3.3.1.2.3. Le modèle probabiliste ...................................................................................... 50 3.3.1.3. Reformulation de requêtes ..................................................................................... 51 3.3.2. Evaluation ........................................................................................................................ 51 3.3.2.1. Campagnes d'évaluation ........................................................................................ 52 3.3.2.1.1. TREC ................................................................................................................... 52 3.3.2.1.2. GOV2 .................................................................................................................. 52 3.3.2.1.3. CLEF .................................................................................................................... 53 3.3.2.1.4. REUTERS ............................................................................................................. 53 3.3.2.1.5. INEX .................................................................................................................... 53 3.3.2.2. Mesure d'évaluation ................................................................................................ 55 3.4. Recherche d’Information dans les documents semi-structurés ................................................ 57 3.4.1. Modèle vectoriel pour les documents semi-structuré ...................................................... 58 3.4.2. Pondération des termes dans les documents semi-structuré ........................................... 58 3.5. Recherche sémantique d’information ...................................................................................... 58 3.5.1. Indexation sémantique..................................................................................................... 59 3.5.2. Traitement sémantique de la requête .............................................................................. 60 3.5.3. Appariement sémantique ................................................................................................. 60 3.6. Outils pour la recherche d'information .................................................................................... 60 3.6.1. Lucene .............................................................................................................................. 60 3.6.1.1. Les classes de Lucene .............................................................................................. 61 3.6.1.2. Indexation dans Lucene ........................................................................................... 61 3.6.1.2.1. Structure de l'index dans Lucene ....................................................................... 61 3.6.1.3. Recherche dans Lucene ........................................................................................... 63 3.6.2. Terrier ir ........................................................................................................................... 64 3.7. Conclusion ............................................................................................................................... 64 Chapitre 4 .Contribution : Une approche structuro-sémantique pour la recherche de documents ..................... 65 4.1. Introduction ............................................................................................................................. 66 4.2. Motivation ............................................................................................................................... 66 4.3. Travaux existants ..................................................................................................................... 67 4.3.1. Travaux étudiants l’importance des titres ....................................................................... 68 4.3.2. Approches basées sur l’exploitation des titres d’un document ........................................ 68 4.3.3. Approche qui exploite une ressource sémantique ............................................................ 69 4.4. Contexte et problématique ...................................................................................................... 69 4.5. Approche proposée ................................................................................................................. 73 4.6. Architecture du système .......................................................................................................... 75 4.6.1. Identification et Extraction de la structure....................................................................... 75 4.6.1.1. Extraction des titres ................................................................................................ 75 4.6.1.2. Difficulté dans l’extraction de texte ........................................................................ 77 4.6.1.3. Représentation hiérarchique du document ............................................................ 77 4.6.2. Analyse linguistique ......................................................................................................... 78 4.6.2.1. Analyse lexicale ....................................................................................................... 78 4.6.2.2. L’élimination des mots vides ................................................................................... 78 4.6.2.3. Lemmatisation ......................................................................................................... 79 4.6.2.4. Racine d'un mot ....................................................................................................... 79 4.6.2.5. Etiquetage morpho-syntaxique .............................................................................. 79 4.6.3. Identification des concepts............................................................................................... 79 4.6.3.1. Recherche de concepts............................................................................................ 80 4.6.3.2. Désambiguïsation des termes ................................................................................. 80 4.6.4. Sélectionner et élargir les concepts importants .............................................................. 83 4.6.5. Indexation ........................................................................................................................ 86 4.6.5.1. Pondération des concepts ....................................................................................... 87 4.6.5.2. Vecteur de concepts ................................................................................................ 88 4.6.6. Appariement requête-documents .................................................................................... 88 4.6.7. Représentation de la requête ........................................................................................... 89 4.6.7.1. Suggestion des termes à partir d'une ontologie ...................................................... 90 4.6.7.2. Suggestion des termes à partir des titres de documents ........................................ 90 4.7. Conclusion ............................................................................................................................... 90 Chapitre 5 Expérimentation et évaluation ........................................................................................................ 5.1. Introduction ............................................................................................................................. 93 5.2. Environnement Technologique ................................................................................................ 93 5.2.1. Langage java .................................................................................................................... 93 5.2.2. iText.................................................................................................................................. 93 5.2.3. Lucene .............................................................................................................................. 94 5.2.4. Luke .................................................................................................................................. 94 5.2.5. POS Tagger ....................................................................................................................... 94 5.2.6. WordNet ........................................................................................................................... 94 5.2.7. WS4J ................................................................................................................................. 95 5.2.8. XML SAX ........................................................................................................................... 95 5.2.9. INEX_Eval ......................................................................................................................... 95 5.3. Modélisation structurelle des documents PDF ......................................................................... 95 5.3.1. Corpus .............................................................................................................................. 98 5.3.2. Evaluation de l’extraction ................................................................................................ 98 5.3.3. Transfert des Documents PDF en format XML ............................................................... 100 5.3.4. Evaluation de la recherche ............................................................................................. 101 5.3.4.1. Indexation .............................................................................................................. 101 5.3.4.2. Recherche .............................................................................................................. 102 5.4. Evaluation de l'effet de la structure logique sur la recherche................................................. 105 5.4.1. Corpus ............................................................................................................................ 106 5.4.1.1. Modélisation des documents XML ........................................................................ 107 5.4.1.2. Création d'un Identificateur .................................................................................. 108 5.4.2. Requêtes......................................................................................................................... 108 5.4.3. Evaluation de la recherche ............................................................................................. 109 5.4.3.1. Résultats ................................................................................................................ 111 5.4.3.1.1. Extraction des titres ......................................................................................... 111 5.4.3.1.2. Effet de Titres de sections sur la recherche ..................................................... 112 5.5. Evaluation de la modélisation sémantique des documents .................................................... 115 5.6. Conclusion ............................................................................................................................. 117 Conclusion Générale ...................................................................................................................... 118 |
En ligne : | http://thesis.univ-biskra.dz/id/eprint/2728 |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
TINF/95 | Théses de doctorat | bibliothèque sciences exactes | Consultable |