Titre : | Contribution à l’amélioration de la recherche d’information par utilisation des méthodes sémantiques: application à la langue arabe |
Auteurs : | Mazari ahmed cherif, Auteur ; Abdelhamid Djeffal, Directeur de thèse |
Type de document : | Thése doctorat |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2022 |
Format : | 1 vol. (142 p.) / couv. ill. en coul / 30 cm |
Langues: | Français |
Mots-clés: | Recherche d’information arabe ; Reformulation de la requête ; Méthodes sémantiques ; Collections de test RI arabe ; WordNet Arabe ; Classificateur Naïve-Bayes ; Word2vec |
Résumé : |
Un système de recherche d’information est un ensemble de programmes et de modules qui sert à interfacer avec l’utilisateur, pour prendre et interpréter une requête, faire la recherche dans l’index et retourner un classement des documents sélectionnés à cet utilisateur. Cependant le plus grand challenge de ce système est qu’il doit faire face au grand volume d’informations multi modales et multilingues disponibles via les bases documentaires ou le web pour trouver celles qui correspondent au mieux aux besoins des utilisateurs. A travers ce travail, nous avons présenté deux contributions. Dans la première nous avons proposé une nouvelle approche pour la reformulation des requêtes dans le contexte de la recherche d’information en arabe. Le principe est donc de représenter la requête par un arbre sémantique pondéré pour mieux identifier le besoin d'information de l'utilisateur, dont les nœuds représentent les concepts (synsets) reliés par des relations sémantiques. La construction de cet arbre est réalisée par la méthode de la Pseudo-Réinjection de la Pertinence combinée à la ressource sémantique du WordNet Arabe. Les résultats expérimentaux montrent une bonne amélioration dans les performances du système de recherche d’information. Dans la deuxième contribution, nous avons aussi proposé une nouvelle approche pour la construction d’une collection de test de recherche d’information arabe. L'approche repose sur la combinaison de la méthode de la stratégie de Pooling utilisant les moteurs de recherches et l’algorithme Naïve-Bayes de classification par l’apprentissage automatique. Pour l’expérimentation nous avons créé une nouvelle collection de test composée d’une base documentaire de 632 documents et de 165 requêtes avec leurs jugements de pertinence sous plusieurs topics. L’expérimentation a également montré l’efficacité du classificateur Bayésien pour la récupération de pertinences des documents, encore plus, il a réalisé des bonnes performances après l’enrichissement sémantique de la base documentaire par le modèle word2vec. |
Sommaire : |
Introduction générale Contexte et problématique de recherche .............. i Contributions et objectifs du travail..............................iii Organisation de la thèse .......................................................... iv Chapitre I. Recherche d’information I.1. Introduction ....................................................................... 1 I.2. Recherche d’information .......................................... 1 I.2.1. Définition .................................................................................... 1 I.2.2. Un peu d’historique ................. 2 I.2.3. Notions de base de la recherche d’information ...................... 2 I.3. Système de recherche d’information .............................. 4 I. 3 . 1 . Indexation ......................................... I. 3 . 2 . Pondération des termes ................................................ 5 I. 3 . 3 . Mo(Appariem................................ I. 4 . 1 . Mesures d’évaluation .................................................................. 7 I. 4 . 1 . 1 . Précision et rappel ................................. 7 I. 4 . 1 . 2 . Métrique d’Accuracy....................................................... 9 I. 4 . 1 . 3 . F-mesure .................................................... 10 I. 4 . 1 . 4 . Courbe de la précision-rappel.............................. 10 I. 4 . 1 . 5 . R-précision, x-précision et la préc....................... 12 I. 4 . 1 . 6 . Autres mesures ......................................... 12 I. 4 . 2 . Comparaison des systèmes de RI .......................................................3 I. 4 . 3 . Efficacité d’un système de RI versus satisfaction de l’utilisat.... 13 I.5. Collection de test des systèmes de RI .................................................................................. 14 I.5.1. Conception de la collection de test ............................................................................... 14 I.5.2. Construction des collections de test ............................................................................. 15 I.5.2.1. Documents de la collection ...................................................................................... 16 I.5.2.2. Jugement des pertinences ......................................................................................... 17 I.5.2.3. Topics (Sujets)....................................... 19 I.5.2.4. Requêtes .................................................................... 20 I.6. Conférences et Forums pour les compagnes d’évaluation des SR.............. 20 I.6.1. Standard et protocole d’évaluations ................................................. 20 I.6.2. Conférences et Forums d’évaluation ............................. 21 I.6.2.1. TREC .................................................... 22 I.6.2.2. CLEF .................................................................... 22 I.6.2.3. SIGIR ................................................................... 23 I.6.2.4. NTCIR .............................................................. 24 I.6.2.5. FIRE ............................................................................. 24 I.6.2.6. INEX .................................................................................. 25 I.6.2.7. DUC / TAC ................................................................... 26 I.6.2.8. Autres conférences ..................................................................... 26 I.7. Conclusion .................................................................................. 27 Chapitre II. Sémantique dans les textes et la recherche d’information sémantique II.1. Introduction .......................................................................... 28 II.2. Recherche d’information et traitement automatique de la langue ...................... 28 II.3. Sémantique du texte ..................................................... 30 II.3.1. Sens du mot ............................................................... 30 II.3.2. Relations sémantiques .................................... 30 II.3.2.1. Synonymie ............................................................ 31 II.3.2.2. Similarité des mots ............................................ 32 II.3.2.3. Relation de mots .................................................32 II.3.2.4. Antonymie ................................................................ 33 II.3.2.5. Hyperonymie / Hyponymie .................................................. II.3.2.6. Méronymie/ Holonymie ........................................ 34 II.3.3. Désambiguïsation des sens des mots (WSD) ................. 35 II.3.3.1. Approches du WSD basées sur les connaissances .............................. 35 II.3.3.2. Approches du WSD supervisées ....................................................... 36 II.3.3.3. Approches du WSD non-supervisées .................................................... 36 II.3.3.4. Comparaison entre les approches de WSD .................................. 36 II.3.4. Similarité sémanti.......... 37 II.4. WordNet ................................................................................ 38 II.4.1. Définition .............................................................. 38 II.4.2. Synset ....................................................................... 40 II.4.3. Classe des noms ......................................... 43 II.4.5.1. Définition ...................................................... 43 II.4.5.2. Relations sémantiques entre les verbes ..................................... 45 II.4.6.1. Adjectifs descriptifs ................................................ 45 II.4.6.2. Adjectifs relationnels ......................................... 45 II.4.7. Classe des adverbes .................................................... 46 II.4.8. Représentation graphique .................. 46 II.4.9. Applications du WordNet .................................................... 46 II.5. Sémantique par vecteurs ........................................................................ 47 II.5.1. Word2vec ........................................................... 48 II.5.1.1. Modèle de sac de mots continu (CBOW) ...................... 49 II.5.1.2. Modèle de Skip-Gram ............................................. 49 II.5.2. GloVe ................................................................. 50 II.5.3. FastText ........................................................................... 50 II.5.4. Flair ....................................................................... II.5.5. ELMo ..................................................................................... II.5.6. GLoMo ............................................................. 51 II.5.7. ULMFiT ................................................................................... 52 II.5.8. BERT ................................................................................. 52 II.5.9. OpenAI GPT .............................................................. 52 II.6. Recherche d’information sémantique ............................................ 53 II.6.1. Indexation sémantique ........................................................... 53 II.6.2. Reformulation sémantique des requêtes ....................................................................... 56 II.6.2.1. Analyse globale ............................................... 57 II.6.2.2. Analyse locale ....................................................................... 57 II.6.2.3. Thésaurus ......................................................................... 57 II.6.2.4. Méthodes basées sur des concepts ....................................................... 58 II.7. Conclusion .................................................................... 58 Chapitre III. Recherche d’information Arabe : Outils et ressources III.1. Introduction ......................................................................................... 59 III.2. Langue Arabe ............................................................ 59 III.3. Outils et ressources pour la recherche d’information arabe ........................ 61 III.3.1. Outils et ressources pour le traitement et l’analyse des textes .......................... 62 III.3.1.1. Outils nécessaires pour traitement et analyse de texte .............................. 62 III.3.1.2. Ressources linguistiques pour la recherche d’informati.................. 63 III.3.2. Outils d’analyse des textes arabes .............................................................. 64 III.3.2.1. Stanford Word Segmenter ..................................... III.3.2.2. Stanford Log-linear POS Tagger ............................................. 64 III.3.2.3. Mots vides arabes (Stopwords) ................................ 64 III.3.2.4. Light stemmer ........................................................... 65 III.3.2.5. Khoja Stemmer ................................................................................ 65 III.3.2.6. Information Science Research Institute’s (ISRI) Stemmer ........ 66 III.3.2.7. MADAMIRA ....................................................................... 66 III.3.2.8. Farasa .................................................. 67 III.3.2.9. AraMorph ........................................................................ 67 III.3.2.10. Stanford CoreNLP ...................................................................... 68 III.3.2.11. Stanford Parser ......................................................... 68 III.3.2.12. AraNLP ........................................................... 68 III.3.2.13. Penn Arabic Treebank (PATB) .......................................... 68 III.3.2.14. Fassieh .............................................................. 69 III.3.2.15. Reconnaissance des entités nommées .............................................. 69 III.3.3. Ressources sémantiques ...................................................... 70 III.3.3.1. WordNet ........................................................... 70 III.3.3.2. Arabic WordNet ............................................................. 70 III.3.3.3. Arabic Wikipedia ............................................................. 70 III.3.3.4. DBpedia .................................................................... 71 III.3.4. Moteurs de recherche de test .................................................... 71 III.3.4.1. Lucene .............................................. III.3.4.2. JIRS ........................................................ III.3.4.3. Whoosh ..................................................................... 72 III.3.4.4. Hibernate Search ........................................................... 72 III.3.5. Plateformes et environnements de dévelo................. 73 III.3.5.1. GATE ........................................................................... 73 III.3.5.2. Nooj ................................................................... 73 III.3.6. Collections de test pour la re III.3.6.1. Collection « LDC » ................................................................... 74 III.3.6.2. Collection « ZAD » ............................................................................. 75 III.3.6.3. Collection « KUNUZ » .................................................... 76 III.4. Recherche d’information pour la langue arabe .................................................................... 76 III.4.1. Morphologie du texte et indexation ................................... 76 III.4.1.1. Par morphologie .............................................. 76 III.4.1.2. Par N-grammes de caractères ....................................................... 77 III.4.1.3. Par ressource ............................................................. 78 III.4.2. Reformulation de requêtes.............................................................. 78 III.5. Conclusion................................................................. 79 Chapitre IV. Amélioration de la recherche d'information basée sur l'expansion sémantique des requêtes : application à la langue Arabe IV.1. Introduction ....................................... 80 IV.2. Approche proposée ....................................................................... 80 IV.2.1. Etape 1 : Prétraitement et extraction des concepts ............................ 82 IV.2.1.1. Segmentation......................................................82 IV.2.1.2. Normalisation ..........................................................82 IV.2.1.3. Suppression des mots vides (Stopwords) ............................................83 IV.2.1.4. Lemmatisation....................................................................83 IV.2.1.5. Extraction des termes ..................................................................84 IV.2.1.6. Extraction et désambiguïsation des concepts ............................... 84 IV.2.2. Etape 2 : extraction des concepts par pseudo-réinjection de la pertinence .......... 86 IV.2.2.1. Extraction et pondération des termes ............................................. 86 IV.2.2.2. Extraction et désambiguïsation des concepts .......................... 86 IV.2.3. Etape 3 : Construction de l'arbre sémantique .................. 87 IV.2.3.1. Amorçage de l’arbre sémantique ........................................ 87 IV.2.3.2. Extension et construction de l’arbre sémantique ....................... 89 IV.2.3.3. Pondération des nouveaux concepts et taillage de l’arbre sémantique ................ 90 IV.2.4. Processus de reformulation de la requête ............................................. 92 IV.2.5. Pondération les termes de la requête .............................................. IV.3. Test et expérimentation .................................. 93 IV.3.1. Collection de test................................................................ 93 IV.3.2. Procédure de test ................................................. 96 IV.3.3. Analyse des résultats ............................................................ 98 IV.4. Discussion sur l’approche proposée .............................. 99 IV.5. Conclusion ........................................ 100 Chapitre V. Création d’une collection de test pour des systèmes de RI arabe basée sur la stratégie de Pooling et l’apprentissage automatique V.1. Introduction ............................................................. 101 V.2. Méthode proposée ..................................................................... 102 V.3. Construction de la collection.................................................... 103 V.3.1. Collecte des documents ............................................ 103 V.3.2. Caractéristiques de la collection .................................... 103 V.3.3. Création de la liste des requêtes ................................... 106 V.4. Stratégie de Pooling .......................................... 109 V.4.1. Création des Pools ................................................ 110 V.4.2. Calcul des scores des pertinences .............................................. V.4.3. Résultat de la pertinence par la stratégie de Pooling ...................... 113 V.5. Pertinence parautomatique..................................................... 114 V.5.1. Classificateur Naïve-Bayes .......................................... 114 V.5.2. Apprentissage automatique par le classificateur Naïve-Bayes...... 115 V.5.3. Mesures de performance .................................... 116 V.5.4. Expérimentation par le classificateur Bayés.......................... 117 V.5.5. Expérimentation par word2vec et le classificateur Bayésien .................... 120 V.5.5.1. Création du modèle word2vec ................... 120 V.5.5.2. Enrichissement des documents par les mots similaires ................... 122 V.5.5.3. Résultat du test ................................................. 123 V.6. Discussion et perspectives..................................... 124 V.7. Conclusion................................................................. 126 Conclusion générale ................................................... 127 Bibliographie.......................................... |
En ligne : | http://thesis.univ-biskra.dz/5676/1/These.pdf |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
TINF/172 | Théses de doctorat | bibliothèque sciences exactes | Consultable |