Titre : | Calcul de similarité entre document |
Auteurs : | Khodja Souhaila Charef, Auteur ; Belkacem Abdelli, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2018 |
Format : | 1 vol. (81 p.) / 30 cm |
Langues: | Français |
Mots-clés: | Similarité,degré de ressemblance,approches pour la comparaison de textes,corpus de documents XML,outils de traitement de la langue,Lucen |
Résumé : |
Lanotiondesimilarité intervient dans de nombreux domaines de l’intelligence artificielle et plus particulièrement dans la recherche d’information. Calculer la distance entre deux documents pour détecter le degré de ressemblance consiste à modéliser le texte des documents et le représenter sous forme de vecteurs de texte. Dans ce projet, nous avons réalisé un système qui calcule la similarité entre deux documents; ou entre un document et une requête utilisateur (document) pour voir combien ils sont proches. Nous avons implémenté quelques techniques de calcul de similarité existantes. Ainsi, nous avons utilisé un corpus de documents XML, des outils de traitement de la langue et Plateforme d’analyse et de traitement d’information Lucene. |
Sommaire : |
Table des matières Liste des figures 6 Liste des tableaux 7 Introduction Générale 8 1 Similarité entre les documents 10 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2 Similarité entre textes . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3 Similarité syntaxique . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.2 Modèle d’espace vectoriel (vector space model) . . . . . . . . . 11 1.3.3 Mesures de similarité existantes . . . . . . . . . . . . . . . . . 13 1.3.3.1 Approches basées sur l’espace vectoriel . . . . . . . . 13 1.4 Similarité sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.4.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.4.2 Ressource sémantique . . . . . . . . . . . . . . . . . . . . . . . 15 1.4.2.1 Définition d’une ontologie . . . . . . . . . . . . . . . 15 1.4.2.2 Les types d’ontologie . . . . . . . . . . . . . . . . . . 15 1.4.2.3 Exemple d’ontologie . . . . . . . . . . . . . . . . . . 16 1.4.3 Mesures de similarité existantes . . . . . . . . . . . . . . . . . 17 1.4.3.1 Les approches basées sur les arcs . . . . . . . . . . . 17 1.4.3.2 Les approches basées sur les nœuds . . . . . . . . . . 19 1.4.3.3 Les approches hybrides . . . . . . . . . . . . . . . . . 20 1.5 Classification et catégorisation des textes . . . . . . . . . . . . . . . . 21 1.5.1 Définition de la classification et la catégorisation des textes . . 21 1.5.2 Le processus de la catégorisation des textes . . . . . . . . . . . 22 1.5.2.1 La représentation des textes . . . . . . . . . . . . . . 23 1.5.2.2 La pondération des termes . . . . . . . . . . . . . . . 24 1.5.2.3 La réduction de la taille du vocabulaire . . . . . . . . 24 1.5.2.4 Choix de classificateur . . . . . . . . . . . . . . . . . 25 1.5.3 Les applications de la catégorisation des textes . . . . . . . . . 25 1.6 Travaux connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.6.1 Approches classiques . . . . . . . . . . . . . . . . . . . . . . . 25 1.6.2 Nouvelles approches . . . . . . . . . . . . . . . . . . . . . . . 27 1.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29 2 Analyse de documents 30 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2 Le processus d’analyse . . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.1 Analyse lexicale (Tokenization) . . . . . . . . . . . . . . . . . 31 2.2.2 Élimination des mots vides . . . . . . . . . . . . . . . . . . . . 31 2.2.3 Lemmatisation (Stemming) . . . . . . . . . . . . . . . . . . . 32 2.2.4 La pondération des termes . . . . . . . . . . . . . . . . . . . . 33 2.3 Collection des documents . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.1 INEX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.3.2 TREC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.4 L’expression du besoin d’information «Requête» . . . . . . . . . . . . 37 2.5 Terme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.6 Les mots composés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.7 Le traitement du langage naturel (NLP) . . . . . . . . . . . . . . . . 37 2.7.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.7.2 Les outils de NLP . . . . . . . . . . . . . . . . . . . . . . . . . 38 2.7.2.1 Stanford CoreNlp . . . . . . . . . . . . . . . . . . . . 38 2.7.2.2 Natural Language Toolkit (NLTK) . . . . . . . . . . 38 2.7.2.3 TextBlob . . . . . . . . . . . . . . . . . . . . . . . . 38 2.7.2.4 openNlp . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.8 Définition de l’indexation . . . . . . . . . . . . . . . . . . . . . . . . . 39 2.9 Les approches d’indexation . . . . . . . . . . . . . . . . . . . . . . . . 39 2.9.1 Indexation manuelle . . . . . . . . . . . . . . . . . . . . . . . 39 2.9.2 Indexation semi-manuelle . . . . . . . . . . . . . . . . . . . . 40 2.9.3 Indexation Automatique . . . . . . . . . . . . . . . . . . . . . 40 2.10 Les outils d’indexation . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.10.1 Lucene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.10.2 Sphinx . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.10.3 Xapian . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.10.4 Zettair . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 2.10.5 Des outils basée sur Lucene . . . . . . . . . . . . . . . . . . . 41 2.10.5.1 Hibernate Search . . . . . . . . . . . . . . . . . . . . 41 2.10.5.2 Solr . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 2.10.5.3 Elasticsearch . . . . . . . . . . . . . . . . . . . . . . 43 2.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43 3 Conception du système 44 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.2 Objectif du système . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3 Conception globale . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 3.3.1 Principe général du système . . . . . . . . . . . . . . . . . . . 45 3.3.2 Architecture générale du système . . . . . . . . . . . . . . . . 45 3.4 Conception détaillée . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 3.4.1 Représentation des documents . . . . . . . . . . . . . . . . . . 48 3.4.1.1 Modélisation des documents . . . . . . . . . . . . . . 48 3.4.1.2 Analyse et indexation . . . . . . . . . . . . . . . . . 50 3.4.2 Calcul de similarité . . . . . . . . . . . . . . . . . . . . . . . . 53 3.5 Diagramme de séquence . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4 Réalisation du système 57 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.2 Environnements, Outils et APIs de développement utilisés . . . . . . 57 4.2.1 NetBeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 4.2.2 La plateforme Lucene . . . . . . . . . . . . . . . . . . . . . . . 58 Table des matières 4 4.2.3 Stanford CoreNLP . . . . . . . . . . . . . . . . . . . . . . . . 59 4.2.4 XChart «A Simple Charting Library for Java» . . . . . . . . . 59 4.2.5 Collection de test . . . . . . . . . . . . . . . . . . . . . . . . . 59 4.3 Langage de Programmation utilisé . . . . . . . . . . . . . . . . . . . . 60 4.4 Présentation des interfaces de notre système . . . . . . . . . . . . . . 60 4.4.1 Interface d’authentification . . . . . . . . . . . . . . . . . . . . 60 4.4.2 Description de l’interface générale . . . . . . . . . . . . . . . . 61 4.4.2.1 Interface d’analyse et indexation . . . . . . . . . . . 62 4.4.2.2 Interface de recherche . . . . . . . . . . . . . . . . . 65 4.4.2.3 Interface de calcul de similarité . . . . . . . . . . . . 67 4.5 Représentation des résultats par les courbes . . . . . . . . . . . . . . 73 4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Conclusion Générale 75 Bibliographie 7 |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
MINF/400 | Mémoire master | bibliothèque sciences exactes | Consultable |