Titre : | Extraction des concepts les plus significatifs d'un document textuel |
Auteurs : | Khaoula Hasni, Auteur ; Belkacem Abdelli, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2018 |
Format : | 1 vol. (100 p.) / 30 cm |
Langues: | Français |
Mots-clés: | Extraction de concepts,Annotation,Annotation sémantique,Ontologie WordNet,Similarité sémantique,Documents semi-structurés XML |
Résumé : |
le nombre de documents textuels disponibles actuellement et la quantité d’informations qu’ils contiennent sont en constante évolution. Cette évolution est en augmentation à cause de l’expansion du Web, et la mise à disposition de documents semi-structurés tels que les documents XML. Il est devenu nécessaire le développement d’outils automatisés permettant de traiter et d’analyser le texte de documents afin d’extraire ce qui est plus significatif, et de donner une vision sur le contenu. Dans notre mémoire on s’intéresse à l’analyse et le traitement de documents semi-structurés de type XML afin d’extraire le contenu le plus significatif qui représente et décrire au mieux le document. Dans notre travail, nous utilisons une approche basée sur l’extraction sémantique à base d’ontologie pour repérer les concepts les plus représentatifs qui serontexploité pendant la phase d’annotation. |
Sommaire : |
Introduction générale 1 Chapitre 1 Annotations 5 1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2 Extraction et annotations dans les documents textuels . . . . . . . 6 1.2.1 Extraction à partir du texte . . . . . . . . . . . . . . . . . . . 6 1.2.2 Généralités sur les annotations des documents textuels . . . . 7 1.2.2.1 Définitions d’une annotation . . . . . . . . . . . . . . 8 1.2.2.2 Méta-donnée ou Annotation . . . . . . . . . . . . . . 8 1.2.2.3 Annotation par le contenu du document et via sources externes . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 Annotation des documents semi-structurés XML . . . . . . . . . . . 9 1.3.1 Documents semi-structurés (XML) . . . . . . . . . . . . . . . 10 1.3.1.1 Qu’est-ce-qu’un document semi-structuré (XML) . . . 10 1.3.1.2 Description de la structure des documents semi-structurés(XML) . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.3.2 Analyse des documents semi-structurés (XML) . . . . . . . . 13 1.3.2.1 Extraction de l’information textuelle . . . . . . . . . . 14 1.3.2.2 Extraction de l’information structurelle . . . . . . . . 15 1.4 Annotation sémantique . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4.1 Notions de base . . . . . . . . . . . . . . . . . . . . . . . . . 16 1.4.1.1 Concept vs terme . . . . . . . . . . . . . . . . . . . . 16 1.4.1.2 Qu’est-ce-qu’une annotation sémantique . . . . . . . . 17 1.4.2 Processus d’annotation sémantique . . . . . . . . . . . . . . . 17 1.4.2.1 Extraction des termes candidats . . . . . . . . . . . . 18 1.4.2.2 Extraction des concepts candidats . . . . . . . . . . . 20 1.4.2.3 Génération et stockage d’annotations sémantiques . . 21 1.4.3 Exploitation des annotations sémantiques . . . . . . . . . . . 21 1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 Chapitre 2 Web sémantique et Ontologie 23 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.2 Web Sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.2.1 Définitions et composantes du web sémantique . . . . . . . . . 24 2.2.2 Standards et langages du web sémantique . . . . . . . . . . . 25 2.3 Ressources sémantiques (Ontologie) . . . . . . . . . . . . . . . . . . 26 2.3.1 Thésaurus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.2 Taxonomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.3.3 Ontologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.3.2 Composantes d’une ontologie . . . . . . . . . . . . . 29 2.3.3.3 L’ontologie WordNet . . . . . . . . . . . . . . . . . . 30 2.4 Similarités entre concepts dans une ontologie . . . . . . . . . . . . . 32 2.4.1 Techniques de calcul des mesures de similarité sémantique . . 32 2.4.1.1 Mesures de similarité basées sur la structure d’ontologie 32 2.4.1.2 Mesures de similarité basées sur le contenu en information des concepts . . . . . . . . . . . . . . . . . . . 33 2.5 Travaux connexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 2.5.1 Le travail de Farah HARRATHI . . . . . . . . . . . . . . . . 34 2.5.2 Les travaux de E. Morin et C. Jaquemin . . . . . . . . . . . . 35 2.5.3 Les travaux de L. Moncla et M. Gaio . . . . . . . . . . . . . 35 2.5.4 Le travail du Mouhamadou THIAM . . . . . . . . . . . . . . 36 2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Chapitre 3 Conception du système 40 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 3.2 Conception globale . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.2.1 Architecture générale . . . . . . . . . . . . . . . . . . . . . . 41 3.3 Conception détaillée . . . . . . . . . . . . . . . . . . . . . . . . . . 42 3.3.1 Présentation de la collection . . . . . . . . . . . . . . . . . . . 43 3.3.2 Normalisation des documents XML . . . . . . . . . . . . . . . 44 3.3.2.1 Repérer les éléments du documents XML (parser) . . 44 3.3.3 Extraction des termes simples et composés . . . . . . . . . . . 48 3.3.3.1 Extraction des catégories nominales . . . . . . . . . . 49 3.3.4 Analyse et pré-traitement des documents . . . . . . . . . . . . 49 3.3.5 Extraction des termes candidats . . . . . . . . . . . . . . . . 51 3.3.5.1 Ressource sémantique (Ontologie WordNet) . . . . . . 51 3.3.5.2 Calcul de similarité entre concepts . . . . . . . . . . . 52 3.3.5.3 Pondération (TF-IDF) des termes . . . . . . . . . . . 53 3.3.6 Extraction des concepts candidats . . . . . . . . . . . . . . . 55 3.3.7 Génération des annotations sémantiques . . . . . . . . . . . . 56 3.4 Modélisation du système . . . . . . . . . . . . . . . . . . . . . . . . 61 3.4.1 Diagrammes de cas d’utilisation . . . . . . . . . . . . . . . . . 61 3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 Chapitre 4 Implémentation du système 64 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2 Langage de programmation . . . . . . . . . . . . . . . . . . . . . . 64 4.2.1 JAVA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.3 L’environnement de développement . . . . . . . . . . . . . . . . . . 65 4.3.1 Netbeans . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 4.3.2 XAMPP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.3.3 OpenNLP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.3.4 Lucene . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 4.3.5 WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 4.4 Principales fenêtres de l’application . . . . . . . . . . . . . . . . . . 68 4.4.1 Fenêtres d’accueil . . . . . . . . . . . . . . . . . . . . . . . . 68 4.4.2 Fenêtre d’authentification de l’administrateur . . . . . . . . . 69 4.4.3 Principales fenêtres de l’administrateur . . . . . . . . . . . . . 70 4.4.3.1 Fenêtre de normalisation de la collection . . . . . . . . 70 4.4.3.2 Fenêtre de sélection et traitement d’un document . . . 72 4.4.3.3 Fenêtres d’extraction des termes et d’analyse syntaxique 73 4.4.3.4 Fenêtre d’extraction des concepts et calcul de similarités 75 4.4.3.5 Fenêtre d’extraction des termes candidats . . . . . . . 76 4.4.3.6 Fenêtres d’extraction des concepts candidats et d’annotation. . . . . . . . . . . . . . . . . . . . . . . 77 4.4.3.7 Fenêtre d’annotation d’une collection de documents . 78 4.4.4 Fenêtre d’inscription d’un utilisateur . . . . . . . . . . . . . . 81 4.4.5 Fenêtre de profile de l’utilisateur . . . . . . . . . . . . . . . . 82 4.4.5.1 Fenêtre d’évaluation des résultats . . . . . . . . . . . 82 4.5 Évaluation des résultats . . . . . . . . . . . . . . . . . . . . . . . . 84 4.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 Conclusion générale 85 Annexe A Deep learning pour le traitement automatique du langage naturel (DeepNLP) 87 Bibliographie 97 |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
MINF/382 | Mémoire master | bibliothèque sciences exactes | Consultable |