Titre : | Extraction les concepts textuels en utilisant la technique de deep learning |
Auteurs : | Fatma Zahra Amrani, Auteur ; Belkacem Abdelli, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2020 |
Format : | 1 vol. (62 p.) / ill. / 29 cm |
Langues: | Français |
Mots-clés: | texte Extraction de concepts simples et composés,Deep Learning,analyse syntaxique,Analyse sémantique. |
Résumé : | Le texte est important car il contient une énorme quantité d'informations dont nous pouvons bénéficier en l'analysant et en extrayant ses concepts les plus importants.Il est devenu nécessaire le développement d’outils automatisés permettant de traiter et d’analyser le texte de documents afin d’extraire ce qui est plus significatif, et de donner une vision générale sur le contenu.Dans notre mémoire on s’intéresse à l’analyse et le traitement de documents afin d’extraire le contenu le plus significatif qui représente et décrire au mieux le document.Dans notre travail, nous utilisons une approche ‘Deep Learning’ pour repérer les concepts les plus représentatifs de texte. |
Sommaire : |
INTRODUCTION GENERALE 1
1. Contexte …………………………………………………………………………...........1 2. Motivation ………………………………………………………………………………2 3. Objectifs ………………………………………………………………………………...2 4. Organisation du mémoire ……………………………………………………………….3 1/ ANALYSE AUTOMATIQUE DE TEXTE 4 1.1 Introduction ……………………………………………………………………………5 1.2 Extraction de termes simples et composés …………………………………………….5 1.2.1 Extraction de termes simples ……………………………………………………..5 1.2.2 Extraction de termes composés …………………………………………………..5 1.3 Analyse syntaxique …………………………………………………………………....6 1.3.1 Définition …………………………………………………………………...........6 1.3.2 Les étapes d’analyse syntaxique………………………………………………….7 1.3.2.1 La tokenisation ………………………………………………………………..7 1.3.2.2 Elimination des mots vides …………………………………………………...7 1.3.2.3 La lemmatisation ……………………………………………………………...7 1.3.2.4 La racinisation « stemming » en anglais ……………………………………...8 1.3.2.5 Marquage (Tagging) ………………………………………………………….9 1.3.2.6 L’indexation automatique …………………………………………………….9 1.3.2.6.1 Les Types d’indexation automatique …………………………………..9 1.3.2.6.2 Calculer le poids ………………………………………………………10 1.4 Analyse sémantique ………………………………………………………………….12 1.4.1 Définition ………………………………………………………………………12 1.4.2 Pourquoi faire une analyse sémantique ………………………………………....13 1.4.3 Ressources sémantiques ………………………………………………………...13 1.4.3.1 Thésaurus…………………………………………………………………….14 1.4.3.2 Taxonomie …………………………………………………………………...14 1.4.3.3 Ontologie……………………………………………………………………..15 1.4.3.4 WordNet ……………………………………………………………………...15 1.4.4 Similarités entre concepts ………………………………………………………16 1.4.4.1 Techniques de calcul des mesures de similarité sémantique…………………16 1.4.4.1.1 Mesures de similarité basées sur la structure d’ontologie……………..17 1.4.4.1.1.1 La mesure de Wu-Palmer…………………………………………...17 1.4.4.1.1.2 La mesure de Leacock et Chorodow ……………………………….17 1.4.4.1.2 Mesures de similarité basées sur le contenu en information des concepts………………………………………………………………..17 1.5 Les méthodes d'extraction des entités textuelles …………………………………….18 1.5.1 Indexation des concepts …………………………………………………………..18 1.6 Travaux connexes …………………………………………………………………...18 1.6.1 Les travaux de L. Moncla et M. Gaio …………………………………………….19 1.7 Conclusion …………………………………………………………………………..19 2/ Deep Learning pour le texte 20 2.1 Introduction ………………………………………………………………………….21 2.2 Intelligence Artificielle……………………………..............................................…...21 2.3 L’apprentissage Automatique (Machine Learning) …………………………………..21 2.3.1 Définition ………………………………………………………………………....21 2.3.2 Les Types D’apprentissage ………………………………………………………22 2.3.2.1 L’apprentissage Supervisé ……………………………………………………22 2.3.2.2 L’apprentissage Non Supervisé ………………………………………………23 2.3.2.3 L’apprentissage Semi-Supervisé ……………………………………………..23 2.3.2.4 L’apprentissage Par Renforcement …………………………………………..23 2.4 L`apprentissage Profond (Deep Learning) …………………………………………...24 2.4.1 Définition ……………………………………………………………………….....24 2.4.2 Historique …………………………………………………………………………25 2.4.3 ML vs DL …………………………………………………………………………26 2.4.5 Pourquoi DL Est-il Utile ? …………………………………………………………28 2.4.6 Les Applications De L'apprentissage Profond……………………………………28 2.4.7 Le Deep Learning, Comment Ça Marche ? ……………………………………….29 2.4.8 Avantages De L’apprentissage Profond …………………………………………..30 2.4.9 Limites De L’apprentissage Profond ……………………………………………...30 2.5 Les Réseaux De Neurones ……………………………………………………………..31 2.6 Deep Learning Pour Le Texte ………………………………………………………….31 2.6.1 Les Algorithmes De L’apprentissage Profond Avec Le NLP ……………………..32 2.6.2 Tâches Effectuées Par Deep Learning Pour L'analyse De Texte ………………….33 A. Part-Of-Speech Tagging ………………………………………………………33 B. Named Entity Recognition (NER) ……………………………………………34 C. Semantic Role Labeling (SRL)……………………………………………….34 D. Extraction des concepts composés …………………………………………...35 2.6.3 Les Phases D’analyse De Texte En Utilisant Deep Learning ……………………35 2.6.3.1 Phase 1: Collection de données ………………………………………………35 2.6.3.2 Phase 2 Préparation de données………………………………………………..35 A. Phase 2.a Prétraitement …………………………………………………….35 B. Phase 2.b L’extraction des termes importants et les termes composés……..35 2.6.3.3 Phase 3: Modèle d’apprentissage ……………………………………………..36 A. Phase 3.a: Transformation de données ……………………………………..36 B. Phase 3.b: Codage de données ……………………………………………..37 C. Phase 3.c Choix l’algorithme ………………………………………………37 2.7 Conclusion …………………………………………………………………………… .37 3/ Conception du système 38 3.1 Introduction …………………………………………………………………………….39 3.2 Architecture Générale ………………………………………………………………….39 3.2.1 Le module d’extraction de termes simples et composés ………………………….39 3.2.2 Le module d’analyse syntaxique ………………………………………………….40 3.2.3 Le module calculer la similarité sémantique ………………………………………40 3.3 Conception Détaillée …………………………………………………………………..40 3.3.1 Présentation de la collection ………………………………………………………41 3.3.2 Extraction des termes simples et composés ……………………………………….41 3.3.3 Analyse syntaxique ……………………………………………………………….42 3.3.4 Calcul de similarité entre concepts ………………………………………………...45 3.4 Modélisation Du Système ……………………………………………………………..45 3.5 Conclusion ……………………………………………………………………………..47 4/ Implémentation du système 48 4.1 Introduction…………………………………………………………………………….49 4.2 Les Outils Et Librairies Utilisés ……………………………………………………….49 4.2.1 Python……………………………………………………………………………...49 4.2.2 Natural Language Toolkit (NLTK) ……………………………………………….50 4.2.3 Whoosh ……………………………………………………………………………51 4.2.4 OS …………………………………………………………………………………51 4.2.5 String ……………………………………………………………………………...51 4.2.6 Hashedindex ………………………………………………………………………51 4.2.7 Sklearn …………………………………………………………………………….51 4.2.7 NumPy …………………………………………………………………………….52 4.2.8 WordNet …………………………………………………………………………..52 4.2.9 Tkinter …………………………………………………………………………….53 4.3 L’environnement de développement …………………………………………………….53 4.4 Implémentation ………………………………………………………………………….54 4.4.1 Le prétraitement d’un document ……………………………………………………54 4.4.2 Extraction Des Mots Composé Et Le Marquage ……………………………………55 4.4.3 Calcule La Similarité ………………………………………………………………..55 4.4.4 Présentation De La Fenêtre D’application …………………………………………..56 4.5 Conclusion ……………………………………………………………………………….58 CONCLUSION GENERALE 59 |
Type de document : | Mémoire master |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
MINF/523 | Mémoire master | bibliothèque sciences exactes | Consultable |