Titre : | Classification Automatique des documents textuels |
Auteurs : | Abdelali Tamene, Auteur ; Belkacem Abdelli, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2021 |
Format : | 1 vol. (52 p.) / ill. / 29 cm |
Langues: | Français |
Mots-clés: | Texte, Classification automatique, Machine learning. |
Résumé : | Le texte est important car il contient une énorme quantité d'informations dont nous pouvons Bénéficier en l'analysant son contenu.Le travail effectué dans le cadre de ce mémoire s’intéresse à la réalisation d’un système permet de suivre pas à pas le processus de prétraitement et de classification automatique des textes sur la base des types déjà connus.Dans notre travail, nous utilisons une approche Machine learning pour repérer les concepts les plus représentatifs de texte. |
Sommaire : |
Introduction General ......................................................................................................................... 1
1 Chapitre 1: DATA MINING ET TEXT MINING ................................................................. 2 1.1 Fouille de données (Data Mining) ........................................................................................ 2 1.1.1 Introduction.................................................................................................................... 2 1.1.2 Définition de fouille de données ....................................................................................... 2 1.1.3 Les taches de fouille de données ...................................................................................... 2 1.1.3.1 La classification ............................................................................................................. 2 1.1.3.2 L’estimation .................................................................................................................. 2 1.1.3.3 La prédiction................................................................................................................. 3 1.1.3.4 Le groupement par similitude ....................................................................................... 3 1.1.3.5 La description ............................................................................................................... 3 1.1.4 Domaines d’utilisation de fouille de données.................................................................... 3 1.1.4.1 La gestion de relation client .......................................................................................... 4 1.1.4.2 L’aide à la décision (Business intelligence) .................................................................... 4 1.1.4.3 La recherche scientifique et médicale ........................................................................... 4 1.1.4.4 Le domaine financier (Banques et Assurances).............................................................. 4 1.1.4.5 Laboratoires pharmaceutiques et cosmétiques ............................................................. 4 1.2 Fouille de textes (text mining) .................................................................................................. 5 1.2.1 Définition de fouille de textes ........................................................................................... 5 1.2.2 Tâches principales de la fouille de textes .......................................................................... 5 1.2.3 Domaines d’utilisation de fouille de textes ....................................................................... 6 1.2.3.1 Connaître l’opinion publique ........................................................................................ 6 1.2.3.2 La recherche légale ....................................................................................................... 6 1.2.3.3 Shopping ...................................................................................................................... 6 1.2.3.4 L’Analyse du sentiment ................................................................................................. 7 1.3 Conclusion ............................................................................................................................... 7 2 Chapitre 2 : L'apprentissage automatique et classification des textes ............................... 8 2.1 Introduction ............................................................................................................................ 8 2.2 Intelligence Artificielle .............................................................................................................. 8 2.3 Machine Learning..................................................................................................................... 8 2.4 Les type d’apprentissage .......................................................................................................... 9 2.4.1 L’apprentissage Supervisé................................................................................................. 9 2.4.2 L’apprentissage Non Supervisé ....................................................................................... 10 2.5 Exemples d’application du Machine Learning ....................................................................... 11 2.5.1 La classification de texte ................................................................................................. 11 2.5.2 Le e-commerce et l’exemple Amazon ............................................................................. 11 2.5.3 Prédiction des prix .......................................................................................................... 11 2.5.4 Diagnostique médical ..................................................................................................... 12 2.6 Les Avantages des Machine learning ...................................................................................... 12 2.6.1 Amélioration continue .................................................................................................... 12 2.6.2 Automatisation pour tout ............................................................................................... 12 2.6.3 Identifier les tendances et les modèles ........................................................................... 12 2.7 Limites de Machine learning................................................................................................... 13 2.7.1 . L'acquisition des données ............................................................................................. 13 2.7.2 Choisissez des algorithmes ............................................................................................. 13 2.7.3 Consommation de temps ................................................................................................ 13 2.8 Machine Learning Pour Le Texte............................................................................................. 13 2.8.1 Classification .................................................................................................................. 13 2.8.2 Classification des textes .................................................................................................. 16 2.9 Algorithmes d’apprentissage .................................................................................................. 17 2.9.1 Naïve bayésiene ............................................................................................................. 17 2.9.1.1 Description du modèle Bayésienne ............................................................................. 18 2.9.1.2 Les Types de Naïve Bayes Classificateur ...................................................................... 19 2.9.1.3 Les Avantages de Naïve Bayes Classificateur .............................................................. 20 2.9.1.4 Les Inconvénients de Naïve Bayes Classificateur......................................................... 20 2.9.2 Régression logistique ...................................................................................................... 20 2.9.2.1 Définition ................................................................................................................... 20 2.9.2.2 La fonction Logistique pour calculer la probabilité d’une classe .................................. 21 2.9.2.3 La régression logistique pour classification multi-classes ............................................ 22 2.10 Conclusion ............................................................................................................................. 23 3 Chapitre 3: Conceptions du système ...................................................................................... 24 3.1 Introduction .......................................................................................................................... 24 3.2 Architecture générale............................................................................................................. 24 3.3 Architecture détaillée ............................................................................................................. 25 3.3.1 Pré-traitement................................................................................................................ 25 3.3.1.1 Tokenization ............................................................................................................... 26 3.3.1.2 Nettoyage (éliminer les mots vides) ............................................................................ 26 3.3.1.3 Encodage .................................................................................................................... 27 3.3.2 Apprentissage................................................................................................................. 28 3.3.2.1 Entraînement ............................................................................................................. 28 3.3.2.2 Validation ................................................................................................................... 28 3.3.2.3 Les score..................................................................................................................... 28 3.3.3 Utilisation ....................................................................................................................... 30 3.4 Conclusion ............................................................................................................................. 30 4 Chapitre 4: Implémentation .................................................................................................... 31 4.1 Introduction .......................................................................................................................... 31 4.2 Outils utilisés.......................................................................................................................... 31 4.2.1 Langage utilisé ................................................................................................................ 31 4.2.2 Bibliothèques utilisées.................................................................................................... 32 4.3 L’environnement de développement...................................................................................... 33 4.4 Application ............................................................................................................................. 34 4.4.1 Présentation De La Fenêtre D’application ....................................................................... 34 4.4.2 Les tache ........................................................................................................................ 34 4.4.2.1 Prétraitement ............................................................................................................. 34 4.4.2.2 L’entraînement ........................................................................................................... 36 4.4.2.3 Validation ................................................................................................................... 38 4.4.2.4 Utilisation ................................................................................................................... 39 4.5 Conclusion ............................................................................................................................. 39 CONCLUSION GENERALE ....................................................................................................................... 40 5 Bibliography............................................................................................................................... 41 |
Type de document : | Mémoire master |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
MINF/674 | Mémoire master | bibliothèque sciences exactes | Consultable |