Titre : | Topic Modeling For Arabic Short Texts |
Auteurs : | Oumaima Heriz, Auteur ; Okba Tibemacine, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2022 |
Format : | 1 vol. (66p.) / couv. ill. en coul / 30 cm |
Langues: | Français |
Résumé : |
Topic Modeling est un modèle génératif probabiliste qui a été appliqué à l'exploration de texte et à la recherche d'informations. Les topic models récents obtiennent de bonnes performances lorsqu'il s'agit de textes longs en anglais. Cependant, le sujet reste difficile avec des textes courts, en particulier avec des textes courts non anglais en raison de nombreux facteurs tels que la rareté. Dans ce travail, nous menons une étude sur l'application des topic modeling récentes dédiées aux textes longs anglais sur des textes courts arabes, en proposant une comparaison entre ces modèles et leurs performances. Nous expliquons les principales différences entre les algorithmes récents, en fournissant des intuitions sur la façon dont ils fonctionnent sous le capot et en expliquant les exigences de prétraitement pour chaque algorithme. De plus, nous fournissons leur réglage et évaluons comparativement leurs performances sur le regroupement de texte court à partir de nombreux ensembles de données arabes courts. |
Sommaire : |
General Introduction 12 1 Arabic Natural Language Processing 13 1.1 Introduction 13 1.2 Arabic language 13 1.3 Arabic language characteristics 14 1.4 Arabic language complexity 14 1.5 Arabic natural language processing 15 1.5.1 Natural language processing 15 1.5.2 Arabic natural language processing application 15 1.5.3 Necessity and needs in ANLP 15 1.6 Machine Learning based ANLP process and evolution16 1.6.1 Corpora 16 1.6.2 Preprocessing 16 1.6.3 Supervised machine learning 20 1.6.4 Unsupervised Machine Learning. 21 1.7 Conclusion 22 2 Topic Modeling 23 2.1 Introduction 23 2.2 Topic Modeling 23 2.3 Topic modeling Application 24 2.4 Topic modeling for short text 25 25section.2.5 2.6 Classification of STTM. 26 2.6.1 Dirichlet multinomial mixture 26 2.6.2 Global word co-occurrences . 26 2.6.3 Self-aggregation 27 2.7 STTM techniques 27 2.7.1 Dirichlet multinomial mixture algortithms 27 2.7.2 Global word co-occurrences algortithms 30 2.7.3 Self-aggregation algortithms 31 7CONTENTS 8 2.8 Conclusion 34 3 Topic Models for Arabic Short Text 35 3.1 Introduction 35 3.2 Related Studies 35 3.3 Methodology 36 3.3.1 Methods selection 36 3.3.2 Dataset Collection 37 3.3.3 Pre-processing 37 3.3.4 Modeling 41 3.3.5 Tuning parameters . 42 3.3.6 Evaluation Metrics 42 3.3.7 Analysis and comparaison 43 3.4 Conclusion 45 4 Implementation and Results 46 4.1 Introduction 46 4.2 Language and tools 46 4.2.1 Anaconda . 47 4.3 PC Performance 47 4.3.1 Python 48 4.4 Packages 49 4.4.1 Pandas 50 4.4.2 NumPy 50 4.4.3 Gensim .. 50 4.4.4 NLTK 51 4.4.5 Scikit-learn 51 4.4.7 Matplotlib 51 4.5 Experiment description 52 4.5.1 Load required packages 52 4.5.2 Dataset 53 4.5.3 Data Pre-processing 55 4.5.4 Modeling part 57 4.5.5 Comparison the performance by score 63 4.6 Results 65 4.7 Conclusion 65 General Conclusion 66 |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
MINF/740 | Mémoire master | bibliothèque sciences exactes | Consultable |