Titre : | Approche Ontologie d'Indexation et de Filtrage des Documents Arabe à Base d'Agents |
Auteurs : | Samia Zouaoui, Auteur ; Khaled Rezeg, Directeur de thèse |
Type de document : | Monographie imprimée |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2020 |
Format : | 1 vol. (128p.) / couv. ill. en coul / 30 cm |
Langues: | Anglais |
Mots-clés: | Documents Arabe,Ontologie Arabe,Indexation Sémantique,Système Multi-agents,Similarité Sémantique |
Résumé : |
In recent years, Automatic Natural Language Processing (ANLP) in Arabic has received a lot of attention for the development of several applications such as question answering, information retrieval, and translation. However, there are few automated applications using Semantic Web technologies for retrieving Arabic language documents despite the great demand and need for this data. In addition, the Arabic language presents researchers and developers of NLP applications with serious challenges. These challenges are due to the complexity of the specific morphological, syntactic, and semantic characteristics of the Arabic text, which requires the exploitation of semantic resources such as ontology. In this work, we propose a new approach based on ontology and multi-agent systems to index and filter Arabic documents. Our proposal is composed of three parts: (1) the construction of a pattern-based Arabic ontology calling it SchemNet; (2) the indexing and filtering of Arabic documents using the proposed ontology and semantic similarity for plagiarism detection; and (3) the modelling of the proposed approach using agents. This ontology includes the classification of patterns according to the semantic meaning they give to the related root. Our main objective is to improve the quality of the semantic indexing process based on the proposed ontology. Then, we calculate the semantic similarity between sentences using the Sorensen-Dice measure for the detection of plagiarism in Arabic documents. Indeed, our experiments are performed on two types of Arabic corpus: SemEval and AraPlagDet. The results obtained indicate that the proposed system has improved the performance of plagiarism detection in Arabic documents in both accuracy and time. |
Sommaire : |
Contents Acknowledgements i Dedication ii Abbreviations iii Abstract iii List of Figuresx i List of Tablesx iii Chapter 1 General Introduction 11.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Problematic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.3 Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.4 Thesis Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Chapter 2 Arabic Language and Ontologies62.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Arabic Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.2.1 Arabic Language Varieties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 .2.2 Arabic Language Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 .2.2.1 Arabic Letters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 .2.2.2 Arabic Words . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 .2.2.3 Arabic Sentences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 .2.2.4 Arabic Documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 .2.2.5 Morphological characteristics of the Arabic language . . . . . . . . . . . . 102 .2.3 Arabic Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 .2.4 Arabic Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . 122 .2.4.1 NLP Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 .2.4.2 Treatment Levels in NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . 13vii 2.2.4.3 Arabic NLP Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142. 2.4.4 Arabic NLP problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 .3 Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152. 3.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162. 3.2 Ontologies Elements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162. 3.3 Ontologies Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172 .3.4 Ontology Languages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 .3.5 Ontology Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 .3.6 Ontology Evaluation Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 .3.7 Comparison Between Ontology and Database . . . . . . . . . . . . . . . . . . . . . 212 .4 Related Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232 .4.1 Non-Islamic Domain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 .4.2 Islamic Domain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252 .4.3 Evaluation and Critics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272 .5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Chapter 3 Indexing Arabic Documents & Semantic Similarity323.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2 Presentation of Semantic Indexing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 32.1 Indexing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.2 Indexing Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.3 Indexing Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2.4 Indexing Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2.5 Filtering Information and Indexing Documents . . . . . . . . . . . . . . . . . . . . 363 .3 Presentation of Semantic Similarity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373 .3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 .3.2 Types of Similarity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4 Related Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4.1 Semantic Indexing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4.2 Semantic Similarity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Chapter 4 Mutli-Agents Systems and Plagiarism Detection464.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.2 Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.2.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.2 Characteristics of Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.3 Agent’s Communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.4 Multi-Agents System (MAS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2.5 Applications of MAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2.6 MAS and Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 Table Of Contentsix4.3 Plagiarism Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.3.1 Why Plagiarism Detection is Important . . . . . . . . . . . . . . . . . . . . . . . . 55 4.3.2 PD Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.4 Plagiarism in Arabic Documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Chapter 5 The Ontological Approach for the SI of Arabic Documents : Contribution 62 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.2 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.1 Arabic WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.2 Arabic VerbNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.3 The Construction of the SchemNet ontology . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.4 Method Construction of the Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.4.1 Application of the proposed ontology . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.4.1.1 Analysis Arabic Texts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.4.1.2 Islamic Inheritance Calculation System Based On Arabic Ontology(AraFamOnto) . . . . . . . . . . . . . . . . . 70 5.4.1.3 PD in Arabic Documents . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.4.1.4 Indexing Arabic Quranic Documents . . . . . . . . . . . . . . . . . . . . . 72 5.4.2 Evaluation of the Proposed Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.5 Indexing Arabic Documents using SchemNet . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.5.1 NLP Phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.5.1.1 Cleaning step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.5.1.2 Stemming step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.5.1.3 Part-of-Speach (PoS) step . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.5.2 Indexing Phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.5.3 Evaluation Phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.6 Modelling the Proposed Approach Using Agents . . . . . . . . . . . . . . . . . . . . . . . . 81 5.6.1 Description of Agents’ Roles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.6.1.1 Cleaning Agent (CA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.6.1.2 Tagging Agent (TA) or PoS Agent . . . . . . . . . . . . . . . . . . . . . . 82 5.6.1.3 Stemmer Agent (SA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.6.1.4 Indexing Agent (IdA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.6.1.5 Ontology Agent (OA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.6.1.6 Interface Agent (IA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.6.1.7 Supervisor Agent (SpA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.6.1.8 Network Agent (NA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.6.1.9 Mobile Agent (MA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.6.2 The Communication between agents . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.6.2.1 Semantic Document Indexing (SDI) . . . . . . . . . . . . . . . . . . . . . 87 5.6.2.2 Plagiarism Detection Process . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Chapter 6 Experimental Results & Measures Evaluation90 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2 Implementation tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 90 6.2.1 Protégé editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2.2 Apache Jena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.2.3 Eclipse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.2.4 Jade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6.2.5 Farasa : Advanced tools for Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 6.2.6 Khoja Stemmer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.3 Experimentation and Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.3.1 DataSets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.3.2 Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 6.4 Results and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.4.1 First Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.4.2 Second Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Chapter 7 General Conclusion and Perspectives1087.1 General Conclusion . . . . . . . . . . . . . . . . . . . . . . 108 7.2 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 7.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Bibliography111Appendix A: Publications List 111.1 Publications List . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 .1.1 International Journals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.1.2 International Communications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1.3 National Communications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 .1.4 Workshops . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 .1.5 Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Bibliography113 |