Titre : | Approche Ontologie d’Indexation et de Filtrage des Documents Arabe à Base d’Agents |
Auteurs : | Samia Zouaoui, Auteur ; Khaled Rezeg, Directeur de thèse |
Type de document : | Thése doctorat |
Editeur : | Biskra [Algérie] : Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie, Université Mohamed Khider, 2020 |
Format : | 1 vol. (128 p.) / couv. ill. en coul / 30 cm |
Langues: | Anglais |
Mots-clés: | Arabic Documents,Arabic Ontology,Multi-agents System,Semantic Indexing,Semantic Similarit |
Résumé : |
In recent years, Automatic Natural Language Processing (ANLP) in Arabic has received a lot of nattention for the development of several applications such as question answering, information retrieval, and translation. However, there are few automated applications using Semantic Web technologies for
retrieving Arabic language documents despite the great demand and need for this data. In addition, the Arabic language presents researchers and developers of NLP applications with serious challenges. These challenges are due to the complexity of the specific morphological, syntactic, and semantic characteristics of the Arabic text, which requires the exploitation of semantic resources such as ontology. In this work, we propose a new approach based on ontology and multi-agent systems to index and filter Arabic documents. Our proposal is composed of three parts: (1) the construction of a pattern-based Arabic ontology calling it SchemNet; (2) the indexing and filtering of Arabic documents using the proposed ontology and semantic similarity for plagiarism detection; and (3) the modelling of the proposed approach using agents. This ontology includes the classification of patterns according to the semantic meaning they give to the related root. Our main objective is to improve the quality of the semantic indexing process based on the proposed ontology. Then, we calculate the semantic similarity between sentences using the Sorensen-Dice measure for the detection of plagiarism in Arabic documents. Indeed, our experiments are performed on two types of Arabic corpus: SemEval and AraPlagDet. The results obtained indicate that the proposed system has improved the performance of plagiarism detection in Arabic documents in both accuracy and time. |
Sommaire : |
Acknowledgements i
Dedication ii Abbreviations iii Abstract iii List of Figures xi List of Tables xiii Chapter 1 General Introduction 1 1.1 Overview . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Problematic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.3 Objectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Thesis Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Chapter 2 Arabic Language and Ontologies 6 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2 Arabic Language . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.2.1 Arabic Language Varieties . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.2 Arabic Language Structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.2.1 Arabic Letters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.2.2 Arabic Words . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2.2.3 Arabic Sentences . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.2.4 Arabic Documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.2.5 Morphological characteristics of the Arabic language . . . . . . . . . . . . 10 2.2.3 Arabic Resources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.4 Arabic Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.2.4.1 NLP Operations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.2.4.2 Treatment Levels in NLP . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 viiTable Of Contents viii 2.2.4.3 Arabic NLP Tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.2.4.4 Arabic NLP problems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.3 Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.3.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3.2 Ontologies Elements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 2.3.3 Ontologies Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.3.4 Ontology Languages . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.3.5 Ontology Construction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.3.6 Ontology Evaluation Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 2.3.7 Comparison Between Ontology and Database . . . . . . . . . . . . . . . . . . . . . 21 2.4 Related Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 2.4.1 Non-Islamic Domain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2.4.2 Islamic Domain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 2.4.3 Evaluation and Critics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Chapter 3 Indexing Arabic Documents & Semantic Similarity 32 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.2 Presentation of Semantic Indexing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.1 Indexing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.2 Indexing Types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3.2.3 Indexing Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 3.2.4 Indexing Techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 3.2.5 Filtering Information and Indexing Documents . . . . . . . . . . . . . . . . . . . . 36 3.3 Presentation of Semantic Similarity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 3.3.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.3.2 Types of Similarity Measures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4 Related Works . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4.1 Semantic Indexing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 3.4.2 Semantic Similarity . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Chapter 4 Mutli-Agents Systems and Plagiarism Detection 46 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2 Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 4.2.2 Characteristics of Agents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.3 Agent’s Communication . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2.4 Multi-Agents System (MAS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2.5 Applications of MAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.2.6 MAS and Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51Table Of Contents ix 4.3 Plagiarism Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 4.3.1 Why Plagiarism Detection is Important . . . . . . . . . . . . . . . . . . . . . . . . 55 4.3.2 PD Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.4 Plagiarism in Arabic Documents . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 4.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 Chapter 5 The Ontological Approach for the SI of Arabic Documents : Contribution 62 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62 5.2 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.1 Arabic WordNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.2 Arabic VerbNet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.3 The Construction of the SchemNet ontology . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.4 Method Construction of the Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.4.1 Application of the proposed ontology . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.4.1.1 Analysis Arabic Texts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.4.1.2 Islamic Inheritance Calculation System Based On Arabic Ontology (AraFamOnto) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.4.1.3 PD in Arabic Documents . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 5.4.1.4 Indexing Arabic Quranic Documents . . . . . . . . . . . . . . . . . . . . . 72 5.4.2 Evaluation of the Proposed Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.5 Indexing Arabic Documents using SchemNet . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.5.1 NLP Phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 5.5.1.1 Cleaning step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 5.5.1.2 Stemming step . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.5.1.3 Part-of-Speach (PoS) step . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.5.2 Indexing Phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.5.3 Evaluation Phase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 5.6 Modelling the Proposed Approach Using Agents . . . . . . . . . . . . . . . . . . . . . . . . 81 5.6.1 Description of Agents’ Roles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 5.6.1.1 Cleaning Agent (CA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 5.6.1.2 Tagging Agent (TA) or PoS Agent . . . . . . . . . . . . . . . . . . . . . . 82 5.6.1.3 Stemmer Agent (SA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 5.6.1.4 Indexing Agent (IdA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.6.1.5 Ontology Agent (OA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 5.6.1.6 Interface Agent (IA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.6.1.7 Supervisor Agent (SpA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.6.1.8 Network Agent (NA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 5.6.1.9 Mobile Agent (MA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.6.2 The Communication between agents . . . . . . . . . . . . . . . . . . . . . . . . . . 86 5.6.2.1 Semantic Document Indexing (SDI) . . . . . . . . . . . . . . . . . . . . . 87Table Of Contents x 5.6.2.2 Plagiarism Detection Process . . . . . . . . . . . . . . . . . . . . . . . . . 88 5.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Chapter 6 Experimental Results & Measures Evaluation 90 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2 Implementation tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2.1 Protégé editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90 6.2.2 Apache Jena . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.2.3 Eclipse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 6.2.4 Jade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92 6.2.5 Farasa : Advanced tools for Arabic . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 6.2.6 Khoja Stemmer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.3 Experimentation and Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.3.1 DataSets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 6.3.2 Evaluation Metrics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 6.4 Results and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 6.4.1 First Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 6.4.2 Second Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 6.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Chapter 7 General Conclusion and Perspectives 108 7.1 General Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 7.2 Limitations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 7.3 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 Bibliography 111 Appendix A: Publications List 111 .1 Publications List . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 .1.1 International Journals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 .1.2 International Communications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 .1.3 National Communications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 .1.4 Workshops . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 .1.5 Book . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112 Bibliography |
Disponibilité (1)
Cote | Support | Localisation | Statut |
---|---|---|---|
TINF/153 | Théses de doctorat | bibliothèque sciences exactes | Consultable |