Résumé :
|
Au cours des dernières années, le traitement automatique du langage naturel (TALN) en arabe a eu beaucoup d'attention pour le développement de plusieurs applications telles que la réponse à la question, la recherche d'informations et la traduction. Cependant, il y a peu d'applications automatisées utilisées des technologies du Web sémantique pour la récupération des documents en langue arabe malgré la grande demande et le besoin de ces données. En outre, la langue arabe présente aux chercheurs et aux développeurs d'applications TLN des défis sérieux. Ces défis sont dus à la complexité des caractéristiques morphologiques, syntaxiques et sémantiques spécifiques du texte arabe qui nécessite l'exploitation des ressources sémantiques telles que l'ontologie. Dans ce travail, nous proposons une nouvelle approche basée sur l'ontologie et les systèmes multi-agents pour indexer et filtrer les documents arabes. Notre proposition est composée de trois parties: (1) la construction d’une ontologie Arabe basée sur les schèmes en l’appelant SchemNet; (2) l’indexation et filtrage des documents Arabe en utilisant l'ontologie proposée et la similarité sémantique; et (3) Modélisation de l’approche proposé par les agents. Cette ontologie comprend la classification des modèles selon le sens sémantique qu'ils donnent à la racine qui lui est liée. Notre objectif principal est d'améliorer la qualité du processus d'indexation sémantique par l'utilisation de l'ontologie proposée. Puis, On calcule la similarité sémantique en utilisant le mesure Sorensen-Dice pour la détection de plagiat dans les documents Arabe. En effet, nos expérimentations sont effectuées sur deux types du dataset Arabe : SemEval et AraPlagDet. Les résultats obtenus indiquent que le système proposé a amélioré la performance de la détection du plagiat dans les documents Arabes en termes de précision et du temps.
|