Résumé :
|
La recherche d’information reste toujours un domaine en pleine expansion et engendre de grands défis. Avec l’évolution extraordinaire des quantités d’informations textuelles sur le web, les systèmes d’informations, les réseaux sociaux, ...etc, le développement de systèmes de recherche d’informations précis et rapide est devenu une nécessité plus que jamais. Les systèmes proposés dans la littérature vont au delà des comparaisons simples de mots vers l’utilisation des relations sémantiques. Ces dernières sont extraites à partir de corpus dédiés et modélisés sous formes de matrices, graphes ou ontologies et utilisées pour la recherches des réponses pertinentes aux requêtes des utilisateurs. Dans cette direction, des recherches récentes proposent l’utilisation des ressources externes telles que les ontologies et les dictionnaires ou l’utilisation des représentations vectorielles à base de l’apprentissage automatique par réseaux de neurones artificiels tel que "Word2vec". Des extension proposent même des codage "Doc2vec" pour des documents entiers. Les systèmes de recherche d’informations en langue arabe souffrent de trois problèmes majeurs : (a) Manques de corpus et collections de test, (b) Les systèmes de recherche d’information en langue arabe manquent de précision et ne sont pas comparables à ceux des langues latines. (c) La langue arabe est une langue particulière qui diffère des langues latines en structure et caractéristiques, et par conséquent les méthodes de recherche d’informations nécessitent leur révision et adaptation pour leur utilisation pour la langue arabe. D’une part, l’élaboration des collections de test pour la langue arabe nécessite tout un travail de nettoyage, de normalisation, de filtrage, et de modélisation en structure appropriées et d’autre part le développement des méthodes de recherche d’information utilisant ces collections avec des ressources externes ou par apprentissage automatique et adaptées à la langue arabe nécessite aussi des efforts considérables de recherche. L’objectif de cette thèse est l’étude des méthodes sémantiques pour l’amélioration des systèmes de recherche d’informations et leur adaptation pour la prise en charge de la langue arabe.
|