De nos jours, la vie au quotidien est difficilement imaginable sans accès à l’Internet. Nous sommes tous devenus des experts en recherche d’informations : se renseigner sur un domaine d’activité, trouver un emploi, réserver ses vacances et bien d’autres usages. Nos doigts sont des champions olympiques en saisie des mots-clés dans les onglets de recherche.
Pourtant, ce n’était pas toujours le cas. Il y a encore une dizaine d’années, l’accès à l’information était loin d’être aussi facile. La croissance technologique que la recherche d’informations a vu dans cette décennie est assez incroyable. Pour illustrer l’augmentation de la quantité des données, prenons l’exemple de Wikipédia. Depuis 2006, le nombre d’articles en anglais s’est multiplié par cinq pour atteindre 5,5 M, tandis que la quantité des articles en français a été décuplée avec environ 2 M d’articles disponibles aujourd’hui. Les technologies de stockage et d’indexation des données ont suivi cette tendance qui résulte en un grand nombre de domaines d’activités liés au BigData.
Ces évolutions nous offrent un large choix de moteurs de recherche allant des plus connus, comme Google ou Yahoo, à ceux militant pour le respect de la vie privée (DuckDuckGo), pour des causes sociales (Lilo) ou écologiques (Ecosia). Quelque soit le moteur de recherche, le mot d’ordre est le confort des utilisateurs.
Le confort des utilisateurs dépend, certes, de la pertinence des résultats par rapport à une requête, mais aussi de la vitesse d’exécution et de l’ergonomie des interfaces graphiques. Ces trois facteurs-clés sont au rendez-vous lorsque l’utilisateur cherche des informations générales en anglais, français, allemand ou dans une autre langue riche en ressources. Les limites des moteurs actuels sont en effet liées aux langues, aux domaines de spécialité, à l’interprétation de la requête de l’utilisateur et aux données.
Des solutions à ces problématiques émergent de la recherche scientifique et des start ups innovantes. Ce billet de blog vous propose de faire un tour des technologies linguistiques et sémantiques qui vont définir nos futures expériences, mais aussi d’imaginer des fonctionnalités qui pourraient nous simplifier la vie.
Dis-moi quelles langues tu parles…
Les langues ne sont pas toutes égales face à l’histoire et la mondialisation. Ainsi, l’anglais a de loin devancé les autres langues en matière de la quantité de données disponibles. Les langues d’autres pays développés suivent, mais avec un grand retard. L’exemple de Wikipédia évoqué précédemment montre que le nombre d’articles en anglais est plus de deux fois important que celui des articles en français. Les spécialistes du traitement automatique des langues (TAL) distinguent également les langues peu dotées, pour lesquelles la quantité de données est encore moins importante.
Si l’on parle ici de la quantité de données, c’est parce qu’elle est corrélée avec l’accès au savoir. Dans les domaines de spécialité, l’écart entre les langues riches en ressources et celles peu dotées est évident. Par exemple, la requête “semantic search” sur Google en anglais fournit plus de 6 M de résultats, tandis que la requête en français “recherche sémantique” en trouve deux fois moins. L’essai en ukrainien “семантичний пошук” ne retourne que 132 K résultats. Ces écarts importants forcent les utilisateurs à faire leurs requêtes en anglais, ce qui défavorise ceux qui ne parlent pas cette langue.
Pourtant, l’accès général au savoir peut favoriser le développement social, scientifique et culturel. Les pays et les régions entiers pourraient gagner si l’ensemble des connaissances de l’humanité était à la portée de leurs citoyens.
Le développement de la traduction automatique permet déjà imaginer les systèmes où la requête d’utilisateur est traduite en d’autres langues pour trouver plus de documents pertinents qui pourront à leur tour être traduits en langue source. La traduction automatique a également ses limites, dont la qualité et la disponibilité des modèles pour les langues peu dotées. Toutefois, l’enjeu d’une telle technologie est assez important pour justifier sa mise en place.
Aller au-delà des mots-clés
“Eau”, “H2O”, “Flotte”, “Water”, “Wasser” : tous ces mots désignent un même concept. C’est le principe des concepts et des labels qui y sont associés. Séparer la forme du sens a plusieurs avantages. Avant tout, les concepts et les relations sémantiques entre eux existent en dehors d’une langue particulière et sont donc utilisables quelque soit la langue. Ce principe est utilisé dans les technologies sémantiques qui seront à la base du Web 3.0.
La recherche effectuée au niveau conceptuel est d’avance plus puissante, car elle prend en compte la synonymie, c’est-à-dire les mots désignant le même concept, comme “Eau” et “Flotte” (fam.), et restreint le sens recherché (“Eau de parfum” n’est pas la même chose que “Eau”). De plus, ce type de recherche est naturellement multilingue.
Recherche sémantique
La recherche sémantique implique l’annotation des documents au niveau sémantique, comme l’illustre la figure ci-dessus. Les requêtes en langue naturelle sont elles-aussi interprétées afin d’identifier les correspondances dans les documents indexés au niveau sémantique. L’exemple ci-dessus représente un modèle très simpliste d’une infrastructure qui peut en réalité contenir plus de modules et de ressources.
Ressources sémantiques et Linked Open Data
Les modules d’annotation et d’interprétation sémantique s’appuient sur des ontologies et des bases de données sémantiques. Les ontologies sont des structures de concepts liés entre eux par des relations hiérarchiques (ex. : le chat est un animal) et non-hiérarchiques (toutes les autres relations, dont celles définies en fonction des besoins d’un projet). Ces ressources peuvent être créées sur mesure ou venir des données connectées ouvertes (Linked Open Data ou LOD).
Les ressources LOD sont organisées en graphes de connaissances selon le modèle des triplets RDF composés de deux concepts et d’une relation entre eux. Ces graphes sont exploitables via les requêtes SPARQL. Les exemples des requêtes SPARQL sont disponibles ici. Elles permettent de questionner plusieurs niveaux dans la base, par exemple de trouver parmi les membres de la classe “Personnes célèbres” ceux qui ont joué dans des films dont le réalisateur était d’origine allemande.
Un des moteurs de recherche basé sur cette technologie est GraphScope développé par la start up allemande SearchHouse, dont la démo est disponible sur demande.
Vers des résultats plus compréhensibles
La lisibilité d’un document mérite d’être prise en compte dans la sélection des résultats pertinents. En effet, les résultats d’une requête peuvent mélanger des posts issus des forums, des sites gouvernementaux, des articles Wikipédia, des travaux scientifiques, des textes de lois, etc. A priori, ces documents ne visent pas le même public et varient en difficulté de lecture.
Il existe des formules permettant d’estimer si un document est facile à lire ou s’il nécessite une formation supérieure pour être lu sans difficulté. Une de ces formules est Flesch–Kincaid. Elle prend en compte la longueur des phrases et le nombre de syllabes dans les mots, pénalisant les phrases longues et des mots polysyllabiques. Développée pour l’anglais, cette formule fonctionne relativement bien pour le français.
Pour illustrer le test de lisibilité, prenons l’exemple de l’article “Air” sur Wikipédia qui s’adresse au grand public et le même article dans Wikimini, encyclopédie pour les enfants. L’outil d’évaluation en ligne a estimé l’indice de lisibilité de l’article adulte à 53,29 qui correspond à “assez difficile à lire”. L’article pour les enfants a obtenu le score de 72,34 signifiant “assez facile à lire”.
Bien que ces indices soient relatifs, ils donnent une idée sur la complexité de lecture. La prise en compte de ce test pourrait améliorer les moteurs de recherche pour les enfants, comme SafeSearchKids. De plus, combiné avec l’analyse terminologique, le test de lisibilité peut contribuer à la customisation de la recherche dans un domaine de spécialité.
Indexation des contenus média
Un des projets de pointe est xLiMe mené par l’équipe de Dr Achim Rettinger à KIT (Karlsruhe Institute of Technology). xLiMe est une plate-forme d’analyse sémantique cross-langue et cross-média qui représente une fusion des technologies sémantiques décrites précédemment.
La plate-forme permet la recherche simultanée en plusieurs langues et sur plusieurs supports. Notamment, elle cherche dans les contenus audio et vidéo, et non seulement dans leurs méta-données. Dans l’exemple illustré par la figure ci-dessus, la requête Brexit (utilisée dans le showcase de xLiMe) a retourné des tweets, des enregistrements audio, des articles et des concepts voisins marqués par le petit citron vert.
En quelque sorte, xLiMe offre une vision futuriste de moteurs de recherche. Le projet est terminé en 2016, mais la suite est attendue avec impatience.
En guise de conclusion
Ce bref aperçu des technologies linguistiques et sémantiques permet de se faire une idée des perspectives qui se profilent dans la recherche d’informations. Nous continuerons à suivre les dernières avancées dans nos futures publications.