| |
Générateur de requêtes : g-REQ
Principe
La génération d'hypothèses consiste à étendre une portion de texte à l'ensemble pondéré des termes qui y sont associés.
L'extension se fait automatiquement, à partir d'informations contenues dans une base de données dédiée, appelée « base de connaissances », ou KDB.
La proximité des termes générés avec le texte initial (typiquement : une requête saisie par un utilisateur) est variable :
de 100% : on considère que le terme généré peut être utilisé indifféremment à la place du terme d'origine.
à une valeur minimale, paramétrable, qui peut correspondre à un mot ou une expression sémantiquement éloignée du terme d'origine.
Le système de génération d'hypothèses construit un graphe, c'est à dire un réseau de termes dérivés de ceux de la requête initiale, à partir d'informations linguistiques :
phonétiques : mots qui « sonnent » comme le mot initial
morphologiques : mots qui contiennent (presque) les mêmes lettres, dans (presque) le même ordre, ou de mots de même radical.
Pour faire des propositions de termes proches, la génération d'hypothèses va puiser dans la KDB. Celle-ci doit donc contenir de l'information. Pour enrichir la KDB, il est nécessaire d'y insérer le vocabulaire manipulé par l'application mettant en ouvre la génération d'hypothèses :
Mots
Expressions
Synonymes et acronymes
Requêtes proches.
Cette insertion se fera à partir de sources d'informations disponibles par ailleurs, ou par un processus de saisie dédié.
Elle pourra être totalement ou partiellement automatisée par l'utilisation de composants AMIT complémentaires : g-MIL, générateur de marqueurs et g-EXT, extracteur de terminologie.
Dans le cas particulier de la génération de requêtes proches (related queries), on pourra alimenter le log des requêtes :
au fil de l'utilisation de l'application concernée
par l'outil dédié d'initialisation de l'expansion.
Un identificateur peut être associé à chaque requête de cette base, de sorte que l'algorithme de recherche permettra de favoriser les requêtes d'utilisateurs partageant habituellement le même vocabulaire.
g-REQ inclut un composant permettant la reconnaissance automatique de la langue (et de l'encodage) d'un mot ou d'un texte, parmi le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais et le hollandais.
Applications
g-REQ peut être utilisée pour :
Générer diverses variations d'une requête
Dans une application de type « moteur de recherche », et selon les capacités du langage d'interrogation utilisé, il peut être intéressant de générer automatiquement les différentes clauses « OU » auxquelles l'utilisateur n'aura pas pensé.
On pourra aussi proposer des fonctions interactives telles que le « Essayez avec cette orthographe » de Google (« Did you mean », dans Google.com).
Proposer des Requêtes Proches
Quelquefois appelée « Collaborative Filtering », cette fonctionnalité peut permettre de porter à la connaissance d'un utilisateur les thèmes de recherche similaires adressés par d'autres.
Gérer un helpdesk et des FAQ
L'accès aux questions déjà posées (et donc aux réponses correspondantes) permet d'améliorer nettement l'efficacité d'un service de support ou l'accès à un support en ligne.
Enrichir la catégorisation et le dédoublonnage
Elaborer le graphe des hypothèses pondérées d'un SN issu de g-MIL permet d'en enrichir la signification et d'améliorer considérablement les applications possibles de cette technologie.
Exemple
Requête
Biographie de Pabol
Hypothèses (lg=langue, w=poids de l’hypothèse) :
biographie lg=FR w=100
biographies lg=FR w=90
biographe lg=FR w=90
biographique lg=FR w=80
biographee lg=EN w=85
biographic lg=EN w=85
biographise lg=EN w=85
biographies lg=EN w=85
biography lg=EN w=85
de lg=XX w=100 // stop word (ignored)
Pablo lg=FR w=90
Pablo lg=EN w=85
Paolo lg=XX w=80
papal lg=FR w=75
pavel lg=XX w=75
papel lg=XX w=75
Requêtes proches :
Biographie de Pablo Picasso
Biographie de Pablo Neruda
Biographie de Pablo Escobar
NB : de telles requêtes seront générées
à partir de « Biographie de Pablo », correctement
orthographiée.
|
|