g-Mil g-Req g-Ext g-Rak g-Mir g-Col g-Frame Architecture
 

Générateur de requêtes : g-REQ


Principe

La génération d'hypothèses consiste à étendre une portion de texte à l'ensemble pondéré des termes qui y sont associés.

L'extension se fait automatiquement, à partir d'informations contenues dans une base de données dédiée, appelée « base de connaissances », ou KDB.

La proximité des termes générés avec le texte initial (typiquement : une requête saisie par un utilisateur) est variable :

  • de 100% : on considère que le terme généré peut être utilisé indifféremment à la place du terme d'origine.

  • à une valeur minimale, paramétrable, qui peut correspondre à un mot ou une expression sémantiquement éloignée du terme d'origine.


  • Le système de génération d'hypothèses construit un graphe, c'est à dire un réseau de termes dérivés de ceux de la requête initiale, à partir d'informations linguistiques :

  • phonétiques : mots qui « sonnent » comme le mot initial

  • morphologiques : mots qui contiennent (presque) les mêmes lettres, dans (presque) le même ordre, ou de mots de même radical.

  • Pour faire des propositions de termes proches, la génération d'hypothèses va puiser dans la KDB. Celle-ci doit donc contenir de l'information. Pour enrichir la KDB, il est nécessaire d'y insérer le vocabulaire manipulé par l'application mettant en ouvre la génération d'hypothèses :

  • Mots
  • Expressions
  • Synonymes et acronymes
  • Requêtes proches.


  • Cette insertion se fera à partir de sources d'informations disponibles par ailleurs, ou par un processus de saisie dédié.

    Elle pourra être totalement ou partiellement automatisée par l'utilisation de composants AMIT complémentaires : g-MIL, générateur de marqueurs et g-EXT, extracteur de terminologie.

    Dans le cas particulier de la génération de requêtes proches (related queries), on pourra alimenter le log des requêtes :

  • au fil de l'utilisation de l'application concernée
  • par l'outil dédié d'initialisation de l'expansion.

    Un identificateur peut être associé à chaque requête de cette base, de sorte que l'algorithme de recherche permettra de favoriser les requêtes d'utilisateurs partageant habituellement le même vocabulaire.

    g-REQ inclut un composant permettant la reconnaissance automatique de la langue (et de l'encodage) d'un mot ou d'un texte, parmi le français, l'anglais, l'allemand, l'espagnol, l'italien, le portugais et le hollandais.


    Applications


    g-REQ peut être utilisée pour :


    Générer diverses variations d'une requête
    Dans une application de type « moteur de recherche », et selon les capacités du langage d'interrogation utilisé, il peut être intéressant de générer automatiquement les différentes clauses « OU » auxquelles l'utilisateur n'aura pas pensé.

    On pourra aussi proposer des fonctions interactives telles que le « Essayez avec cette orthographe » de Google (« Did you mean », dans Google.com).


    Proposer des Requêtes Proches
    Quelquefois appelée « Collaborative Filtering », cette fonctionnalité peut permettre de porter à la connaissance d'un utilisateur les thèmes de recherche similaires adressés par d'autres.


    Gérer un helpdesk et des FAQ
    L'accès aux questions déjà posées (et donc aux réponses correspondantes) permet d'améliorer nettement l'efficacité d'un service de support ou l'accès à un support en ligne.


    Enrichir la catégorisation et le dédoublonnage
    Elaborer le graphe des hypothèses pondérées d'un SN issu de g-MIL permet d'en enrichir la signification et d'améliorer considérablement les applications possibles de cette technologie.


    Exemple
  • Requête

    Biographie de Pabol

    Hypothèses (lg=langue, w=poids de l’hypothèse) :

    biographie      lg=FR    w=100
    biographies     lg=FR    w=90
    biographe       lg=FR    w=90
    biographique    lg=FR    w=80
    biographee      lg=EN    w=85
    biographic      lg=EN    w=85
    biographise     lg=EN    w=85
    biographies     lg=EN    w=85
    biography       lg=EN    w=85

    de              lg=XX    w=100 // stop word (ignored)

    Pablo           lg=FR    w=90
    Pablo           lg=EN    w=85
    Paolo           lg=XX    w=80
    papal           lg=FR    w=75
    pavel           lg=XX    w=75
    papel           lg=XX    w=75

    Requêtes proches :

    Biographie de Pablo Picasso
    Biographie de Pablo Neruda
    Biographie de Pablo Escobar

    NB : de telles requêtes seront générées à partir de « Biographie de Pablo », correctement orthographiée.

     


    Contact |>>> www.albert.com