g-Mil g-Req g-Ext g-Rak g-Mir g-Col g-Frame Architecture
 



Générateur de marqueurs : g-MIL


Principe

g-MIL, le générateur de Marqueurs Indépendant de la Langue de AMI Software, permet d'identifier automatiquement les passages les plus significatifs d'un texte. Le marqueur est un élément clef de la signature d'un texte.

Sans l'aide de dictionnaire ou de quelque intervention manuelle, et de manière quasi-instantanée, g-MIL analyse un texte et produit une liste des principaux Syntagmes Nominaux (SN) rencontrés, c'est à dire des principaux groupes de mots, ceux qui donnent réellement le sens du texte. Les SN sont pondérés en fonction de leur importance.

On dit qu'il est indépendant de la langue car il opère, comme tous les composants AMIT, en français, anglais, espagnol, portugais, allemand, italien et hollandais.


Applications


g-MIL peut être utilisé pour :

Optimiser la pertinence d'un moteur
Un indexeur full-text créé généralement un index inversé, permettant de retrouver l'ensemble des documents contenant tel(s) mot(s). On optimise la pertinence des réponses en tenant compte d'informations telles que la fréquence d'apparition d'un terme dans un texte ou la proximité des mots de la requête.

En indexant un document sur les Syntagmes Nominaux qu'il contient, on saura réellement retrouver un document qui « parle de » tel sujet, plutôt que de simplement « contenir » tel(s) mot(s).

Les SN sont en effet pondérés, en fonction de leur importance dans le texte d'origine.


Créer un résumé
Concaténer les phrases contenant les SN les plus lourds permet de créer très simplement un extrait du document qui en résume l'essentiel.

On peut également « biaiser » le résumé, en demandant à g-MIL de favoriser les phrases contenant des SN qui contiennent eux mêmes des termes spécifiques. C'est le Résumé dans le Contexte de la Requête, quelquefois appelé « Query Biased Summary ». Créer un résumé en contexte sur un document contenant des dépêches, permettra par exemple d'en extraire automatiquement une en particulier.


Classer un document
On peut chercher à identifier les principaux sujets traités par un document avant de le catégoriser, de façon automatique ou semi-automatique.


Dédoublonner l'information
De même, savoir « de quoi parle » un document permet de vérifier s'il ressemble à un autre document du même corpus.


Gérer le CLIR
CLIR signifie Cross Language Information Retrieval. Le principe est de permettre de retrouver l'information quelle que soit la langue dans laquelle elle est rédigée, à partir d'une requête dans une seule langue.

Les solutions les plus simples passent par la traduction des requêtes. En effet, la traduction des documents entiers est souvent longue et coûteuse, d'autant que les utilisateurs se satisfont souvent des réponses d'origine, non traduites. Il leur est simplement difficile d'exprimer une requête dans une langue étrangère.

Ces techniques peuvent être considérablement enrichies par la traduction, au niveau de chaque document, des principaux SN qu'ils contiennent. La traduction d'expressions est en effet plus performante que la traduction mot à mot.


Surligner et naviguer dans un texte
Une application simple et fort utile peut être le surligneur électronique, qui, en marquant tous les SN d'un texte, équivaut à en permettre une lecture rapide. Les termes ainsi surlignés peuvent être transformés en hyperliens qui deviendront à leur tout les requêtes d'une nouvelle recherche sur le moteur, par exemple.


Offrir le « more like this»
On peut utiliser g-MIL pour extraire l'essentiel d'un texte et bâtir une requête à partir des SN ainsi extraits. Cette requête, soumise à un moteur de recherche tel que g-MIR permettra de trouver les documents dont le sens est proche du texte initial. Cette fonction prend tout son sens lorsqu'elle est combinée avec le générateur de requêtes de AMI Software.


Compresser l'information
Stocker l'information textuelle prend de la place, avec tout ce que cela signifie d'inconvénients : espace disque, volume des index, lenteur des traitements, difficultés à retrouver l'essentiel.

En outre, certaines bases de données ne sont pas conçues pour stocker de l'information textuelle, non structurée : certains champs, de type commentaire, ne doivent contenir que l'essentiel d'une information plus générique.

Dans les deux cas, g-MIL peut être utilisé pour automatiser totalement ou partiellement l'extraction de l'information à stocker.


Router des messages
L'analyse de messages (e-mails) par g-MIL peut permettre un routage automatique vers leur(s) destinataire(s) en détectant automatiquement le sujet traité, en faisant abstraction du bruit généré par les tournures de style et autres formules de politesse.


Exemple

Voici un exemple des SN calculés par g-MIL sur le texte d'un article de presse en français pris au hasard. Les paramètres par défaut de g-MIL ont été conservés pour cette illustration.

Texte analysé

L'Union africaine tente de passer le relais à l'ONU au Darfour.

L'Union africaine (UA) était réunie vendredi à Addis Abeba, pour tenter de transférer sa mission de maintien de la paix au Darfour (ouest du Soudan) à l'ONU. Mais Khartoum, qui freine des quatre fers, a fait savoir qu'il n'accepterait la venue de Casques bleus onusiens qu'après avoir obtenu un accord de paix avec la rébellion au Darfour.
Le régime soudanais, qui s'oppose à la présence de troupes non-africaines sur son sol, est férocement opposé à cette idée d'une force onusienne venant remplacer celle, à bout de souffle et de fonds, de l'UA. Une idée soutenue par les Etats-Unis, l'Union européenne et nombre de pays africains.
Mercredi, des dizaines de milliers de personnes, à l'appel de partis et organisations pro-gouvernementales, avaient défilé à Khartoum contre le projet de déploiement d'une force onusienne.
"Après l'obtention de l'accord de paix, nous accepterons totalement", a pourtant déclaré le chef de la diplomatie soudanaise Lam Akol, cédant un peu de terrain.
Reste que les pourparlers de paix, sous l'égide de l'UA, stagnent depuis des mois, rendues encore plus complexes par les luttes intestines entre les différents mouvements de la rébellion du Darfour.
Taye Zerihon, représentant adjoint de l'ONU auprès de l'UA, a cependant estimé qu'il s'agissait d'une avancée positive, l'ONU ayant besoin d'au moins neuf mois pour préparer un dispositif pour le Darfour.
Le Conseil paix et sécurité de l'Union africaine devait dans la soirée annoncer une résolution sur le passage de relais, et la poursuite du financement de la mission actuelle pendant quatre mois, malgré de graves problèmes financiers. Le mandat de la force de l'UA, qui compte 7.000 hommes et connaît également d'importants problèmes logistiques, expire à la fin mars.
Jeudi, le responsable de la politique étrangère de l'Union européenne Javier Solana avait exprimé l'espoir de ce transfert. Quant au Conseil de sécurité de l'ONU, il a recommandé que l'ONU commence à planifier une mission au Darfour, censée être beaucoup plus importante que celle de l'UA.
Depuis 2003, la guerre du Darfour a fait au moins 180.000 morts, et déplacé deux millions de personnes. Les atrocités contre les villageois africains de la région, menées par des milices arabes à la solde de Khartoum, sont qualifiées de "génocide" par Washington.

Syntagmes nominaux [ et poids relatif ]

Darfour [ 265 ]
UA [ 245 ]
ONU [ 200 ]
Union européenne [ 100 ]
Union africaine [ 100 ]
Conseil paix et sécurité [ 100 ]
Javier Solana [ 100 ]

Citations-clef

Pour synthétiser ce document, g-MIL en choisit les extraits suivants :

L'Union africaine tente de passer le relais à l'ONU au Darfour. L'Union africaine (UA) était réunie vendredi à Addis Abeba, pour tenter de transférer sa mission de maintien de la paix au Darfour (ouest du Soudan) à l'ONU. Le Conseil paix et sécurité de l'Union africaine devait dans la soirée annoncer une résolution sur le passage de relais, et la poursuite du financement de la mission actuelle pendant quatre mois, malgré de graves problèmes financiers..

 


Contact |>>> www.albert.com