Défi fouille de textes : reconnaissance automatique des auteurs de discours - Campagne DEFT'05 (TALN'05)

Revue des Nouvelles Technologies de l'Information - RNTI - E10

Violaine Prince, Yves Kodratoff, Jérôme Azé, Mathieu Roche - Collection RNTI

148 pages, parution le 15/02/2007

Ajouter à une liste

Indisponible

Résumé

La création du Défi Fouille de Textes, inspiré au départ de la tâche Novelty de TREC, a en réalité pour objectif principal de permettre aux chercheurs du monde francophone de confronter leurs travaux avec un problème, beaucoup plus que de primer une équipe, une méthode, ou un outil. Plusieurs défis existent dans le monde anglo-saxon et asiatique. De façon étonnante, le monde européen semble très réticent à accepter de telles comparaisons "objectives". Cela s'explique aussi évidemment par le manque d'intérêt des décideurs, qui ne se résolvent pas à financer de tels projets. Certains d'entre nous ont participé au défi TREC, organisé par le service des standards américains, et donc financé par l'état américain. Les sujets de travail proposés par l'équipe de TREC tendent à se modeler sur la volonté des participants. Du fait d'une forte participation statisticienne, ils se sont donc focalisés sur les problèmes de très grandes quantités de données, de traitement du bruit, plutôt que sur les problèmes de compréhension détaillée du contenu du texte. L'année où nous avons participé à TREC (2004), par exemple, le thème "bioinformatique" proposait une épreuve dans laquelle des renseignements précis et individualisés étaient à retrouver dans les textes. Ce sous thème n'a reçu qu'une seule réponse et a donc été abandonné l'année suivante au profit de sous thèmes plus populaires. Nous avons donc essayé de lancer une épreuve française dans laquelle nous tenterions de ne pas favoriser systématiquement une approche plutôt qu'une autre.

Nous nous sommes heurtés immédiatement à deux difficultés. D'une part, les volontaires pour créer le corpus du défi ont été submergés de travail. Au passage, nous remercions le Comité d'Organisation pour le remarquable travail dont ses membres donnent les détails dans un des articles de cette revue. La conception et surtout la réalisation de l'épreuve sont clairement des problèmes majeurs qui demanderaient des équipes fortement financées pour qu'on puisse sortir du superficiel. D'autre part, les participants eux-mêmes sont évidemment bien au courant des problèmes qui se posent et ils envoient aux organisateurs quantité de critiques hélas le plus souvent justifiées qui demandent donc un nouvel effort. Dans leur article, Azé et al. donnent des tableaux de résultats qui illustrent les problèmes rencontrés par les participants. Pour faire court d'une longue discussion, on peut dire que les systèmes qui s'attachent à la compréhension de la phrase obtiennent de bons résultats en précision, et des résultats bien inférieurs en couverture. Notre propre expérience de TREC va dans le même sens : notre approche favorise la compréhension et il nous est arrivé de "battre" tout le monde en précision, mais nous avons toujours été "écrasés" par notre manque de couverture. Ce numéro spécial de RNTI rassemble des articles décrivant les systèmes utilisés par les participants au défi. Tous les participants ne sont pas présents, soit parce qu'ils n'ont pas voulu contribuer, soit parce que leur contribution ne s'intégrait pas dans les critères universitaires d'acceptation d'articles décrétés par la revue. Du fait du travail exigé pour participer à notre défi, nous avons demandé le plus possible aux rapporteurs de fournir des critiques constructives permettant d'accepter des articles à première vue un peu justes du point de vue universitaire. Il nous ne nous pas été possible, à notre grand regret, d'accepter toutes les contributions, surtout celles dont la compréhensibilité ne s'améliorait pas. Cela explique le décalage assez long entre défi et publication.

Le premier article d'introduction à ce numéro spécial de la revue RNTI présente un état de l'art des différentes tâches de fouille de textes et pose les questions fondamentales concernant d'une part la notion d'évaluation, et d'autre part, ce que suppose la notion de reconnaissance d'auteurs, objet du défi. Le deuxième article proposé par le Comité d'Organisation traite de la préparation des données et présente les résultats obtenus par les participants. Par ailleurs, cinq articles de participants à DEFT'05 présentent les approches mises en oeuvre dans le cadre du défi. Nous félicitons les auteurs pour l'excellente qualité des articles publiés dans ce numéro.

Ce premier défi francophone de fouille de textes a été mis en place dans le cadre de la conférence TALN'05 (Traitement Automatique des Langues Naturelles). Nous remercions chaleureusement les organisateurs de TALN'05 qui nous ont permis de présenter les résultats du défi lors d'un atelier. Enfin, nos derniers remerciements s'adressent à l'AFIA et à EGC. Ces deux associations ont parrainé avec un réel enthousiasme DEFT'05 mais également DEFT'06 qui a eu lieu en septembre 2006. Pour 2007, nous avons passé la main à une nouvelle équipe organisatrice. Merci et bonne chance à eux.

Violaine Prince
Yves Kodratoff
Jérôme Azé
Mathieu Roche

L'auteur - Violaine Prince

Violaine Prince est professeur en informatique a l'universite Paris VIII (IUT de Montreuil). Elle a effectue ses recherches au LIMSI (CNRS), a Orsay, sur le traitement automatique de la langue, en animant le theme " representations semantiques " du groupe Langage et Cognition. Elle est responsable de modules de DEA concernant l'acquisition et le transfert des connaissances a Paris XI, a l'Ecole normale superieure de Cachan et a Paris VIII (DEA de psycho-pathologie).

Autres livres de Violaine Prince

Vers une informatique cognitive dans les organisations

Découvrir tous les livres de Violaine Prince

L'auteur - Yves Kodratoff

Yves Kodratoff est directeur de recherches au CNRS et dirige au LRI l'équipe Inférence et Apprentissage. Il s'intéresse à toutes les techniques de raisonnement inductif, et en particulier à leur application au data mining.

Autres livres de Yves Kodratoff

Base terminologique de l'intelligence artificielle

Découvrir tous les livres de Yves Kodratoff

Sommaire

Le défi Fouille de Textes : Quels paradigmes pour la reconnaissance automatique d'auteurs ? V. Prince, Y. Kodratoff
Bilan du Premier Défi Francophone de Fouille de Textes, J. Azé, M. Roche, E. Alphonse, A. Amrani, T. Heitz, A.-D. Mezaour
Un duel probabiliste pour départager deux Présidents, M. El-Bèze, J.-M. Torres-Moreno, F. Béchet
Modèles multi-thématiques markoviens pour la segmentation de textes, L. Rigouste, O. Cappé, F. Yvon, F. Clérot
Dépendances syntaxiques et méthodes de détection de passages pour une segmentation sur le locuteur et le thème, L. Maisonnasse, C. Tambellini
Identification de thème et reconnaissance du style d'un auteur pour une tâche de filtrage de textes, M. Jardino, M. Hurault-Plantet, G. Illouz
Application des vecteurs sémantiques à la fouille de texte, J. Chauché

Voir tout

Replier

Caractéristiques techniques

	PAPIER
Éditeur(s)	Cépaduès
Auteur(s)	Violaine Prince, Yves Kodratoff, Jérôme Azé, Mathieu Roche
Collection	RNTI
Parution	15/02/2007
Nb. de pages	148
Format	15,5 x 23,5
Couverture	Broché
Poids	261g
Intérieur	Noir et Blanc
EAN13	9782854287769
ISBN13	978-2-85428-776-9