Défi fouille de textes : reconnaissance automatique des auteurs de discours - Campagne DEFT'05 (TALN'05)
Revue des Nouvelles Technologies de l'Information - RNTI - E10
Violaine Prince, Yves Kodratoff, Jérôme Azé, Mathieu Roche - Collection RNTI
Résumé
La création du Défi Fouille de Textes, inspiré au départ de la tâche Novelty de TREC, a en réalité pour objectif principal de permettre aux chercheurs du monde francophone de confronter leurs travaux avec un problème, beaucoup plus que de primer une équipe, une méthode, ou un outil. Plusieurs défis existent dans le monde anglo-saxon et asiatique. De façon étonnante, le monde européen semble très réticent à accepter de telles comparaisons "objectives". Cela s'explique aussi évidemment par le manque d'intérêt des décideurs, qui ne se résolvent pas à financer de tels projets. Certains d'entre nous ont participé au défi TREC, organisé par le service des standards américains, et donc financé par l'état américain. Les sujets de travail proposés par l'équipe de TREC tendent à se modeler sur la volonté des participants. Du fait d'une forte participation statisticienne, ils se sont donc focalisés sur les problèmes de très grandes quantités de données, de traitement du bruit, plutôt que sur les problèmes de compréhension détaillée du contenu du texte. L'année où nous avons participé à TREC (2004), par exemple, le thème "bioinformatique" proposait une épreuve dans laquelle des renseignements précis et individualisés étaient à retrouver dans les textes. Ce sous thème n'a reçu qu'une seule réponse et a donc été abandonné l'année suivante au profit de sous thèmes plus populaires. Nous avons donc essayé de lancer une épreuve française dans laquelle nous tenterions de ne pas favoriser systématiquement une approche plutôt qu'une autre.
Nous nous sommes heurtés immédiatement à deux difficultés. D'une part, les volontaires pour créer le corpus du défi ont été submergés de travail. Au passage, nous remercions le Comité d'Organisation pour le remarquable travail dont ses membres donnent les détails dans un des articles de cette revue. La conception et surtout la réalisation de l'épreuve sont clairement des problèmes majeurs qui demanderaient des équipes fortement financées pour qu'on puisse sortir du superficiel. D'autre part, les participants eux-mêmes sont évidemment bien au courant des problèmes qui se posent et ils envoient aux organisateurs quantité de critiques hélas le plus souvent justifiées qui demandent donc un nouvel effort. Dans leur article, Azé et al. donnent des tableaux de résultats qui illustrent les problèmes rencontrés par les participants. Pour faire court d'une longue discussion, on peut dire que les systèmes qui s'attachent à la compréhension de la phrase obtiennent de bons résultats en précision, et des résultats bien inférieurs en couverture. Notre propre expérience de TREC va dans le même sens : notre approche favorise la compréhension et il nous est arrivé de "battre" tout le monde en précision, mais nous avons toujours été "écrasés" par notre manque de couverture. Ce numéro spécial de RNTI rassemble des articles décrivant les systèmes utilisés par les participants au défi. Tous les participants ne sont pas présents, soit parce qu'ils n'ont pas voulu contribuer, soit parce que leur contribution ne s'intégrait pas dans les critères universitaires d'acceptation d'articles décrétés par la revue. Du fait du travail exigé pour participer à notre défi, nous avons demandé le plus possible aux rapporteurs de fournir des critiques constructives permettant d'accepter des articles à première vue un peu justes du point de vue universitaire. Il nous ne nous pas été possible, à notre grand regret, d'accepter toutes les contributions, surtout celles dont la compréhensibilité ne s'améliorait pas. Cela explique le décalage assez long entre défi et publication.
Le premier article d'introduction à ce numéro spécial de la revue RNTI présente un état de l'art des différentes tâches de fouille de textes et pose les questions fondamentales concernant d'une part la notion d'évaluation, et d'autre part, ce que suppose la notion de reconnaissance d'auteurs, objet du défi. Le deuxième article proposé par le Comité d'Organisation traite de la préparation des données et présente les résultats obtenus par les participants. Par ailleurs, cinq articles de participants à DEFT'05 présentent les approches mises en oeuvre dans le cadre du défi. Nous félicitons les auteurs pour l'excellente qualité des articles publiés dans ce numéro.
Ce premier défi francophone de fouille de textes a été mis en place dans le cadre de la conférence TALN'05 (Traitement Automatique des Langues Naturelles). Nous remercions chaleureusement les organisateurs de TALN'05 qui nous ont permis de présenter les résultats du défi lors d'un atelier. Enfin, nos derniers remerciements s'adressent à l'AFIA et à EGC. Ces deux associations ont parrainé avec un réel enthousiasme DEFT'05 mais également DEFT'06 qui a eu lieu en septembre 2006. Pour 2007, nous avons passé la main à une nouvelle équipe organisatrice. Merci et bonne chance à eux.
Violaine Prince
Yves Kodratoff
Jérôme Azé
Mathieu Roche
L'auteur - Violaine Prince
Violaine Prince est professeur en informatique a l'universite Paris VIII (IUT de Montreuil). Elle a effectue ses recherches au LIMSI (CNRS), a Orsay, sur le traitement automatique de la langue, en animant le theme " representations semantiques " du groupe Langage et Cognition. Elle est responsable de modules de DEA concernant l'acquisition et le transfert des connaissances a Paris XI, a l'Ecole normale superieure de Cachan et a Paris VIII (DEA de psycho-pathologie).
Autres livres de Violaine Prince
L'auteur - Yves Kodratoff
Yves Kodratoff est directeur de recherches au CNRS et dirige au LRI l'équipe Inférence et Apprentissage. Il s'intéresse à toutes les techniques de raisonnement inductif, et en particulier à leur application au data mining.
Autres livres de Yves Kodratoff
Sommaire
- Le défi Fouille de Textes : Quels paradigmes pour la reconnaissance automatique d'auteurs ? V. Prince, Y. Kodratoff
- Bilan du Premier Défi Francophone de Fouille de Textes, J. Azé, M. Roche, E. Alphonse, A. Amrani, T. Heitz, A.-D. Mezaour
- Un duel probabiliste pour départager deux Présidents, M. El-Bèze, J.-M. Torres-Moreno, F. Béchet
- Modèles multi-thématiques markoviens pour la segmentation de textes, L. Rigouste, O. Cappé, F. Yvon, F. Clérot
- Dépendances syntaxiques et méthodes de détection de passages pour une segmentation sur le locuteur et le thème, L. Maisonnasse, C. Tambellini
- Identification de thème et reconnaissance du style d'un auteur pour une tâche de filtrage de textes, M. Jardino, M. Hurault-Plantet, G. Illouz
- Application des vecteurs sémantiques à la fouille de texte, J. Chauché
Caractéristiques techniques
PAPIER | |
Éditeur(s) | Cépaduès |
Auteur(s) | Violaine Prince, Yves Kodratoff, Jérôme Azé, Mathieu Roche |
Collection | RNTI |
Parution | 15/02/2007 |
Nb. de pages | 148 |
Format | 15,5 x 23,5 |
Couverture | Broché |
Poids | 261g |
Intérieur | Noir et Blanc |
EAN13 | 9782854287769 |
ISBN13 | 978-2-85428-776-9 |
Avantages Eyrolles.com
Nos clients ont également acheté
Consultez aussi
- Les meilleures ventes en Graphisme & Photo
- Les meilleures ventes en Informatique
- Les meilleures ventes en Construction
- Les meilleures ventes en Entreprise & Droit
- Les meilleures ventes en Sciences
- Les meilleures ventes en Littérature
- Les meilleures ventes en Arts & Loisirs
- Les meilleures ventes en Vie pratique
- Les meilleures ventes en Voyage et Tourisme
- Les meilleures ventes en BD et Jeunesse
- Informatique Développement d'applications Algorithmique et informatique appliquée Intelligence artificielle
- Sciences Techniques Robotique
- Sciences Techniques Intelligence artificielle I.A. appliquée
- Sciences Techniques Intelligence artificielle Systèmes experts
- Sciences Techniques Intelligence artificielle Réseaux de neurones
- Sciences Techniques Automatique