Fouille de données complexes

Revue des Nouvelles Technologies de l'Information (RNTI-E-4)

Omar Boussaid, Pierre Gançarski, Florent Masseglia, Brigitte Trousse, Gilles Venturini, Djamel A. Zighed

298 pages, parution le 04/11/2005

Ajouter à une liste

Indisponible

Résumé

Revue dirigée par Djamel A. Zighed et Gilles Venturini.
Ouvrage réalisé sous la direction de Omar Boussaid, Pierre Gançarski, Florent Masseglia et Brigitte Trousse.

De nouveaux défis

La fouille de données est maintenant un domaine scientfique reconnu, doté de conférences spécialisées, de revues et d'une communauté internationale très active qui ne cesse de s'élargir touchant de nouveaux champs d'applications.

L'exploitation des données collectées par différents médias est devenue un enjeu stratégique à la fois scientifique et industriel. Si la technologie du data mining a acquis une certaine maturité elle est maintenant confrontée à de nouveaux défis. En effet, il existe des méthodes et des logiciels permettant d'extraire des connaissances à partir des données généralement tabulaires, sous forme de tableaux individus x variables. Des extensions méthodologiques ont été proposées pour exploiter les données en langage naturel (text mining), des images (image mining) etc. De ce fait, la fouille des données s'est développée de façon uni modale, c'est-à-dire selon le type de données : données tabulaires, données textuelles, données image même si, au final, on revient généralement au format du tableau à double entrées.

Les objets du monde réel ne sont pourtant pas décrits de façon unimodale. Prenons l'exemple du dossier médical d'une personne. On peut y trouver des données tabulaires comme les examens biologiques, des données textuelles comme les examens et les comptes-rendus cliniques, des radiographies, des échographies, des courbes d'électrocardiogramme etc. On peut également penser au web où un site peut contenir une variété de données : tableaux, textes, images, sons, graphiques etc. La fouille dans ces structures que l'on peut qualifier de complexes par rapport aux données tabulaires classiques, s'est jusque là contentée de traiter un seul type de média à la fois et de manière indépendante des autres. En web mining, par exemple, on traite les documents html comme un corpus de textes en ignorant les autres médias comme les images ou le son présents et qui pourtant peuvent renfermer une partie de l'information non redondante.

Le nouveau défi de la fouille est de prendre en compte simultanément la totalité des données disponibles sur une entité. Dans le domaine médical par exemple, il faut traiter le dossier patient en prenant en compte la totalité des données qui y figurent.

Dès lors, une question émerge : comment combiner des informations de nature différente et les rattacher à une même unité sémantique qu'est le dossier médical ? Sur un plan méthodologique par exemple, on peut s'interroger sur comment définir une mesure de dissimilarité entre deux entités dites complexes. Les approches pro-a consistent posées jusque là agréger des dissimilarités partielles calculées entre des constituants de même type : entre textes, entre images, entre bilans cliniques etc. Cette approche juxtapose, elle n'intègre pas ou peu. Peut-on considérer ce procédé comme pertinent ou bien est-il pratiqué juste parce que nous ne savons pas faire autrement ?

Dans un langage systémique, nous dirions que le tout est ramené a la somme de ses parties. Pourtant, nous savons que cette approche est inefficiente et que l'étude d'un système complexe ne peut se réduire à l'étude de ses parties. Un dossier médical ou un site web sont des objets complexes : extraire des connaissances à partir de telles entités ne peut se restreindre à la concaténation des connaissances partielles issues de chaque partie. Il existe une connaissance qui lie ces constituants, qui leur donne leur sens et qui intègre ces parties dans le tout. Cette information primordiale ne peut être captée par les approches et les outils actuels.

Les données complexes, une caractérisation

Les données complexes possèdent tout ou partie des spécificités suivantes qui doivent être prises en compte pour proposer des stratégies de data mining efficaces. On appellera objets les unités auxquelles se rattachent les données complexes. Par exemple, dans le cas des dossiers médicaux, chaque objet correspond à un patient décrit par un ensemble d'entités de données. Nature différente : les données relatives à un objet sont de nature différente. Outre le cas classique de descripteurs numériques ou catégoriels, on a notamment le cas de données texte, image ou audio vidéo.

Diversité des sources : comme le montre bien l'exemple des dossiers médicaux, les données recueillies correspondent aussi bien à des questionnaires remplis par le médecin, à des mesures acquises par des appareils a des comptes rendus textuels, médicaux couplés à des ordinateurs, à des images radiologiques ou échographiques, etc.

Evolutives et distribuées : il arrive souvent que l'on dispose de plusieurs caractérisations du même objet à des époques et/ou en des localisations différentes. Un patient est généralement suivi périodiquement par plusieurs médecins dont chacun produit une information spécifique. Ces informations s'intègrent autour d'un même sujet.

Liées à des connaissances externes : la fouille intelligente des données s'appuie sur la prise en compte des connaissances externes, dites du domaine, celle-ci pouvant se faire par le biais d'une ontologie. Dans le domaine de la cancérologie par exemple, les connaissances diagnostiques et thérapeutiques sont organisées sous forme d'arbres de décision et mis à disposition des praticiens sous la forme d'une guide des bonnes pratiques.

Dimensionnalité des données : par le fait même que l'on associe différentes sources à différents moments, on multiplie les points de vue, les données, et une multitude de descripteurs potentiels. Différents problèmes d'analyse apparaissent alors, notamment, la forte dimensionnalité qui engendre à son tour des difficultés algorithmiques et méthodologiques. C'est dans la combinaison des spécificités des données dont on dispose sur les objets et des connaissances externes associées à la fois l'enjeu et à ces objets, que résident toute la difficulté de la fouille des données complexes.

Réfléchir à la fouille de données autrement

La création, en juin 2003, du Groupe de travail Fouille de Données complexes au sein de l'Association Extraction et Gestion des Connaissance avait pour but de fédérer des chercheurs en fouille de données confrontés aux limites des approches et des outils classiques. Ce projet qui catalyse les échanges entre les différents chercheurs a pour objectif :

d'identifier et de définir ce qu'est la fouille de données complexes
de recenser les verrous à la fois méthodologiques et technologiques
de proposer des approches et des outils informatiques
d'expérimenter ces résultats dans des domaines comme la santé

Certes, individuellement, les articles n'abordent pas tous la fouille dans les bases de données complexes. Certains sont plus orientés vers la fouille des images alors que d'autres le sont plus vers la fouille de texte ou les tableaux. Nous espérons que la réunion de ces contributions va permettre un croisement entre des chercheurs couvrant des domaines différents de la fouille de données complexes.

L'avis du libraire Eyrolles

Panorama des travaux récents dans le domaine de la fouille de données complexes, cet ouvrage met en évidence les problèmes qui se posent au niveau des différentes phases d'un processus de fouille de données complexes et rend compte des diverses manières d'appréhender cette notion de complexité.

L'auteur - Omar Boussaid

Autres livres de Omar Boussaid

Business intelligence et big data

Découvrir tous les livres de Omar Boussaid

L'auteur - Gilles Venturini

Autres livres de Gilles Venturini

Fouille de données et humanités numériques

Revue des Nouvelles Technologies de l'Information A4 : Apprentissage et visualisation

Découvrir tous les livres de Gilles Venturini

L'auteur - Djamel A. Zighed

Autres livres de Djamel A. Zighed

Fouille de données et humanités numériques

Découvrir tous les livres de Djamel A. Zighed

Sommaire

Safe-next : Une approche systémique pour l'intégration des connaissances du domaine dans la fouille de données complexes - Walid Ben Ahmed, Mounib Mekhilef, Michel Bigand, Yves Page
Extraction de connaissances provenant de données multisources pour la caractérisation d'arythmies cardiaques - Elisa Fromont, René Quiniou, Marie-Odile Cordier
Auto-administration des entrepôts de données complexes - Kamel Aouiche, Jérôme Darmont, Omar Boussaïd, Fadila Bentayeb
Algorithme génétique de pondération d'attributs pour une classification non supervisée d'objets complexes - Alexandre Blansché, Pierre Gançarski
Fouille interactive de séquences d'images 3D d'IRMf - Jerzy Korczak, Christian Scheiber, Jean Hommet, Nicolas Lachiche
Visualisation et classification avec les cartes topologiques catégorielles - Mustapha Lebbah, Fouad Badran, Sylvie Thiria
Indexation et recherche par le contenu dans une base d'images fixes : l'intérêt des règles d'associations - Anicet Kouomou Choupo, Laure Berti-Équille, Annie Morin
Apport de la prise en compte du contexte structurel dans les modèles bayésiens de classification de documents semi-structurés - Pierre-François Marteau, Gildas Ménier, Leopold Ekamby
Adéquation des modèles de représentation aux méthodes de catégorisation - Simon Jaillet, Maguelonne Teisseire, Gérard Dray
Deux méthodologies de classification de règles d'association pour la fouille de textes - Hacène Cherfi, Amedeo Napoli, Yannick Toussaint
Extraction automatique d'information inattendue à partir de textes - François Jacquenet, Christine Largeron
Une analyse récursive constructive pour la recherche du sens du texte de spécialité - Marta Franova, Yves Kodratoff, Lise Fontaine
Annotation temporelle des événements dans des dépêches épidémiologiques - Yann Guilbaud, Jean Royauté

Voir tout

Replier

Caractéristiques techniques

	PAPIER
Éditeur(s)	Cépaduès
Auteur(s)	Omar Boussaid, Pierre Gançarski, Florent Masseglia, Brigitte Trousse, Gilles Venturini, Djamel A. Zighed
Parution	04/11/2005
Nb. de pages	298
Format	15,5 x 23,5
Couverture	Broché
Poids	476g
Intérieur	Noir et Blanc
EAN13	9782854287028
ISBN13	978-2-85428-702-8