Comment extraire des donnÃ©es Ã partir d'un texte

Une quantitÃ© croissante d'information est conservÃ©e sous forme numÃ©rique dans des formats bien souvent non structurÃ©s. Le dÃ©fi face Ã cette abondance de donnÃ©es est de trouver comment collecter, explorer et exploiter ces informations. Le text mining est le processus d'analyse de documents textuels pour en extraire les concepts sans pour autant Ã avoir besoin de connaÃ®tre le sens prÃ©cis de chaque terme. La fouille de texte permet donc de rechercher et de modÃ©liser les donnÃ©es Ã partir de n'importe quelle source d'information.

DÃ©finir les informations Ã extraire

L'exploration de texte combine Ã la fois un logiciel d'extraction de donnÃ©es et un ensemble de source de donnÃ©es permettant d'Ã©tiqueter correctement les groupes de mots. L'application de text maning se charge d'extraire les informations utiles d'un texte par exemple pour regrouper les concepts en catÃ©gorie. Dans ce cas, le modÃ¨le d'extraction de donnÃ©es sera conÃ§u autour de mots clÃ©s permettant de classer les textes selon leur contenu. Quel que soit l'usage du text mining, les algorithmes d'extraction et la phase d'analyse devront Ãªtre rapides puisque le but est de parcourir un ensemble de textes ou un corpus de plusieurs milliers de mots.

La dÃ©tection de groupes de mots et d'entitÃ© nommÃ©e se base Ã©galement sur une base de donnÃ©es (lexique) qui sera utilisÃ©e en fonction de la langue du texte. GrÃ¢ce aux patrons d'extraction et Ã un entrainement prÃ©alable, le logiciel de fouille de texte dÃ©tecte aisÃ©ment les groupes de mots importants dans la source de donnÃ©es non structurÃ©s. Placer une Ã©tiquette sur chaque entitÃ© dÃ©tectÃ©e permet de donner un sens et de comprendre plus finement le contenu le corpus analysÃ©.

Les Ã©tapes du traitement linguistique

Le prinpal dÃ©fi de la comprÃ©hension d'un texte est qu'il n'existe pas de rÃ¨gles standard pour Ã©crire un texte. La langue, et par consÃ©quent le sens, varie pour chaque document, chaque texte voire mÃªme en fonction de l'auteur. La seule faÃ§on d'organiser avec prÃ©cision ces donnÃ©es non structurÃ©es est d'analyser la langue et donc de dÃ©couvrir le sens des mots utilisÃ©s. Le traitement naturel du langage, aussi appelÃ© Natural Language Processing (NLP), est un ensemble de techniques permettant aux ordinateurs d'apprendre et de comprendre le langage humain grÃ¢ce Ã lâ€™intelligence artificielle.

Le langage humain est par nature complexe, ambigu et riche de sens qui est difficile Ã comprendre pour un ordinateur. Afin d'obtenir les meilleurs rÃ©sultats lors de la fouille de texte, l'application analyse en premier lieu la syntaxe, la structure du texte et les entitÃ©s nommÃ©es pour extraire la signification du contexte. Dans un second temps, l'approche statistique met en Ã©vidence le concept gÃ©nÃ©ral du corpus et le contexte, Ã savoir les personnes, la localisation gÃ©ographique, les quantitÃ©s et les autres entitÃ©s.

Normalisation du corpus

Au cours de la premiÃ¨re Ã©tape, les donnÃ©es sources sont converties dans un format uniforme facilitant l'analyse du texte. Cette conversion (prÃ©traitements des donnÃ©es) est effectuÃ©e en interne et ne modifie pas les donnÃ©es d'origine du corpus.

Pour identifier les blocs de mots importants, les structures de la phrase sont analysÃ©es puis comparÃ©es Ã des dictionnaires linguistiques pour dÃ©terminer la fonction syntaxique de chaque Ã©lÃ©ment. Le moteur d'extraction commence par identifier les locutions grammaticales (adverbiale, prÃ©positive, conjonctive) puis identifie le verbe grÃ¢ce Ã la lemmatisation et la forme canonique du mot. L'analyse lexicale a pour but de dÃ©terminer les pivots dans l'Ã©noncÃ© du contexte de la phrase.

Recherche du sens pour chaque syntagme nominal

AprÃ¨s avoir identifiÃ© les unitÃ©s lexicales du corpus, le logiciel utilise un dictionnaire de normalisation et des ressources externes pour procÃ©der Ã l'analyse des lexÃ¨mes. Le but est de regrouper les groupes de mots dans le cas de deux variantes d'une mÃªme forme canonique et de traiter les cooccurrences pour dÃ©terminer le sens du syntagme dans le contexte de la phrase.

L'analyse statistique des donnÃ©es textuelles permet de mettre en Ã©vidence les concepts clÃ©s du corpus en minimisant la prÃ©sence du bruit. L'extraction et le regroupement des mots-clÃ©s en unitÃ©s sÃ©mantiques constituent la base de la modÃ©lisation des concepts dÃ©veloppÃ©s dans le corpus de dÃ©part. Le but est de fournir la liste de mots essentiels grÃ¢ce Ã un Ã©tiquetage syntaxique pouvant Ãªtre utilisÃ© dans la catÃ©gorisation du document, dans le rÃ©sumÃ© du texte ou tout simplement dans le contrÃ´le de la qualitÃ© des champs sÃ©mantiques.

Le traitement automatique du langage est un vaste champ d'Ã©tudes technologique qui devrait permettre Ã la machine de comprendre le sens d'un texte ou l'intention d'un utilisateur. L'emploi massif d'intelligence artificielle et des rÃ©seaux de neurones donneront aux ordinateurs la capacitÃ© technologique de l'apprentissage puis d'une lecture profonde d'un corpus.

Comment extraire des donnÃ©es Ã partir d'un texte

DÃ©finir les informations Ã extraire

Les Ã©tapes du traitement linguistique

Normalisation du corpus

Identification de la structure des Ã©lÃ©ments de la phrase

Recherche du sens pour chaque syntagme nominal

Exploitation des rÃ©sultats