Quelles sont les étapes du text mining ?
Les sources de données se multiplient au fil des années notamment en ligne sur Internet depuis l'entrée dans l'ère du Big Data. La fouille de textes ou data mining est un ensemble des techniques permettant de structurer les données textuelles,
afin d'en extraire les informations pertinentes. Pour ce faire, les traitements informatiques s'appuient sur l'analyse linguistique, la reconnaissance d'entités nommées et l'interprétation statistiques des syntagmes.
La fouille de textes est mise en place dans de nombreux secteurs d'activité pour traiter de grandes quantités d'information automatiquement. Cette intelligence artificielle est utilisée par exemple pour classer des données textuelles, pour filtrer des emails ou encore pour analyser les comportements des internautes.
Veuillez coller votre texte dans la zone de saisie ci-dessous.
Une fenêtre d'attente vous guidera le temps du chargement et de l'interprétation des données.
Classer des documents:
l'analyse de fréquence des termes utilisés est un moyen rapide de classer les textes suivants leur contenu,
Filtrer des emails:
en analysant le contenu et la grammaire des emails, il devient facile de fixer automatiquement un degré de priorité ou de choisir le destinataire des mails entrants,
Emettre des alertes:
bien plus qu'une simple détection de mots clés, le text mining est capable d'évaluer un sentiment sur une page internet,
Générer de textes:
les expressions ou groupes de mots issus du corpus de référence peuvent servir de feuilles de route à un rédacteur web ou servir de base pour la génération automatique de texte.
Afin de comprendre la structure et la signification d'un texte, le logiciel text mining procède aux opérations suivantes sur le corpus analysé:
L'extraction des entités utilise des bases de données et un ensemble d'outils d'analyse propriétaire. À ce jour, le système mise sur les réseaux de neurones (analyse prédictive) pour améliorer l'apprentissage automatique (Machine learning) et améliorer la fouille de textes.