Structuration et analyse de corpus avec TXM

Les Tuto@Mate ont accueilli Flora Badin pour présenter TXM le 14 juin 2021. 

TXM est un logiciel de textométrie. Du lexique au sous-corpus en passant par le concordancier et les coocurrences, TXM est un outil pionnier dans le domaine de la statistique textuelle et la recherche d’information sur corpus textuels. Il permet l’enrichissement des données par un dispositif d’annotation semi-automatique. Son utilisation a évolué avec le développement de nouvelles fonctionnalités par l’équipe de développeurs pour l’exploitation de corpus oraux transcrits (navigation dans la transcription et écoute du signal synchronisé). Un point phare de la bonne utilisation de ce logiciel est la préparation du corpus avant l’importation dans l’outil, pour optimiser leur enrichissement et leur exploitation. Jouer avec le XML en entrée, utiliser les extensions comme Treetagger et mediaPlayer pour enfin y trouver un environnement ergonomique pour l’annotation de phénomènes/patrons font partie des originalités à connaitre. Au coeur des analyses, le concordancier et son système de requêtes permettent d’explorer le corpus en profondeur en un coup de baguette magique. Gratuit, openSource et multiplateforme, TXM deviendra vite votre allié pour vos recherches sur corpus.

Flora Badin est ingénieure d’études au LLL-CNRS (Orléans). Elle est spécialisée dans le domaine du traitement automatique des langues. Elle gère les données numériques de différents projets de recherche menés par les chercheurs en linguistique. Ses données de prédilection sont les corpus de langue orale. Elle développe des chaines de traitement pour les corpus oraux et structure les données pour les rendre compatibles avec le plus grand nombre d’outils utilisés par les linguistes.
Elle fait partie du comité scientifique du consortium CORLI et est également active dans le GDS EcoInfo qui agit pour réduire les impacts (négatifs) environnementaux et sociétaux du numérique.

Pour télécharger les transparents cliquez ici