R.temis, un paquet d’analyse textuelle par Milan Bouchet-Valat et Bénédicte Garnier

Les Tuto@Mate ont accueilli le 20 mai 2021 Milan Bouchet-Valat et Bénédicte Garnier pour présenter le paquet R.temis. 

R.temis est un paquet R dédié à l’analyse textuelle d’utilisation simple. Son principe est de faciliter les étapes essentielles de l’analyse textuelle (importation, traitement et analyses) en s’appuyant au maximum sur les paquets existants (tm, FactoMineR, explor, igraph…) pour permettre aux utilisateurs de réaliser les analyses dont ils ont besoin sans les enfermer dans une méthode particulière. R.temis permer d’importer des corpus au format .txt, .csv, Alceste, Europresse, Factiva et Lexis-Nexis, et d’appliquer une lemmatisation automatique et/ou manuelle. Diverses techniques statistiques sont proposées, des plus simples (fréquences, spécificités, co-occurrences, nuage de mots…) aux plus avancées (analyse des correspondances, classification, graphes de mots…). De nombreuses extensions sont possibles en combinant R.temis avec d’autres paquets R, comme rainette pour la classification suivant la méthode Reinert, ou des représentations cartographiques.

Milan Bouchet-Valat est sociologue, chargé de recherche à l’Ined. Ses recherches portent sur la formation du couple et les inégalités de classe et de genre. Auteur de plusieurs paquets R, il participe au développement du language de programmation scientifique et technique Julia. Il est membre de la coordination du collectif Labos 1point5 qui travaille à la réduction de l’empreinte environnementale de la recherche.

Bénédicte Garnier est ingénieure au service méthodes statistiques de l’Ined. Elle anime des formations autour de la fouille et la visualisation des données ; en particulier statistique textuelle (packages de R, IRaMuTeQ), analyse multidimensionnelle (Spad, FactoMineR) et cartographie (Magrit, QGIS). Elle utilise ces méthodes et accompagne les chercheurs dans des projets de recherche auxquels elle collabore. Elle codirige deux séminaires méthodologiques de l’Ined.

Les fichiers de données, le script et la sortie html sont disponibles dans cette archive zip
Les transparents de la présentation sont téléchargeables ici.