Analyses statistiques de textes avec le logiciel libre IRaMuTeQ

 Par Pierre Ratinaud, le mardi 18 octobre 2022.

IRaMuTeQ est un logiciel libre d’analyses statistiques de données textuelles. La présentation permettra d’aborder le formatage des corpus, les principales étapes d’une indexation et les analyses disponibles dans le logiciel. Nous détaillerons notamment la classification hiérarchique avec la méthode Reinert, qui permet d’étudier les différentes thématiques présentes dans un corpus et leurs liens statistiques avec les informations associées aux textes.

Pierre Ratinaud est maître de conférences en sciences de l’éducation et de la formation au département de sciences de l’éducation et de la formation de l’université de Toulouse Jean Jaurès. Il est responsable de l’axe Médias et Médiations Socio-Numériques du laboratoire LERASS et de l’atelier d’analyses textuelles du Labex SMS.

Merci aux participants du tuto ! Ci-dessous sont reportées les questions (et réponses…) mentionnées dans le tchat par les participants.

Iramuteq et…

… les versions de R
  • J’ai déjà une version de R (R for Windows 4.2.1) sur mon ordinateur, maintenant j’ai ajouté R for Windows 4.0.3. pour IRaMuTeQ. Est ce que cela posera un problème?

Il est possible que vous ne trouviez plus les binaires des packages pour R 4.0.3. Je vous propose d’utiliser R 4.1.3 avec IRaMuTeQ

  • Il y a la possibilité de faire cohabiter plusieurs versions de R. Sur RStudio, dans tools -> global options -> General -> R Version
… sa compatibilité avec les autres outils / packages de textométrie
  • Iramuteq est aussi compatible avec le package R.temis

ah ? ça fait la même chose. Juste le package R.Temis ne propose pas d’interface.

  • si j’ai bien compris un corpus préparé pour TXM peut être importé tel quel dans iramuteq ?

On peut importer un corpus Alceste dans TXM avec un import dit “Alceste”. À tester (cela peut changer d’une version à l’autre, être cassé dans une nouvelle version).

On peut réciproquement passer un corpus TXM dans Iramuteq grâce à un utilitaire très commode réalisé par Pierre et disponible dans Iramuteq.

  • Nouvelle adresse du manuel de TXM :

https://txm.gitpages.huma-num.fr/txm-manual/

On retrouve facilement l’adresse à partir du site principal TXM textometrie.org. Rubrique Logiciel > Documentation

  • Seriez vous apte à nous dire ce qu’il a de plus comparativement à une analyse lexicologique sur Sphinx?
… Europresse
  • Quand on on a un gros corpus (par exemple europress) y a t il un moyen d’automatiser la séparation des articles ? Par exemple libé…Le Monde , etc..

Perso je fais : J_Libe, J_LeMonde, etc… “J” est la variable “Journal”, après le “_” le nom du journal est une modalité.

http://www.iramuteq.org/europarse

EuropresseToLexico : Un script Python permettant de transformer un corpus d’articles tirés d’Europresse, au format HTML, en corpus pour Lexico, TXM ou Iramuteq.
https://github.com/PirehP1/EuropresseToLexico

  • Pour Europresse voir aussi tuto Quanti Roquebert : https://quanti.hypotheses.org/1416
  • En ce moment c’est compliqué d’exporter en html sur europress ( version classique pas accessible)
  • … une petite digression Europresse. Depuis 2-3 ans (?), les résultats pour la presse anglosaxonne (entre autre) sont en grande partie constitués de la première phrase de l’article puis un lien vers l’article complet. Du coup, très compliqué de recuperer les textes pleins directement depuis la sortie europresse. Quelqu’un a-t-il une astuce ? une piste ?

Pour la presse anglosaxone préférer une autre source qu’Europress. Cf. list of online newspaper archives https://en.wikipedia.org/wiki/Wikipedia:List_of_online_newspaper_archives

… les divers type de corpus et métadonnées?
  • Serait-il possible de préciser l’élaboration des métadonnées (les variables et le rôle des underscores) ?
  • Avez-vous des conseils sur la taille de la segmentation selon la langue ? A quelle source initiale se referer pour justifier les 40 mots ?
  • Si le corpus comprend des annotations qu’on aimerait consulter dans les segments affichés, on peut les retirer des occurrences d’Iramuteq ? Est-ce qu’on les conservera ds l’affichage des segments?
  • Est-ce qu’Iramuteq a été utilisé pour l’oral avec un texte des productions de chaque locuteur pour les comparer ?
  • Est-ce que le logiciel est adapté à l’analyse de mails d’un réseau de personnes (eg, les nombreuses duplications de passages dans les mails à cause de l’action “réponse à…” seraient à supprimer automatiquement)?
  • Pour l’analyse de mails, il y a L@me :
    L@ME : un logiciel libre d’analyse et de traitement de messages
    https://mate-shs.cnrs.fr/actions/tutomate/tuto03-lame-vergnaud/
  • au sujet de la maintenance du logiciel : y-a-t-il moyen de participer à celle-ci, que ce soit la documentation ou bien des modifications dans le code ?

La séance s’est tenue sur la plateforme Big Blue Button de l’EHESS que nous remercions pour son soutien.