SEM par Yoann Dupont

jeudi 22 novembre 2018 de 14h30 à 16h30 : Yoann Dupont a présenté SEM, logiciel de segmentation et d’annotation de textes.

SEM, un logiciel libre d’étiquetage du français. SEM pour Segmenteur-Étiqueteur Markovien.

SEM (page officielle, github) est un logiciel libre et open source développé en python. Il permet d’étiqueter des textes en morphosyntaxe, chunks et entités nommées pour le français. Il se base sur des approches par apprentissage automatique supervisé, où l’on entraîne un modèle (ici statistique) à reproduire une tâche de prédiction à partir d’exemples de celle-ci. Il sera ensuite utilisé pour étiqueter de nouveaux textes. Les modèles de SEM ont été entraînés sur le French TreeBank (FTB), corpus de phrases extraites du Monde de 1989 à 1995 annoté en morphosyntaxe, constituants syntaxiques et en entités nommées. Bien que développé pour le français, SEM est adaptable à d’autres langues et d’autres données.

SEM propose les fonctionnalités suivantes :
– étiqueter automatiquement des textes avec des modèles pré-entraînés ;
– étiqueter manuellement des textes bruts ou pré-annotés via une interface graphique ;
– entraîner des modèles sur de nouveaux textes annotés ;
– exporter des sorties en différents formats. Certains sont utiles pour la visualisation (HTML) et d’autres pour l’interopérabilité avec d’autres outils (BRAT, GATE, plusieurs formats TEI) ;
– évaluer la qualité du système selon un étiquetage de référence et aider à l’analyse des erreurs ;
– ajouter de nouvelles langues et chaînes de traitement.

Une version en ligne de SEM est disponible ici

La vidéo peut être visualisée sur le site de Webex pendant quelques mois ce qui permet plus d’option que pour la vidéo Youtube comme par exemple visualiser la camera du locuteur en même temps que les transparents, ou voir les questions du chat.