De l’utilisation de Spacy, comment parser un texte avec une bibliothèque Python

 

Le tuto est présenté par Clément Plancq, Ingénieur à la MSH Val de Loire (UAR 3501) et au laboratoire Citeres (UMR 7324).

Spacy est une bibliothèque Python pour le Traitement Automatique des Langues (TAL). Ni un logiciel, ni une API, Spacy peut être utilisé dans des scripts ou être intégré dans un développement Python pour effectuer des tâches de type TAL sur des données textuelles. Des tâches telles que : tokénisation, étiquetage en partie du discours, lemmatisation, analyse syntaxique, reconnaissance d’entités nommées, extraction d’information, classification de textes, …

Spacy se veut être une bibliothèque facile à utiliser et rapide à exécuter. Ses traitements reposent sur des modèles statistiques disponibles pour de nombreuses langues. Spacy est distribué sous licence ouverte (MIT).

Nous présentons différents cas d’usage de Spacy sous forme de notebooks. Le dépôt github est ici : https://github.com/clement-plancq/tuto-mate (cliquer en bas à gauche sur launch binder pour utiliser le notebook). 
Les slides sont visibles ici. 

La séance s’est tenue en visioconférence sur la plateforme Big Blue Button de l’EHESS (que nous remercions de son soutien).