GROBID-Dictionaries

Mohamed Khemakhem est actuellement le directeur scientifique d’ArcaScience, une startup française spécialisée dans l’analyse des données biomédicales à grande échelle. Il est également expert en normalisation des ressources linguistiques à l’AFNOR et à l’ISO. Avant de rejoindre ArcaScience, Mohamed a occupé le poste d’assistant de recherche à l’UKP (Darmstadt), au Centre Marc Bloch (Berlin) et à l’Inria-ALMAnaCH (Paris). En 2020, il a obtenu un doctorat en informatique et en linguistique informatique à l’Université de Paris (anciennement Paris Diderot). Pendant plus d’une décennie, ses intérêts de recherche se sont situés à l’intersection de la linguistique, de l’informatique et de la normalisation, en développant des modèles informatiques pour l’analyse et la normalisation des ressources linguistiques, avec un accent particulier sur les dictionnaires.

GROBID-Dictionaries est un projet qui a été initialement lancé pour résoudre le manque de méthodes évolutives pour la structuration des dictionnaires imprimés. L’infrastructure de pointe est basée sur des modèles d’apprentissage machine pour l’analyse des structures lexicales. La construction de l’infrastructure d’analyse va de pair avec la définition d’une sortie standardisée. Des recherches et des expérimentations supplémentaires ont permis de couvrir davantage de documents en entrée, tels que les anciens catalogues de vente aux enchères de manuscrits et les répertoires d’adresses Almanach.

L’exposé présentera le projet et ses principales réalisations. Il discutera également l’applicabilité de l’infrastructure et son adaptation à de nouveaux cas d’utilisation.