Les équations structurelles

Par Solenne Roux, le vendredi 24 novembre 2023 de 14h à 16h

La recherche en sciences humaines et sociales s’appuie sur des concepts qui ne sont pas directement observables (qualité de vie, capital culturel ou humain…). A l’aide d’indicateurs mesurables nous pouvons modéliser ces concepts sous forme de variables latentes, relevant de modèles théoriques formalisés a priori.

Les modèles en équations structurelles permettent de tester statistiquement ces modèles intégrant des variables latentes et leurs relations avec les variables mesurées. Les premiers modèles structuraux ont été développés en biologie dans les années 1920 et ont investi les sciences sociales tout au long du 20ème siècle. En plein essor depuis deux décennies, les modèles structuraux se sont complexifiés afin de pouvoir appréhender statistiquement des modèles théoriques complexes. La grande famille des modèles en équations structurales permet de tester des modèles contenant des variables continues, ordinales, catégorielles, dans le champ des analyses factorielles (Confirmatory factorial analysis), des régressions (Mediations / moderations, etc.), des classifications (Latent profils analysis, Latent Class analysis), des modèles longitudinaux (Growth models), entre autres…

La présentation sera une introduction aux modèles structuraux. Les exemples proposés permettront d’aborder les équations structurelles sous le prisme des analyses factorielles et des modèles de régression. Tous les traitements statistiques sont réalisés à l’aide du logiciel R et particulièrement du package lavaan.  

Solenne Roux est ingénieure d’études en production et traitement de données au LabPsy (UR4139, Université de Bordeaux). Elle est membre du réseau local SO-Maté, dont elle est co-coordinatrice depuis 2 ans.

Le support de présentation est ici
Le projet avec les différents documents (scripts et bases de données) est là

Merci aux participants du tuto ! Ci-dessous sont reportées les URL, questions (et réponses) et impressions mentionnées dans le tchat par les participants.

Les participants au tuto ont partagé :

# Questions avec réponses dans la vidéo, lors de la session questions-réponses :

– Comment doit-on interpréter lorsque les indices n’offrent pas des résultats concordants ?

– Comment la concentration d’alcool peut être significatif sur le ‘croire avoir bu’, alors que les enquêtés ne savent pas s’ils ont bu un placebo ?

– Comment on fait pour comparer deux modèles alternatifs et décider lequel semble s’ajuster le mieux ?

– Les paramètres estimés sont disponibles soit en brut, soit en standardisés. Quels sont les usages propres à ces 2 options?

– Le R2 se lit comment pour ce type de modèle ?

– Comment peut-on traiter des variables ordinales : comme des dummies ou peut-on les assimiler à des variables quantitatives discrètes ?

– on est obligé de tester le modèle mesure d’une VL même si l’echelle des références a déjà été validé ?

– Peut-on imaginer traiter une échelle gauche droite comme une quanti discrète ?

– Peut-on faire des SEM sur des variables observées ? (sans faire de variables latentes ? )

– Sur la différence entre l’usage des SEM et le modèle Baron et Kenny, quelle différence en termes d’administration de la preuve ? Ou autre manière de le dire, quelle avantage au SEM par rapport à une analyse classique de régression.

– Comment calculer la taille d’effet a priori ? Comment bien calibrer la taille d’échantillon nécessaire AVANT de lancer son enquête ? Souvent on considère qu’il faut définir une taille d’effet qu’on serait embêté de rater.

– Si vous avez un “petit” échantillon, mettons 300 répondants. Les intervalles de confiance augmentent considérablement, les relations entre variables peuvent être faussées… Du coup, même si on vérifie a priori que le modèle s’ajuste aux données, on n’est pas du tout à l’abri que ce soit artefactuel, non ?

# Les packages et fonctions

– La fonction “interpret” est très utile mais ne semble pas faire partie du package lavaan ? Interpret appartient au packages effectsize https://easystats.github.io/effectsize/reference/interpret_gfi.html

– PROCESS : https://processmacro.org/index.html

– Auriez vous des packages à conseiller pour dessiner le schéma du modèle (pour le présenter dans un papier par exemple) ? package semptools

– https://simsem.org/ Paquet R pour la modélisation de l’équation structurelle simulée

– Pour les LCA on a PoLCA et le très récent glca tidyLPA

# Exemples et données

– Pour des exemples de question sur mesure de sensibilité environnementale, il est possible de regarder du côté des enquêtes européennes: ISSP (notamment 2020 sur environnement accessible via Quetelet Progedo Diffusion), ESS et Eurobaromètres.

– Le problème de se baser sur l’effet de taille des études précédentes, c’est que souvent leurs effets sont sur-estimés

https://www.nature.com/articles/nrn3475

# Vocabulaire :

AFC, dans ce tuto, est mis pour “Analyses factorielles Confirmatoires” (Analyses factorielles des correspondances)


La séance s’est tenue sur la plateforme Big Blue Button de l’EHESS que nous remercions pour son soutien.