REALISATIONS : LOGICIELS, ENSEIGNEMENT ET DIFFUSION

1.  Logiciels, diffusion et  enseignement 
2.  Argumentation statistique

"L'ergonomie a montré combien les comportements sont déterminés par les outils techniques; les idées de l'Ecole Française d'Analyse des Données ne passeront dans les pratiques qu'au prix de développement de logiciels."
Jean-Michel Hoc

  LOGICIELS

Au fur et à mesure de la mise en place  des méthodes, je me suis toujours employé à mettre à la disposition des chercheurs des logiciels susceptibles non pas  de remplacer, mais de venir en complément des logiciels  existants. J'ai eu la chance - n'étant pas  moi-même  formé à la programmation - d'avoir toujours autour de moi  des personnes capables de "mettre sur ordinateur" les méthodes dans le cadre des moyens informatiques existants: centre de calcul  du CIRCE dans les années 1960 et 1970, puis micro-informatique à partir des années 1980.  

De VAR3 à EyeLID

Le langage des comparaisons,   élaboré avec Dominique Lépine et implanté sur ordinateur par Marie-Odile Lebeaux (Var3, 1975), a été la première version  d'un langage de demandes d'analyse à partir des facteurs d'un plan. A la fin des années 1980,  une version plus élaborée de ce langage,  devenu  le Langage d'Interrogation de Données (LID),  a  conduit, avec l'extension aux données multivariées et l'adjonction d'un module graphique, au logiciel EyeLID ("Eye" pour "visualisation") dû à Jean-Marc  Bernard, Robert Baldy et H. Rouanet. 

Conçu à l'origine en vue de l'analyse de variance multivariée (MANOVA), à l'issue d'un exposé de H. Rouanet à la Multivariate Section of the Royal Statistical Society en 1985, le logiciel  EyeLID s'est révélé remarquablement efficace dans l'étude générale des données multivariées structurées: cf. Bernard, Le Roux, Rouanet, Schiltz (1989),     et  le numéro thématique de la revue Mathématiques & Sciences Humaines par J.M Bernard (1994) (téléchargeable à partir du site de la revue), avec la  Préface  de H. Rouanet.  

La caractéristique essentielle du logiciel EyeLID,  qui fait sa principale originalité par rapport  à VAR3 - et à vrai dire par rapport à  tous les logiciels existants (à ma connaissance), est  le langage de commande des dérivations de protocoles. A partir du protocle de base I --> Variables, l'ensemble  I étant muni d'une pondération, si J est un facteur sur I , le logiciel engendre le protocole dérivé par moyennage  J---> Variables.  Le facteur J peut être un facteur simple, ou composé à partir des facteurs simples  A, B... à partir des relations  d'emboîtement (e.g. A<B>), de croisement (A*B), ou de la simple relation de composition (A&B).  Le protocole J---> Variables peut ensuite, au même titre que le protocole de base, faire l'objet de nouvelles dérivations.  Outre le moyennage, le logiciel permet toutes sortes de dérivations telles que la restriction, les dérivations pondérées et équipondérées, les dérivations intra et d'interaction, faisant intervenir plusieurs facteurs conjointement.  Pour chaque protocole dérivé, des demandes d'analyse peuvent être formulées (encore dans le même langage) pour obtenir les statistiques numériques  pertinentes telles que sommes de carrés et produits,  variances et covariances, etc., ainsi que l'accès au module graphique, lequel permet à son tour une exploration détaillée des nuages de points, toujours  à l'aide du même langage.   La description précédente ne donne qu'une faible idée des possiblités d'EyeLID: les principales options du  logiciel, et le détail des demandes d'analyses, sont décrites dans l'article    Bernard,  Baldy &. Rouanet (1989).
La version d'EyeLID rédigée en langage C sous  MSDos est toujours opérationnelle (mais pour combien de temps encore?), et le coeur du logiciel (dérivation de protocoles) est toujours insurpassé. J'émets  le voeu que les sources du logiciel soient  rendues publiques et qu'une nouvelle version du logiciel, avec un habillage plus "moderne",  voie bientôt le jour.

 
DIFFUSION

La diffusion des  méthodes  et des logiciels a  toujours constitué une place importante de mes activités: stages avec Dominique Lépine dans les années 1970,  sur l'analyse de variance avec  VAR3;  stages avec Brigitte Le Roux, Jean-Marc Bernard  et Philippe Bonnet  dans les années 1980 et 1990,  sur l'analyse géométrique des données avec ADDAD et EyeLID; stages avec Brigitte Le Roux,  Frédéric Lebaron et Philippe Bonnet dans les années 2000, sur l'analyse géométrique des données  avec SPAD...  Ces stages ont certainement contribué à faire passer dans les pratiques l'usage de nos logiciels dans les laboratoires de sciences humaines (en particulier  le programme VAR3  a été abondamment utilisé dans les laboratoires de psychologie expérimentale), mais pas nécessairement à faire vraiment reconnaître l'originalité  des méthodes par les chercheurs, dans la mesure où c'étaient majoritairement  les techniciens des laboratoires qui assistaient  à ces stages: cf. le texte Division du travail. A cet égard, je pense qu'avec les  stages à l'université d'Uppsala depuis 2006, expressément à l'intention des chercheurs et  thésards - nous avons trouvé une "formule" plus efficace en trois volets: présentations statistiques, mise en oeuvre infomatique, et conférences sur la construction de l'espace social.

ENSEIGNEMENT 

 Tout en étant au CNRS, j'ai toujours tenu à avoir des activités d'enseignement,  en complément de mes activités de recherche. La plupart de mes enseignements ont concerné des étudiants de Sciences Humaines. Mais j'ai aussi participé à des enseignements pour des étudiants de mathématiques, notamment au niveau Maîtrise et DEA.  Dans les années 1960 j'ai participé aux enseignements de l'Institut de Psychologie; dans les années 1970, au certificat de Psychologie Générale de l'Université René Descartes; dans les années 1980, au premier Cycle de Sciences humaines de cette université. J'ai assuré ces enseignements en collaboration avec de nombreux  collègues ("cours en parallèle" et Travaux Dirigés): en premier lieu les enseignants-chercheurs du Groupe Mathématiques & Psychologie: Marie-Claude Bert et Brigitte Le Roux;   et bien  d'autres  collègues de l'UFR de mathématiques, et des départements de psychologie et de sociologie.

 Mes enseignements  m'ont permis d'incorporer les acquis de la recherche  au fur et à mesure, de les roder en profitant des remarques de  mes collègues. Ils ont abouti à des livres qui sont à la fois des ouvrages de synthèse et d'enseignement.

Les étudiants de Sciences Humaines ont  (en général)  un  bagage mathématique plus léger que les étudiants en mathématiques, lesquels acceptent plus volontiers les démonstrations mathématiques. Mais entre les deux auditoires,  je n'ai pas trouvé de différence essentielle  en ce qui concerne l'appréhension des concepts statistiques. L'enseignement en sciences humaines, en invitant  à se concentrer  sur les concepts fondamentaux, pourrait donc constituer un authentique  enseignement de statistique générale (au sens où on parle de "Mathématiques générales"), qu'à l'heure actuelle ne fournissent pas les  cours de "statistique mathématique".

Statistique en Sciences Humaines: la misère actuelle

 A l'heure actuelle, l'enseignement de la statistique en sciences humaines  est fort éloigné d'un véritable enseignement  de statistique générale. Pour apprendre la statistique à leurs étudiants, la plupart des départements de Sciences Humaines ont cru bon de se débarrasser des enseignants de formation mathématique, accusés d'excès de "rigueur mathématique"; ils  font désormais  appel à des "enseignants du cru", avec mission de se cantonner à "ce qui est utile" pour pouvoir lire les publications de recherche. L'objectif commun de ces manuels d'un nouveau genre  est proclamé dans la page de garde de l'un d'entre eux "Ne pas faire appel à la démonstration mathématique, mais développer de manière empirique  (sic) les méthodes et concepts théoriques (resic) de la statistique." 

Le  résultat de cette politique est  souvent misérable. Voici ce qu'écrivait  mon distingué collègue Jean-Luc Durand,  dans sa revue critique du manuel en question:   "L'auteur, devant les incompréhensions bien connues des étudiants, tend souvent à les reprendre à son compte, sous prétexte de simplification... La confusion, tout au long du livre, entre description et inférence, empêche d'expliciter les hypothèses testées et conduit à des conclusions inadmissibles. Même en laissant de côté toute considération mathématique, que dire d'une conclusion telle que la suivante: "L'échantillon des lycéens peut être considéré comme appartenant à la population dont il est extrait" (p.128). Comment ose-t-on proposer à des étudiants de pareils non-sens? Pour ma part, je déconseillerai formellement ce livre à mes étudiants."


Pour un enseignement de Statistique Générale

La progression, telle qu'elle se dégage de mon expérience d'enseignement, me paraît claire pour les trois premiers niveaux: 

 Niveau 1. Procédures Statistiques Naturelles. L'enseignement doit s'appuyer sur les  procédures  qu'on connaît déjà  "avant de faire de la statistique". Par exemple, calculer une moyenne pondérée  de notes;  interpréter les  pourcentages  de la vie courante et des medias (à ce premier niveau, à préférer aux  données expérimentales). Concepts de base à acquérir absolument: la caractérisation opérationnelle des procédures descriptives (premier pilier de la formalisation); et les structures sous-jacentes aux procédures élémentaires.
 Tout en encourageant une attitude critique vis-à-vis de l'interprétation des données, l'approche adoptée doit être résolument positive.  La tentation à écarter à tout prix: le terrorisme,  consistant à brandir "les dangers de la statistique" pour mieux faire ensuite   avaler des couleuvres à l'étudiant.

Manuel pertinent: Rouanet, Le Roux, Bert (1987) (Volume 1 de la série Dunod).

 Niveau 2. Analyse inductive des données
L'introduction à l'inférence doit toujours aller  des données vers les hypothèses,  en développant  le tryptique:   l'inférence combinatoire d'abord (proportions d'échantillons), l'inférence probabilitste ensuite (conversion des proportions en probabilités), fréquentiste puis bayésienne.  
Manuel pertinent:
.  Rouanet, Bernard, Le Roux (1991) (V
olume 2 de la série Dunod).

Manuel pertinent pour les niveaux 1-2:
. Rouanet, Le Roux (1995a) Exercices corrigés (Volume 4 de la série Dunod).

Le problème des préalables mathématiques
Plus on avance dans les  techniques statistiques, plus la question se pose des notions préalables de mathématiques.  Dans les deux premiers manuels de la série Dunod, nous avons opté pour une présentation des concepts statistiques en privilégiant les ensembles finis. Quelques rappels de notions ensemblistes de base (qui ne sont plus enseignées au collège) peuvent être utiles.
Parvenus à  un certain point, il en ira de même de  notions de base  de calcul intégral (aire sous une courbe).
Le problème des préalables se pose évidemment pour le Calcul des Probabilités, avec sa syntaxe (
Calcul des Proportions) et sa sémantique (formalistion de l'incertitude): cf. Statistique et Probabilités. Il faut souhaiter qu'un manuel introductif voie le jour  qui présenterait successivement les deux volets. En attendant, il me semble prudent  de ne pas inclure de préalables probabilistes dans l'enseignement de statistique, mais de renvoyer (pour les résultats techniques tels que la convergence vers la distribution normale, etc.) à un bon texte classique de pur calcul des probabilités non suivi d'"application à la statistique"; la sémantique aléatoire  (épreuves aléatoires, jeux de hasard, etc.), reste inoffensive  tant qu'elle n'impose pas la problématique fréquentiste à l'inférence  statistique.

 Niveau 3.  Analyse des données expérimentales
On aborde maintenant la méthodologie proprement expérimentale, avec un plan d'expérience et des facteurs sous le contrôle de l'expérimentateur.

  Textes pertinents:
 . Rouanet & Lépine (1977) Introduction à l'Analyse des Comparaisons ;
. Hoc  (1983) L'analyse planifiée des données en psychologie;
. Bernard  (1994) L'analyse descriptive des données planifiées (numéro thématique téléchargeable à partir du site de Mathématiques & Sciences Humaines.


Niveau 4. Analyse des données d'observation.

 A ce niveau, l'idée-force géométrique, ainsi que la dualité Mesures/Variables (deuxième pilier de la formalisation) deviennent privilégiées. Il y aurait un manuel  introductif à rédiger, inspiré des ouvrages  Rouanet & Le Roux (1993) (Analyse des données multidimensionnelles, Volume 3 de la série Dunod), et Le Roux & Rouanet (Geometric Data Analysis, 2004), qui sont la base  de l'enseignement aux  étudiants de maîtrise en Mathématiques. 

La panoplie précédente pourrait être complétée par un manuel  qui rassemblerait les "études de cas" de diverses publications.  Cf aussi le projet Essai sur l'argumentation statistique.
Début de page