Entrer dans la démarche analytique RH : les données, les données, les données !!

Dans la démarche analytique RH, les données sont la matière première. A ce titre, leur qualité est primordiale. On le dit souvent mais l’exemple suivant l’illustre cruellement…

On le doit à un statisticien, et il porte le nom de son auteur : le quartet d’Anscombe (1978).

Celui-ci imagine 4 séries de données (reproduites ci-dessous). Les observer ne présente qu’un intérêt limité et à moins, tel Néo dans « Matrix », de savoir « lire la matrice », on ne voit guère quelles informations on pourrait en tirer (vous pouvez toutefois essayer…).

schema_1_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png

Pour tenter de produire de la connaissance, on peut imaginer élaborer quelques statistiques, notamment en établissant une corrélation entre les variables X et Y qui constituent la série.

Toute la force de cet exemple tient au fait que ces statistiques sont exactement identiques pour les 4 séries (tableau ci-dessous). Quelle que soit la série, on devrait donc aboutir à la même conclusion en usant (imprudemment) de la statistique.

schema_2_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png

Pourtant les relations unissant X à Y sont très différentes, comme l’illustrent cette fois les 4 graphiques ci-dessous.

schema_3_pour_larticle_de_sebastien_richard_sur_la_demarche_analytique.png

-Le 1ergraphique décrit le cas standard que l’on recherche dans une démarche analytique RH : la relation entre X et Y est vraie, mais imparfaite. Les observations sont dispersées autour d’une tendance centrale que l’analyse statistique vient précisément révéler.

-Le 2èmegraphique illustre une erreur classique : le statisticien a spécifié une relation linéaire, alors qu’elle est en réalité parabolique (ou d’une autre nature). L’erreur est dommageable à double égard : la véritable nature de la relation entre X et Y est ignorée et le modèle perd en qualité.

-Le 3èmegraphique décrit une première conséquence de la prise en compte d’observations aberrantes, résultant potentiellement d’une mauvaise qualité des données : une perte de précision importante et une surestimation de la tendance.

-Enfin le 4èmegraphique illustre la situation la plus grave découlant de données de mauvaise qualité : alors qu’aucune relation n’existe réellement entre X et Y, la présence d’un point aberrant vient créer une « relation fantôme » sur laquelle le gestionnaire pourrait être amené à prendre des décisions sans fondements.

Comment éviter alors de tomber dans de tels écueils ?

-La visualisation des données est outil puissant tant en terme de contrôle de leur qualité (on voit tout de suite les 3 problèmes soulignés ici), que de présentation des résultats. Elle s’intègre de fait naturellement comme une étape importante dans la démarche analytique.

-La prudence, l’attention portée au processus de production et de récupération des données sont indispensables. Quelques données aberrantes peuvent conduire à des conclusions totalement erronées : cultivez votre paranoïa !

Tags: SIRH