Page principale Dossiers La nécessité du hasard - Répondre par hasard, oui, mais comment ?
La nécessité du hasard - Répondre par hasard, oui, mais comment ? Imprimer Envoyer
Écrit par Florent TOURNUS   
Dimanche, 06 Avril 2008 01:00
Index de l'article
La nécessité du hasard
Qu'est-ce qu'une série aléatoire ?
Nous sommes de mauvais générateurs aléatoires
Le principe d'un test
Pourquoi utiliser un tirage au sort ?
Répondre par hasard, oui, mais comment ?
Tous les tirages au sort ne se valent pas
Une probabilité de réussite, conditionnelle
Une ou plusieurs expériences ?
Martingale ? Vous avez dit martingale ?
Tirage aléatoire sans contrainte
Un tirage peut-il nuire à l'expression d'un phénomène ?
Mauvais tirage et échec de test
Une situation dissymétrique
Pour résumer : l'essentiel à retenir
Toutes les pages

Répondre par hasard, oui, mais comment ? Retour sur la probabilité critique...


Déterminer à partir de quel score un résultat peut-être considéré comme « extraordinaire » (ou de manière plus générale, calculer la probabilité critique p) n'est pas forcément évident. Comme je vais essayer de l'illustrer par quelques exemples, le calcul dépend de ce qu'on entend par une réponse « au hasard » et donc du modèle utilisé... Des difficultés peuvent apparaître, même lorsque les tirages au sort sont effectués par des véritables générateurs aléatoires (par opposition à un choix humain « au hasard »).

Je rappelle que la probabilité critique p est la probabilité d'obtenir par hasard un score [30] au moins aussi bon que celui effectivement obtenu. Pour la calculer, on est obligé d'utiliser un modèle (par exemple, que toutes les possibilités sont équiprobables), qui n'est pas forcément juste et qui demande à être établi avec précaution. En effet, que veut dire « obtenir par hasard » ? Est-ce que cela correspond au cas où la bonne réponse est fixée et celle donnée par le « sujet psi » (c'est-à-dire le sujet qui passe le test) est tirée au sort ? Ou alors, est-ce que cela correspond au contraire à fixer la réponse du « sujet psi » et tirer au sort la bonne réponse ? Ou encore, cela peut vouloir dire que la bonne réponse et la réponse du « sujet psi » sont tirées au sort... Vous pensez peut-être que la première façon de voir les choses est la plus pertinente. Mais, même dans ce cas, la signification de « par hasard » n'est pas forcément évidente : comment le « sujet psi » tire-t-il sa réponse au sort ? « Bêtement » ou en tenant compte de toutes les informations dont il dispose (de façon à chercher à optimiser la probabilité d'obtenir un gros score) ?



Les stratégies optimales : premier exemple


Prenons un exemple concret d'expérience (voir encadré ci-dessous) : un individu A doit essayer de deviner le chiffre (entre 0 et 9) choisi par un individu B, le test ne portant que sur un seul essai. Imaginons que A soit tombé juste. On aimerait chiffrer la probabilité critique correspondant au résultat obtenu [31] : autrement dit, quelle était la probabilité que A trouve « par hasard » le chiffre choisi par B ? Comme on l'a vu plus haut, la probabilité pour chaque chiffre d'être choisi par B n'est pas uniforme (chaque chiffre n'est pas équiprobable, le chiffre 7 en particulier ayant beaucoup plus de chances d'être choisi que les autres). Cependant, si A tire au hasard (avec un vrai générateur aléatoire) le chiffre qu'il donne comme réponse, la probabilité p qu'il tombe juste est p=10 % [32]. Mais comme A sait que B a plus de chances de choisir le chiffre 7 (il sait qu'un humain est un mauvais générateur aléatoire), alors il peut tout miser sur le 7 et ainsi augmenter [33] ses chances de réussite « par hasard ». En effet, la probabilité qu'il tombe juste est alors égale à la probabilité que B choisisse 7, soit p≈30 %. Quelle situation correspond le plus à la réalité ? Finalement, à quelle valeur estimeriez-vous la probabilité que A avait de tomber juste ? En agissant avec la deuxième stratégie, A ne fait pas mieux que le « hasard », il ne fait preuve d'aucune capacité extraordinaire [34] : il a simplement utilisé l'information dont il disposait pour optimiser ses chances de réussite [35]. Cette situation très minimaliste n'est pas si simple ! Pour une expérience plus complexe, faisant par exemple intervenir le choix par un individu d'une combinaison de cinq bits (0 ou 1, « pile » ou « face », etc.), nous avons également vu ci-dessus que le « hasard pur » (c'est-à-dire que chaque série est équiprobable) n'est pas un bon modèle de la réalité. De la même façon que dans l'exemple précédent, en « visant » une combinaison parmi les plus choisies, on peut augmenter significativement ses chances de réussite lors d'une expérience.

Dans l'exemple de l'expérience où il s'agit de deviner un chiffre, on pourrait adopter cette façon de voir : on décrète que la probabilité critique p ne doit pas être calculée en considérant la situation où A utilise une « stratégie » optimale. Effectivement, dans notre exemple, l'individu A ne répond pas au hasard mais suit une stratégie en répondant 7. Mais alors, comment trancher entre l'hypothèse du hasard et l'hypothèse d'une capacité « extraordinaire » ? S'il existe des stratégies qui optimisent la probabilité de réussite au test, l'hypothèse qu'une telle stratégie a été suivie doit être prise en compte ! Le pire, c'est que A peut très bien, par la façon d'effectuer son choix, sans même en être conscient [36] et sans faire appel à une quelconque capacité « extraordinaire », augmenter sa probabilité de réussite au test (par rapport au « hasard pur »). Comme on ne peut pas savoir si le « sujet psi » a suivi ou pas une stratégie visant à optimiser ses résultats, la démarche la plus raisonnable consiste à prendre le cas qui maximise la probabilité critique p (donc, qui correspond au résultat le moins « extraordinaire ») comme modèle de choix « au hasard ».

Jusqu'ici nous avons considéré que B avait choisi son chiffre « au pif » (cas n°1 de l'encadré ci-dessous). Notez que la difficulté apportée par la question de la signification de « obtenir tel résultat par hasard » disparaît dès lors que la « bonne réponse » (ici le chiffre choisi par B) est réellement déterminée par un tirage aléatoire (cas n°2 de l'encadré ci-dessous). Dans ce cas, il n'y a plus d'ambiguïté [37] quant au calcul de p : quelle que soit la stratégie suivie par A, si l'hypothèse du hasard est la bonne (c'est-à-dire que le choix de B n'influence pas la réponse de A), sa probabilité de réussite est la même et vaut p=1/10. Cependant, comme nous le verrons avec un autre exemple d'expérience plus complexe, il existe des situations où la question des stratégies de réponse a son importance, et ce, bien qu'il y ait une véritable randomisation. Nous verrons qu'il peut alors être très difficile d'envisager toutes les stratégies possibles, pour déterminer la plus favorable et ainsi donner une valeur de p sans risquer de la sous-estimer.

Cliquer sur l'image pour voir l'encadré

 

Les stratégies optimales : un autre exemple


Imaginons maintenant un protocole de test inspiré des expériences de vision à distance rapportées par Targ et Puthoff [38]. Un « sujet psi » doit faire une description de lieux qui ont été tirés au sort, et dont il ignore la localisation. On fait quatre expériences consécutives : on dispose donc à la fin du test de quatre descriptions, établies par le « sujet psi », qui, dans l'hypothèse d'une « vision à distance » devraient correspondre aux quatre lieux choisis (appelés « cibles »). Pour évaluer l'accord entre les descriptions et les cibles, on demande à un juge [39] de classer, pour chaque cible, les quatre descriptions en fonction de leur pertinence. On calcule alors un score en additionnant le rang (position dans le classement) de la description du « sujet psi » correspondant à chacune des cibles. Par exemple, si le « sujet psi » donne une description sans équivoque du lieu choisi, alors cette description sera logiquement classée en première position pour chaque cible, et le score final sera de 4.

Mais quelle est justement la probabilité d'obtenir « par hasard » un score de 4 ? Si le « sujet psi » n'a aucune capacité de vision à distance, les descriptions qu'il donnera pour chaque cible ne colleront pas spécialement. Le juge aura alors certainement du mal à déterminer laquelle est la meilleure pour chacune des cibles : on peut alors considérer que toutes les descriptions ont la même probabilité de se retrouver en première position et le score total a finalement peu de chances d'être de 4. En effet, pour avoir un score total de 4, il faut que le juge classe la « bonne [40] » description en premier pour chacune des quatre cibles, ce qui a une chance sur 44 d'arriver [41]. Ce calcul nous donne donc une probabilité critique p≈0,4 %. Avec un seuil de 1 %, ce résultat pourrait donc être considéré comme significatif, et il serait raisonnable d'invoquer une autre hypothèse que le hasard pour l'expliquer.

Le juge pourrait pourtant suivre un autre raisonnement... En effet, il sait que pour obtenir un score de 4 (le score minimal, qui est le meilleur dans ce cas), une description différente doit être placée en première position pour chaque cible [42]. Le juge peut donc choisir [43] de proposer un classement au hasard, mais qui vérifie la contrainte suivante : aucune description ne doit être classée en première position pour plusieurs cibles. En agissant de la sorte, il restreint son choix à 31104 possibilités [44] de classement au lieu de 331776 s'il ne s'impose aucune contrainte [45]. Un calcul [46] montre alors que la probabilité d'avoir un score de 4 est p≈4,2 %, ce qui signifie qu'un tel résultat reste conforme au hasard (avec un seuil de 1 %). Avec un seuil de 5 %, plus conforme à ce qui se fait en parapsychologie, on pourrait rétorquer que ce « biais » potentiel ne change pas le caractère « extraordinaire » du score de 4. Certes, mais il n'en resterait pas moins que la valeur de p calculée serait largement sous-estimée et un résultat serait considéré comme largement significatif, alors qu'il est finalement très proche du seuil. Rappelons que cet exemple n'a pas d'autre but que d'illustrer un biais potentiel dans le calcul de la probabilité critique. Il est tout de même remarquable qu'en utilisant une stratégie toute simple (ici, s'imposer de ne pas mettre plusieurs fois la même description en première position), on arrive à multiplier par 10 environ la probabilité d'obtenir un certain score ! Et ce, sans utiliser rien d'autre que le hasard, simplement en adaptant sa façon de choisir au hasard aux conditions particulières de l'expérience.

Un manque de soin dans la détermination de la probabilité critique p peut nous mener à une conclusion complètement erronée : un résultat qu'il est « normal » d'obtenir, pour peu que l'on suive une certaine stratégie, pourrait être pris comme une preuve en faveur d'un phénomène « extraordinaire ». Cette expérience fictive [47] montre qu'il faut être très prudent : le modèle imaginé pour rendre compte d'une réponse « au hasard » peut être faux. Notez que si le calcul de p est délicat, c'est parce qu'avec le protocole expérimental choisi, la « bonne réponse » vérifie certaines contraintes.

 

Un dernier exemple pour la route...


Je voudrais prendre encore un autre exemple d'expérience où le calcul de la probabilité critique peut poser problème, même si la « bonne réponse » à trouver a été correctement tirée au hasard. Considérons l'expérience suivante, toujours fictive, mais inspirée de celles menées par Sheldrake [48] : une personne doit essayer de détecter si elle est observée dans son dos. Je passe sur les questions pratiques de protocole, dont je ne souhaite pas discuter ici : nous supposerons que le « sujet psi » n'a aucun moyen « normal » de savoir s'il est observé ou non. Le test comporte une série de 8 essais : le score du « sujet psi » sera donc compris entre 0 et 8. Imaginons que l'on fasse exprès de n'utiliser (sans forcément le dire au « sujet psi » qui passe l'expérience), comme l'a fait Sheldrake, que des listes aléatoires « équilibrées », pour déterminer à chaque essai si la personne doit être observée ou non. Autrement dit, les 8 tirages pour la série d'expériences comporteront 4 fois la situation où le « sujet psi » est observé et 4 fois la situation où il ne l'est pas. Imaginons maintenant qu'un « sujet psi » passe le test et obtienne un score de 7 sur 8. Que peut-on dire ? Quelle est la probabilité critique p correspondant à ce résultat : c'est-à-dire, quelle est la probabilité pour le « sujet psi » d'obtenir « par hasard » un score de 7 ou 8 ?

Si l'on considère que quand le « sujet psi » répond purement par hasard, il a une chance sur deux d'avoir bon à chaque essai, alors la probabilité d'avoir un score total donné est calculable très facilement : les scores sont distribués selon la loi binomiale [49]. La probabilité d'avoir un score de 7 ou plus [50] est alors p≈3,5 % ce qui serait considéré comme extraordinaire, et donc significativement différent du hasard, par un parapsychologue (puisque le seuil habituellement utilisé est de 5 %).

Imaginons maintenant que le « sujet psi », qui n'a en fait aucune capacité « extraordinaire » (c'est-à-dire aucun sens lui permettant de « sentir » s'il est observé dans son dos), ait fait en sorte de répondre avec la contrainte suivante : sur les 8 essais, il a répondu 5 fois qu'il se sentait observé et donc 3 fois qu'il ne se sentait pas observé. Tout comme dans l'exemple précédent, s'imposer cette contrainte (ou le faire inconsciemment, ce qui revient au même), restreint le nombre de possibilités de réponse : s'il répond sans contrainte il y a 256 possibilités, alors qu'avec la contrainte mentionnée (5 réponses « oui » et 3 réponses « non »), il n'y en a que 56. Si le « sujet psi » choisit au hasard une de ces 56 possibilités, alors, bien qu'il n'augmente pas son espérance de score (c'est-à-dire le score moyen), la probabilité d'obtenir un score donné n'est pas la même que lorsqu'il répond purement au hasard à chaque essai [51]. Or, il se trouve qu'en répondant 5 fois sur 8 qu'il se sent observé, le « sujet psi » augmente sensiblement sa probabilité d'obtenir un score de 7 ou plus (qui dans ce cas est en fait égale à celle d'obtenir un score de 7 exactement, cf. note 48), par rapport à une réponse sans contrainte. En effet, on peut calculer que la probabilité critique est dans ce cas p≈7,1 %. J'insiste sur le fait que dans les deux cas envisagés, le « sujet psi » répond bien au hasard, mais suivant des modalités différentes.

Comme pour l'exemple précédent, suivre un modèle de « hasard pur » (chaque réponse est équiprobable à chaque essai), aboutit à une sous-estimation significative de la probabilité p (ici d'un facteur 2 environ). Si le score minimum considéré comme extraordinaire a été fixé à 7 sur 8 (seuil avec critère de 5 % obtenu d'après la loi binomiale), un « sujet psi » a en fait 7,1 % de chances d'avoir un score jugé « extraordinaire » alors qu'il ne fait que répondre au hasard. Si l'on fait un grand nombre de séries d'expériences, on aura deux fois plus de séries donnant un résultat « extraordinaire » que ce qui est attendu par hasard (d'après un calcul erroné). Notez que, de manière intéressante, la stratégie optimale pour obtenir un score d'au moins 7 n'est pas de reproduire la structure de la « bonne réponse » (à savoir 4 « oui » et 4 « non »). En revanche, s'imposer de répondre 4 fois « oui » et 4 fois « non » permet bien sûr de maximiser sa probabilité d'obtenir le meilleur score de 8 sur 8 : la probabilité est alors de 1,4 % au lieu de 0,4 % si on répond sans contrainte, c'est-à-dire qu'elle augmente d'environ 350 % ! En fait, puisqu'il existe des « stratégies », des schémas de réponse, qui augmentent la probabilité d'avoir un gros score simplement par hasard, il aurait fallu fixer le seuil à 8 sur 8 pour considérer que le résultat était significativement différent du hasard (et encore, si on se contente d'un seuil de 5 %).

 


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[30] Je parle ici de score, mais il peut s'agir d'une autre variable construite à partir des résultats de l'expérience (cf. note 25).

[31] Le score ne peut être que 1 ou 0, puisque soit A trouve le bon chiffre, soit il échoue.

[32] En effet, dans ce cas, le chiffre choisi par B est fixé et le générateur aléatoire utilisé par A fournira chacun des 10 chiffres de manière équiprobable.

[33] Avec la même expérience, on peut aussi faire exprès (ou pas) d'avoir moins de chances de succès que si le chiffre à deviner avait été tiré au sort. Pour cela, il suffit d'annoncer un chiffre généralement très peu choisi, comme le 0 ou le 1 par exemple.

[34] De toutes façons, une probabilité critique de 1/10 ne mènerait jamais à rejeter l'hypothèse du hasard... Cet exemple est juste illustratif. On peut envisager la même chose avec un choix plus vaste de nombres (ou de combinaisons), de façon à ce qu'un succès puisse être perçu comme extraordinaire. On peut aussi envisager une série d'expériences identiques : dans ce cas, la probabilité de réussir une expérience doit être connue pour analyser les résultats.

[35] Dans ce cas, ce n'est pas A qui est source de hasard, mais B.

[36] Remarquez que, comme indiqué dans l'encadré, si le sujet A répond « au pif », ce qui peut facilement arriver, sans pour autant qu'il ait l'impression de suivre une stratégie particulièrement efficace, alors sa probabilité de réussite au test est supérieur à celle qu'il aurait avec un véritable tirage aléatoire (modèle du « hasard pur »).

[37] Nous discuterons plus loin (paragraphe « Une probabilité de réussite, conditionnelle ») une autre question concernant la probabilité critique : doit-elle être calculée en prenant en compte la valeur de la « bonne réponse » ?

[38] Dans le livre « Aux confins de l'esprit » (éditions Albin Michel), dont on peut trouver un compte-rendu de lecture critique ici : http://www.zetetique.fr/index.php/dossiers/107-targ-puthoff

[39] C'est-à-dire une personne indépendante qui ne sait évidemment pas à quelle cible correspond chaque description.

[40] Notez que cette description n'est pas forcément bonne ! Cela peut simplement être la moins mauvaise. « Bonne » est ici à comprendre dans le sens où il s'agit de la description effectuée lors de l'expérience où la cible considérée avait été choisie.

[41] Chaque rang (entre 1 et 4) est équiprobable pour la « bonne » description, et ce pour chacune des quatre cibles.

[42] En effet, à chaque cible correspond une unique « bonne » description, différente des autres.

[43] Il peut aussi agir de la sorte sans en être conscient.

[44] Ce nombre correspond à 4! multiplié par (3!)4. En effet, il y a 4! arrangements possibles pour les descriptions classées en première position, puis 3! possibilités de classement des autres descriptions pour chacune des quatre cibles.

[45] Ce nombre correspond à (4!)4. Il y a en effet 4! classements possibles pour chacune des quatre cibles.

[46] Il y a (3!)4 classements qui correspondent à un score de 4 (pour chacune des 4 cibles, la description classée en premier est la bonne et les 3 restantes sont dans un ordre quelconque). La probabilité d'avoir un score de 4 est donc de 1/4! (cf. note 44), c'est-à-dire une chance sur 24.

[47] L'expérience discutée ici est fictive, mais ces remarques s'appliquent également à des expériences bien réelles de Targ et Puthoff... Voir à ce sujet la référence donnée en note 38.

[48] R. Sheldrake, chercheur en parapsychologie, a publié plusieurs articles relatant des expériences sur la « sensation d'être observé » (“The sense of being stared at”). Une liste d'articles sur ce thème est disponible sur le site de R. Sheldrake : http://www.sheldrake.org/Articles&Papers/papers/staring/index.html

[49] Cf. par exemple http://fr.wikipedia.org/wiki/Loi_binomiale

[50] On peut utiliser le programme PrOZstat développé par l'Observatoire zététique pour calculer cette probabilité et la distribution des scores attendue par hasard. En pratique, il suffit de se rendre sur le site ../stats/ et d'aller dans la rubrique « Que dire d'un résultat ? », « Une série d'expériences identiques ». Remplir ensuite « une chance sur 2 » pour la probabilité de réussite par hasard pour une expérience, « N=8 » pour le nombre d'expériences dans une série, et indiquer 7 pour le nombre de succès. Le programme indique alors (cliquer sur les « ? ») que la probabilité d'obtenir par hasard ce résultat ou plus est de 3,516 %. Si on a choisi un seuil de 5 % (en cochant 5 % dans la rubrique « critère de décision »), le programme nous indique, en toute logique, que le résultat est « extraordinaire ».

[51] En particulier, puisque la « bonne réponse » correspond à 4 situations d'observation et 4 de non-observation, le « sujet psi » ne pourra jamais avoir un score de 8 sur 8 en répondant 5 fois qu'il se sent observé et 3 fois qu'il ne se sent pas observé !