Page principale Dossiers La nécessité du hasard - Qu'est-ce qu'une série aléatoire ?
La nécessité du hasard - Qu'est-ce qu'une série aléatoire ? Imprimer Envoyer
Écrit par Florent TOURNUS   
Dimanche, 06 Avril 2008 01:00
Index de l'article
La nécessité du hasard
Qu'est-ce qu'une série aléatoire ?
Nous sommes de mauvais générateurs aléatoires
Le principe d'un test
Pourquoi utiliser un tirage au sort ?
Répondre par hasard, oui, mais comment ?
Tous les tirages au sort ne se valent pas
Une probabilité de réussite, conditionnelle
Une ou plusieurs expériences ?
Martingale ? Vous avez dit martingale ?
Tirage aléatoire sans contrainte
Un tirage peut-il nuire à l'expression d'un phénomène ?
Mauvais tirage et échec de test
Une situation dissymétrique
Pour résumer : l'essentiel à retenir
Toutes les pages

Qu'est-ce qu'une série aléatoire ?


 

Par définition, le résultat d'un tirage aléatoire ne peut pas être prédit. Ainsi, pour une suite de nombres aléatoires (qu'on appelle aussi couramment une série), connaître certains ou même tous les nombres déjà tirés ne permet pas de prédire le nombre qui sortira au tirage suivant : les tirages sont complètement indépendants les uns des autres. Une véritable série aléatoire ne présente aucune périodicité, aucune structure particulière [2]. La série aléatoire la plus simple est constituée par une série d'éléments ne pouvant prendre que deux valeurs [3], de manière équiprobable à chaque tirage : 0 ou 1, « pile » ou « face », etc.

Le problème majeur est que, lorsqu'une série finie de tirages (constituée de 0 et 1) nous est donnée, il n'y a aucun moyen de savoir si elle provient d'un tirage aléatoire ou non. En effet, alors que les deux séries suivantes, 1111111111 et 0010111010 ont autant de chances d'être obtenues par un tirage aléatoire, la première ne nous semble pas aléatoire et sera certainement écartée lorsqu'on voudra se servir d'une série aléatoire. La stratégie adoptée pour décider si une série finie peut être utilisée comme « série aléatoire » est de regarder si elle possède un certain nombre de caractéristiques, qui reflètent celles vérifiées par une série aléatoire infinie. Par exemple, la fréquence de 0 et de 1 (c'est à-dire la proportion de 0 et de 1 tirés) doit être la même. Ou encore, la fréquence de 1 suivant un 0 doit être la même que celle de 0 suivant un 0 (puisque le tirage d'un 0 ne doit avoir aucune incidence sur l'issue du tirage suivant). Étant donné que la série considérée est de longueur finie, il est normal de ne pas obtenir exactement les caractéristiques d'une série aléatoire infinie et, par conséquent, on s'autorise un écart statistique autour des valeurs « idéales ».

On peut alors utiliser toute une batterie de tests statistiques [4] pour voir si la série considérée est « dans les normes » et peut constituer une série aléatoire acceptable [5]. Par exemple, la série 1111111111 pourrait se trouver rejetée car elle contient trop de 1 (alors même qu'elle peut parfaitement avoir été obtenue par hasard !). Ces « batteries de tests » servent en fait plutôt à tester la qualité du générateur aléatoire [6] : si celui-ci est réellement aléatoire, il y a très peu de chances [7] d'observer, pour un tirage particulier, une déviation significative par rapport à ce qui est attendu par hasard dans la très grande majorité des cas [8]. Lorsqu'on est certain d'avoir un bon générateur de nombres aléatoires, alors on peut choisir de lui faire confiance et ne rejeter aucun tirage, même si l'un d'eux nous semble peu satisfaisant.

En pratique, l'ordinateur est un outil de choix pour générer des séries de tirages aléatoires. Or un ordinateur est déterministe (il faut l'espérer !). Les « séries aléatoires » qu'il délivre sont le résultat d'un calcul mathématique suivant un algorithme prédéfini : elles peuvent avoir l'air d'être aléatoires (elles peuvent passer les tests de vérification mentionnés plus haut) mais elles ne le sont pas vraiment [9]. On parle alors de générateur pseudo-aléatoire. Pour la plupart des applications, ceci ne pose aucun problème. Notez qu'il est par ailleurs possible de générer des séries véritablement aléatoires en faisant appel à un système physique qui donnera des grandeurs mesurables réellement imprévisibles [10] (mais le procédé est moins efficace, c'est-à-dire que les nombres sont générés beaucoup moins rapidement, et beaucoup plus lourd !). On peut, bien sûr, penser à utiliser une simple pièce de monnaie ou un dé, mais il est difficile de s'assurer que les tirages ne seront pas biaisés [11] : utiliser du matériel censé être de bonne qualité (par exemple des dés achetés à Las Vegas, comme le précise naïvement le parapsychologue R. Sheldrake dans un article [12]...) ne dispense pas de vérifier a posteriori, mais avant de faire les expériences (dans le cas d'un tirage préliminaire), la qualité de la randomisation.

Pour l'instant, nous avons uniquement parlé des séries aléatoires que j'appellerai « sans contrainte », constituées simplement d'une suite de 0 ou 1 par exemple, chacun ayant autant de chances de sortir à chaque tirage. En fonction du protocole expérimental choisi pour étudier un phénomène, on peut avoir besoin d'autres types de tirages aléatoires. On peut par exemple vouloir mélanger un jeu de N cartes (cela revient à tirer au sort un classement parmi les factorielle N, noté N! arrangements possibles), ou encore utiliser des séries « équilibrées », c'est à dire comprenant exactement le même nombre de 0 et de 1 (ou de « pile » ou « face », de « situation 1 » ou de « situation 2 », etc.). Dans tous les cas, cela revient à tirer une série parmi un grand nombre possible qui vérifient les contraintes imposées [13]. Sauf que dans ce cas, même s'il doit exister des tests statistiques pour cela, il est délicat de vérifier a posteriori que le tirage satisfait certaines conditions souhaitées (d'autant que ces conditions sont justement moins évidentes à choisir que pour une série « sans contrainte »). Par exemple, dans le cas du tirage au sort d'une série équilibrée de 20 éléments, on peut aussi bien tomber sur la série 00000000001111111111 que sur la série 01001110100101111000 : la première nous semble moins « aléatoire », elle est moins satisfaisante que la deuxième et on pourrait donc choisir de la rejeter au motif que la plus longue série de 1 ou de 0 est trop longue (dix 0 et dix 1 successifs) ou qu'il n'y a pas assez d'alternances (c'est-à-dire de passage de 0 à 1 ou de 1 à 0). En effet, il est statistiquement très improbable d'avoir une série présentant une seule alternance [14]. L'occurrence d'une telle série est donc très peu probable avec un bon générateur aléatoire, mais parfaitement possible. Lorsqu'on souhaite utiliser des tirages comme ceux-ci pour une expérience, il faut alors décider à l'avance [15] (et le mentionner dans le compte rendu d'expérience) quels seront les critères, s'il y en a, pour garder ou au contraire rejeter une série particulière.

 


Notes (cliquez sur les nombres pour revenir dans le texte là où vous en étiez)

[1] Cette appellation est utilisée comme raccourci pour parler des expériences intéressant particulièrement le zététicien, qui portent sur des phénomènes « extraordinaires », controversés... Mais la discussion peut s'appliquer tout aussi bien aux expériences « classiques », par exemple dans le domaine médical et pharmaceutique.

[2] Pour plus d'information sur les séries aléatoires, on pourra consulter par exemple ces sites web :
http://www.randomnumbers.info/ (et en particulier cette page)
http://www.fourmilab.ch/hotbits/ (et en particulier cette page)
http://www.random.org/

[3] Pour passer à une série aléatoire de nombres entiers compris entre 0 et 100 par exemple, il suffit de considérer qu'un groupe de plusieurs tirages de 0 ou 1 correspond à l'écriture en notation binaire de l'entier. Comme n tirages de 0 ou 1 correspondent à un tirage sur 2n nombres, il faut utiliser 7 bits (0 ou 1) pour avoir un entier entre 0 et 128 : si le nombre tiré est supérieur à 100 on refait tout simplement un tirage... [4] À ce sujet, voir par exemple ces sites :
http://csrc.nist.gov/groups/ST/toolkit/rng/stats_tests.html
http://www.fourmilab.ch/hotbits/statistical_testing/stattest.html

http://www.random.org/analysis/

[5] Ce faisant, lorsqu'on décide de rejeter une série qui ne serait pas « dans les normes » pour certains tests statistiques, on restreint finalement le nombre de séries possibles. Le sachant, cette information pourrait être mise à profit par un sujet lors d'une expérience, afin d'augmenter ses chances d'obtenir un résultat « extraordinaire » : en effet, il pourrait éviter de donner une réponse qui n'est pas « dans les normes », puisqu' il sait qu'elle ne peut être la « bonne réponse ».[6] Mais ils peuvent aussi être appliqués à une série censée être aléatoire, lorsqu'on ne sait pas trop comment elle a été obtenue.

[7] Comme dans tout test statistique, on a alors un risque de se tromper. Par exemple, si le générateur est en fait parfaitement aléatoire, la série 1111111111 a une chance sur 1024 de se réaliser par hasard. Cette probabilité représente donc le risque qu'on a de rejeter à tort le générateur aléatoire en se basant sur le fait qu'il nous a fourni cette série particulière.

[8] J'insiste sur un point crucial : la caractéristique de la série qui sera comparée à « ce qui est attendu par hasard dans la très grande majorité des cas », doit absolument être décidée avant de faire le tirage ! En effet, dans le cas contraire, on peut toujours trouver a posteriori un caractère exceptionnel dans une série. Sur ce sujet, on pourra consulter par exemple l'article de N. Gauvrit intitulé « Tromperies Statistiques » et en particulier la section « choix du test » (cf. http://www.pseudo-sciences.org/spip.php?article792).

[9] Par exemple, connaître la « graine » utilisée dans l'algorithme de génération des nombres aléatoires permet de prédire toute la série, qui se répète d'ailleurs de manière périodique...

[10] Certains sites web, mentionnés plus haut, permettent de générer à la demande des séries réellement aléatoires à partir de différents processus physiques : voir par exemple random.org, randomnumbers.info ou www.fourmilab.ch/hotbits/

[11] Apparemment, il s'avère que les lancers de « pile ou face » sont biaisés : cf. http://www.sciencenews.org/articles/20040228/mathtrek.asp
http://www.sciencenews.org/articles/20040228/fob2.asp
.

[12] “A Filmed Experiment On Telephone Telepathy With The Nolan Sisters”, J. Soc. Psychic. Res. 68, p. 168 (2004), disponible ici : http://sheldrake.org/papers/Telepathy/Nolan.pdf

[13] Par exemple, si on veut choisir au hasard une série « équilibrée » de 20 tirages, on tire au sort une combinaison parmi les 184756 possibles. Cela revient simplement à tirer un seul entier entre 1 et 184756 (soit, avec un codage binaire sur 18 bits, tirer une série aléatoire de 0 ou 1 de 18 éléments).

[14] Il n'y a en fait que deux séries équilibrées de 20 tirages, sur les 184756, qui ne présentent qu'une seule alternance.

[15] Tout comme il faut décider à l'avance quels seront les critères qui seront utilisés pour analyser les résultats d'une expérience. Cette remarque rejoint celle de la note 8.