Intervalle de confiance

Intervalle de fluctuation et intervalle de confiance

À lire dans cet article :

Nous avons revu les probabilités discrètes, les probabilités conditionnelles (ici) et les probabilités continues (ici). Pour finir la partie du programme relative aux probabilités, il ne nous reste plus qu’à nous intéresser aux intervalles de fluctuations et aux intervalles de confiance. L’idée est de disposer d’outils qui permettent d’analyser des données. Imaginons que l’on aille au supermarché du coin, qu’on achète 35 tablettes de chocolat de 100g et qu’on les pèse. Bien entendu, toutes les tablettes ne feront pas exactement 100 grammes mais comment analyser cette liste de 35 poids ? Comment interpréter ces données ? C’est ce que nous allons voir dans cet article.

Pour simplifier la compréhension, on considérera qu’une tablette de conforme si son poids est compris entre 99 et 101 grammes. On considérera dans ce cas qu’elle fait 100 grammes. Si son poids est inférieur à 99 grammes ou supérieur à 101 grammes elle n’est pas conforme.

Qu’est ce qu’un échantillon ?

Considérons une population à étudier constituée de \(N\) individus. Par exemple, le stock de tablettes de chocolat. Imaginons que ce stock soit de 500 tablettes. Mesurer le poids de ces 500 tablettes pour vérifier qu’il est bien de 100 grammes serait très long. Pour cette raison, les mesures sont faites sur un échantillon.

Pour constituer cet échantillon, on tire au hasard un nombre \(n\) de tablettes de chocolat, avec remise entre chaque tirage. On note à chaque fois le poids de la tablette, et on regarde si elle est conforme ou non. La liste des 35 tablettes, en imaginant qu’elles soient numérotées, constitue notre échantillon de référence.

Chaque tablette est un individu de la population.

On remarque qu’on peut former \(N^n\) échantillons.

Si l’on note C une caractéristique des échantillons comme par exemple le poids. On peut définir la proportion d’individus qui présente ce caractère par la relation \(p=\frac{n_C}{N}\). Ici p correspond donc à la proportion de tablettes conforme.

Il est important de remarquer que dans cette proportion c’est le nombre totale d’individus dans la population, qui est pris en compte. Dans notre exemple, on ne connait donc pas cette proportion. On cherche à l’estimer.

En revanche ce que l’on connait c’est la fréquence d’apparition de ce caractère dans notre échantillon. La fréquence d’apparition est définie par \(f_e=\frac{n_e}{n}\). Dans cette formule \(n_e\) représente le nombre d’individus avec le caractère recherché. Si 25 tablettes pèsent entre 99 et 101 grammes, alors la fréquence d’apparition du caractère être conforme est \(\frac{25}{35}= \frac{5}{7}\).

Le problème qui se pose ici est de savoir si cette fréquence mesurée \(f_e\) est proche de la proportion réelle \(p\).

Intervalle de fluctuation

Soit \(\alpha\) un réel appartenant à l’intervalle \(]0,1[\).

Considérons une population dont on cherche à déterminer la proportion d’individus qui présente le caractère C, et dont on a observé une fréquence d’apparition \(f_e\).

Un intervalle de fluctuation de f au seuil \(1-\alpha\) est un intervalle \(I\) qui vérifie qu’au moins \(1-\alpha\) pourcent des échantillons de taille n ont une fréquence d’apparition qui appartient à l’intervalle. On peut donc écrire

$$P(F_n \in I) = 1 – \alpha$$

Avec \(F_n\) la fréquence d’apparition d’un échantillon de taille n.

Rappel de classe de seconde : si \(n \geq 30\) et \(p \in [0,2;0,8]\), alors un intervalle de fluctuation de \(f\) au seuil de 95% est donné par \(I\).

$$ I = [p – \frac{1}{\sqrt{n}}; p + \frac{1}{\sqrt{n}}]$$

Le programme de terminale propose de définir un intervalle de fluctuation asymptotique de f au seuil de \(1-\alpha\). Pour cela on doit d’abord vérifier que

  • \(n \geq 30\)
  • \(np \geq 5\)
  • et que \(n(1-p) \geq 5\)

On a alors l’intervalle

$$ I_{\alpha} = [ p – u_{\alpha}\sqrt{\frac{p(1-p)}{n}}; p +u_{\alpha}\sqrt{\frac{p(1-p)}{n}}]$$

Quelques valeurs usuelles de \(u_{\alpha}\) sont à connaitre : \(u_{0.05}=1.96\), \(u_{0.01}=2.58\), \(u_{0.1}=1.65\).

Cependant pour calculer ces intervalles, il faut que la proportion p soit connue. Or ce n’est pas notre cas.

Intervalle de confiance

La proportion p est inconnue dans notre exemple, mais nous disposons d’une fréquence d’apparition. On peut donc définir un intervalle de confiance.

D’après la définition de l’intervalle de fluctuation vu en seconde, on peut en déduire que dans 95% des cas \(p \in [f – \frac{1}{\sqrt{n}}; f + \frac{1}{\sqrt{n}}]\). Cet intervalle est un intervalle de confiance pour la proportion p au risque de 5%. Le risque correspond au fait que notre échantillon n’est pas forcément représentatif de la population dans sa globalité. On a peut être, par malchance sélectionné que les tablettes de poids le plus faible, on pourrait alors penser que le fabricant arnaque le client. Néanmoins, on sent bien que la probabilité qu’on sélectionne les 30 tablettes de poids les plus faibles est très faible.

Le programme de terminale donne également une définition d’un intervalle de confiance de p au risque \(\alpha\).

$$ I_{\alpha} = [ f -\frac{u_{\alpha}}{2\sqrt{n}}; f +\frac{u_{\alpha}}{2\sqrt{n}}] $$

Dans notre exemple nous avions \(n=35\) et \(f=\frac{5}{7} \approx 0.71\). Un intervalle de confiance au risque de 5% est donc

$$ I_{0.05} = [ 0.71 -\frac{1.96}{2\sqrt{35}}; 0.71 +\frac{1.96}{2\sqrt{35}}] = [5,549;0.880]$$

On sait donc qu’il y a 95% de chance que la proportion de tablettes conformes se trouve dans cet intervalle. Néanmoins, l’intervalle est encore assez large, pour le réduire il faudrait augmenter la taille de l’échantillon, ou prendre un intervalle avec un risque plus élevé. Par exemple, prenons \(\alpha=0.1 \), l’intervalle devient

$$ I_{0.1} = [ 0.71 -\frac{1.65}{2\sqrt{35}}; 0.71 +\frac{1.65}{2\sqrt{35}}] = [5,575;0.854]$$

On peut voir que la différence est mince, et maintenant la probabilité que p soit bien dans cet intervalle n’est plus que de 90%. Augmenter le risque, comme on pouvait s’en douter n’est pas forcement une bonne solution. Il est préférable d’augmenter la taille de l’échantillon.

Voilà qui conclut la partie du programme relative aux probabilités !

Pour vous entraîner à l’épreuve de mathématiques, n’hésitez pas à consulter le corrigé du bac de maths S 2018 disponible ici ou le sujet de 2019 qui est disponible avec son corrigé ici.

Tu veux plus d’informations et de conseils pour réussir tes examens et trouver ton orientation ? Rejoins-nous sur Instagram et TikTok !

À la une