cours première ES

Probabilités

IV - Échantillonnage

On appelle échantillonnage, le prélèvement d'un échantillon de taille n au sein de la population.

On s'intéresse à un caractère de proportion p connue au sein d'une population.

Si l'échantillon est réalisé par prélèvement des éléments de manière aléatoire avec remise, alors le nombre d'éléments de l'échantillon possédant le caractère étudié suit une loi binomiale np de paramètres n et p.
En pratique, si l'effectif de la population est très grand par rapport à l'effectif n de l'échantillon on considère que le tirage des éléments de l'échantillon s'effectue avec remise.

1 - Intervalle de fluctuation à 95 % d'une fréquence correspondant à une loi binomiale

L'intervalle de fluctuation à 95 % correspondant à une variable aléatoire X suivant une loi binomiale np de paramètres n et p, est l'intervalle anbn où :

  • a est le plus petit entier tel que PXa>0,025
  • b est le plus petit entier tel que PXb0,975

On a alors PaXb0,95


Intervalle de fluctuation : L'illustration svg n'est pas visible par votre navigateur.

remarque

Lorsque n25 et 0,2p0,8, l'intervalle p-1np+1n est une approximation acceptable de l'intervalle de fluctuation au seuil de 95 %.

exemple

On considère une population pour laquelle la proportion d'un caractère C est p=0,28.

On prélève au hasard et avec remise un échantillon de taille n=100. La variable aléatoire X associée au nombre d'individus ayant le caractère C au sein de l'échantillon, suit la loi binomiale 1000,28 de paramètres n=100 et p=0,28.

On a ci-dessous, un extrait du tableau des probabilités cumulées PXk de la loi binomiale 1000,28.

kPXkkPXkkPXkkPXkkPXk
140,0007200,044260,3748320,842380,9887
150,0017210,0709270,4622330,8884390,9936
160,0037220,1085280,5507340,924400,9965
170,0075230,158290,6362350,9501410,9982
180,0144240,2198300,7149360,9684420,9991
190,0259250,2929310,784370,9807430,9995

L'intervalle de fluctuation à 95 % de la fréquence du nombre d'individus ayant le caractère C au sein d'un échantillon de taille 100 correspondant à la variable aléatoire X qui suit la loi binomiale np est donc l'intervalle 1910037100=0,190,37.

2 - Prise de décision

On formule l'hypothèse que la proportion d'un caractère dans la population est p.

Pour valider cette hypothèse, on prélève au hasard dans la population un échantillon de taille n et on note f la fréquence observée du caractère étudié.

Si l'effectif de la population est suffisamment grand par rapport à l'effectif n de l'échantillon on considère que la variable aléatoire X associée au nombre d'éléments ayant le caractère étudié au sein de l'échantillon, suit la loi binomiale np de paramètres n et p.

On détermine l'intervalle anbn de fluctuation à 95 % d'une fréquence correspondant à la variable aléatoire X qui permet de fixer le seuil de décision :

exemple

Selon une publication de l'INSEE, 28 % des ménages comprennent une famille avec au moins un enfant mineur.

  1. On interroge un échantillon de 100 ménages choisis au hasard, et on constate que dans cet échantillon 35 % des ménages comprennent une famille avec au moins un enfant mineur.
    Cet échantillon est-il représentatif de la population ?

    L'intervalle de fluctuation à 95 % associé à la loi binomiale 1000,28 calculé précédemment est 0,190,37.

    La fréquence observée des ménages comprenant une famille avec au moins un enfant mineur dans l'échantillon est f=35100=0,35.

    La fréquence observée f appartient à l'intervalle 0,190,37 par conséquent, on considère que l'échantillon est représentatif de la population.


  2. On interroge au hasard 300 ménages qui résident dans le même arrondissement d'une grande agglomération, et on constate également que 35 % de ces ménages comprennent une famille avec au moins un enfant mineur.
    Cet échantillon est-il représentatif de la population ?

    On détermine l'intervalle de fluctuation à 95 % associé à la loi binomiale 3000,28 de paramètres n=300 et p=0,28.

    • Le plus petit entier a tel que PXa>0,025 est a=69.
    • Le plus petit entier b tel que PXb0,975 est b=99.

    L'intervalle de fluctuation à 95 % de la fréquence du nombre de ménages comprenant une famille avec au moins un enfant mineur dans un échantillon de taille 300 est donc l'intervalle 6930099300=0,230,33.

    La fréquence f=0,35 des ménages comprenant une famille avec au moins un enfant mineur dans l'échantillon n'appartient pas à l'intervalle 0,230,33 par conséquent, on considère que cet échantillon n'est pas représentatif de la population.


remarque

Avec cette règle, la fluctuation d'échantillonnage amène à rejeter, à tort, environ 5 % des échantillons qui suivent le modèle de Bernoulli et qui ne sont pas l'intervalle de fluctuation.
On peut l'observer avec la simulation ci-dessous de 80 échantillons de taille 100 suivant la loi binomiale 1000,28.

Simulation de 80 échantillons de taille 100 : L'illustration svg n'est pas visible par votre navigateur.

Loi binomiale <<précédent

[ Accueil ]


Les documents présentés ne sont pas libres de droits. Vous pouvez les télécharger et diffuser (en indiquant la provenance) à condition de ne pas en faire un usage commercial.