Toute personne qui a ouvert un jour un livre de statistiques, s’est sentie désemparée devant l’approche de la notion d’échantillon. La définition en elle-même peut jeter un froid. Selon Wikipédia, « En statistique, un échantillon est un ensemble d’individus représentatifs d’une population
L’échantillonnage vise à obtenir une meilleure connaissance d’une ou plusieurs population(s) ou sous-populations(s) par l’étude d’un nombre d’échantillons jugé statistiquement représentatif. »
Deux termes apparaissent relativement techniques : « un ensemble d’individus représentatifs » et « l’étude d’un nombre d’échantillon jugé statistiquement représentatif ». Qu’est ce que ça veut bien dire ? Non, ne fermer pas la page, on va vous expliquer tout cela, et vous aller vite comprendre.
1°) Combien de personnes allons-nous interroger ?
La première question à se poser est de savoir le nombre de personnes que nous allons interroger ? 500, 1000, 5000 ? Si on calcule la part des français fumeurs à partir de 500 personnes, le pourcentage calculé sera différent de celui calculé avec un autre échantillon de 500 personnes. Il sera aussi différent de celui obtenu avec un échantillon de 1000. Les 3 pourcentages calculés seront également différents de ceux qu’on pourrait calculer si on interrogeait chaque français. L’écart entre le pourcentage issu de l’échantillon et celui de la population réelle est la marge d’erreur. Cette marge a la probabilité d’être d’autant plus faible que l’échantillon est grand.
Le tableau ci-dessous récapitule les marges d’erreur
Taille de l’échantillon \ part dans l’échantillon | 50% | 40% | 30% | 20% | 10% | 1% |
500 | 4,47% | 4,38% | 4,10% | 3,58% | 2,68% | 0,63% |
1000 | 3,16% | 3,10% | 2,90% | 2,53% | 1,90% | 0,45% |
1500 | 2,58% | 2,53% | 2,37% | 2,07% | 1,55% | 0,36% |
2000 | 2,24% | 2,19% | 2,05% | 1,79% | 1,34% | 0,32% |
2500 | 2,00% | 1,96% | 1,83% | 1,60% | 1,20% | 0,28% |
Si vous avez interrogé 500 personnes et qu’elles sont 50% à déclarer fumer. On peut dire qu’entre 45,53 (50-4,47) et 54,47 (50+4,47) de la population fume. Si vous avez interrogé 2500, on peut dire qu’entre 48 et 52% de la population fume.
Dans la pratique, les contraintes de budget sont souvent déterminantes. On va donc interroger environ 500 personnes. L’information ainsi obtenue sera évidemment moins fiable que celles issues d’un échantillon de 1000 personnes. Si on doit avoir des résultats très précis, on n’hésitera pas à atteindre un échantillon de 2500 personnes.
Vous me suivez ? Oui ! Tant mieux. Passons à la suite
2°) Comment choisir les personnes de manière à s’assurer que l’échantillon est représentatif ?
La deuxième chose sur laquelle on doit s’attarder, c’est la représentativité de mon échantillon. Par exemple, si pour mesurer la taille moyenne des français, je prends 500 personnes. Sur ces 500 personnes, j’ai 70% de femmes adultes, alors que la population française n’en comporte que 52%, il y a de fortes chances pour que la taille moyenne calculée pour l’échantillon soit en deça de la véritable taille moyenne de la population. Les femmes sont souvent plus petites. Autrement dit, mon échantillon ne représente pas la population française et la moyenne calculée ne reflète pas la moyenne réelle.
Ici que dois-je faire pour m’assurer de la représentativité de mon échantillon ??? oui, vous avez trouvé !
Mon échantillon doit absolument comporter 52% de femmes et 48% d’hommes. Je vais donc sélectionner les répondants en fonction de critères et déterminer pour chaque critère un quota.
Quelles sont les autres critères auxquels il faudra aussi faire attention ? l’âge ? oui bravo ! et ?
En résumé, l’échantillon doit s’assurer de respecter un certain nombre de critères (sexe, âge, CSP…) identique à celui de la population à étudier.
En résumé, pour avoir un bon échantillon, il faut s’assurer d’avoir suffisamment de personnes à interroger et que celles-ci respectent que les caractéristiques de la population à étudier dans les mêmes proportions.