Statistique et Probabilités [M3201]
TP 5 : Intervalles de confiance
Introduction
Pour commencer, lisez la partie du cours relative aux intervalles de confiance.
Exercices
Exercice 1
Première Partie
On considère un échantillon de taille \(n\) tiré d’une loi normale, \(\mathcal N(\mu,\sigma^2)\). ( rnorm(n, mu, sigma)
).
On s’intéresse à l’intervalle de confiance de la moyenne \(\bar X=\frac{1}{n}\sum_{i=1}^nX_i\).
Pour cela, nous allons donner les trois intervalles suivants (définis dans le cours sur l’estimation):
En considérant que la variance est connue (ici \(\sigma=1\)). \[\rm{IC_1} = \left[ \bar X - u_{1-\alpha/2} \frac{\sigma}{\sqrt{n}};\bar X + u_{1-\alpha/2} \frac{\sigma}{\sqrt{n}} \right] \]
En considérant que la variance est inconnue et donc en se servant du quantile de la loi de Student avec une estimation de la variance \(S\).
\[ S^2=\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2 \]
\[ \rm{IC_2} = \left[\bar X - t_{1-\alpha/2} \frac{S}{\sqrt{n}};\bar X + t_{1-\alpha/2} \frac{S}{\sqrt{n}} \right] \]
- En considérant que la variance est inconnue mais en remplaçant le quantile de la loi de Student par celui de la loi normale. \[ \rm{IC_3} = \left[\bar X - u_{1-\alpha/2} \frac{S}{\sqrt{n}};\bar X + u_{1-\alpha/2} \frac{S}{\sqrt{n}} \right] \]
Avec \(u_{1-\alpha/2}\) le quantile d’ordre \(1 − \alpha/2\) de la loi normale \(\mathcal N(0, 1)\) (qnrom
). et \(t_{1-\alpha/2}\) le quantile d’ordre \(1-\alpha/2\) de la loi de Student de paramètre \(n-1\) (qt
).
Remplir le tableau suivant:
Niveau de cofiance: | \(1-\alpha=0.95\) | \(1-\alpha=0.99\) |
---|---|---|
\(\rm{IC_1}(n=100)\) | ||
\(\rm{IC_2}(n=100)\) | ||
\(\rm{IC_3}(n=100)\) | ||
\(\rm{IC_1}(n=1000)\) | ||
\(\rm{IC_2}(n=1000)\) | ||
\(\rm{IC_3}(n=1000)\) |
On visualise pour \(n=1000\) les intervalles de confiance \(\rm{IC_1}\) des niveaux 0.85, 0.90 et 0.99. Quelle est la couleur associée à chaque niveau de confiance?
Deuxième partie
On souhaite refaire la même chose mais cette fois-ci les échantillons sont pollués (comme c’est souvent le cas dans la vie réelle) par des données extrêmes. On suppose ici qu’il y a 1% de données polluées par échantillon.
La fonction \(\texttt{pollue_ech}\)(n, mu, sigma2, sigma2_pollue, p) retourne un échantillon gaussien, \(\mathcal N(\mu,\sigma^2)\) (par défaut \(\mu=0\), \(\sigma = 1\)) avec une proportion \(p\) (p=0.01) de données polluées issues d’un échantillon gaussien de même moyenne mais de variance beaucoup plus grande (sigma2_pollue = 16).
pollue_ech <- function(n, mu=0,
sigma2=1, sigma2_pollue=16,
p=0.01){
pollue <- rbinom(n,1,p) # 0 ou 1 ~ B(p)
return(pollue * rnorm(n,mu,sqrt(sigma2_pollue))
+ (1 - pollue) * rnorm(n, mu, sqrt(sigma2)))
}
Remplir le tableau pour des échantillons pollués à 1%:
\(1-\alpha=0.95\) | \(1-\alpha=0.99\) | |
---|---|---|
\(\rm{IC_1}(n=100)\) | ||
\(\rm{IC_2}(n=100)\) | ||
\(\rm{IC_3}(n=100)\) | ||
\(\rm{IC_1}(n=1000)\) | ||
\(\rm{IC_2}(n=1000)\) | ||
\(\rm{IC_3}(n=1000)\) |
Exercice 2
Dans cet exercice, on suppose que \(X\) suit une loi gaussienne, avec une variance connue et une espérance inconnue. Le résultat visuel de ce qui est demandé est visible sur le serveur shiny de l’Université Grenoble Alpes.
1) Simuler un échantillon de taille \(n=50\) avec une espérance \(\mu=1\) et un écart-type \(\sigma=1\). Calculer la moyenne empirique \(\bar x\). Calculer l’intervalle de confiance de \(\mu\) au niveau de confiance \(0.95\).
2) Ecrire une fonction CI_mean
qui prend comme arguments, l’échantillon, l’écart-type \(\sigma\) (connu) et le niveau de confiance \(\alpha\), et retourne les deux bornes de l’intervalle de confiance. Tester cette fonction avec l’échantillon simulé avec des niveaux de confiance \(0.90\), \(0.95\) et \(0.99\). Commenter.
3) Un intervalle de confiance ne contient pas toujours la vraie valeur. Simuler 100 échantillons de taille \(n=50\) avec une espérance \(\mu=1\) et un écart-type \(\sigma=1\) et mettre cela dans une matrice notée \(X100\). Calculer les 100 intervalles de confiance au niveau \(0.95\) en utilisant votre fonction CI_mean
.
Faire une figure avec les 100 intervalles de confiance avec les vraies valeurs. On utilisera les fonctions segments
ou matplot
.
Tracer sur le même graphique la droite d’équation \(x=\mu\) avec abline
.
4) Répéter la même procédure avec \(N=1000\), \(N=10000\) et \(N=100000\) et compter le nombre d’intervalles de confiance ne contenant pas la vraie valeur \(\mu\). Commenter.
5) Simuler un échantillon \(X_1,X_2, \ldots, X_n\) de taille \(n=1000\). Pour chaque \(i=1,\ldots,n\), calculer la moyenne progressive \[ \bar X_i = \frac1i \sum_{j=1}^iX_j \] calculer les intervalles de confiance au niveau \(0.95\%\) pour chaque moyenne \(\bar X_i\). Représenter avec des points rouges les moyennes successives calculées et en bleus les bornes des intervalles de confiance. Commenter.
Exercice 3
Afin d’évaluer l’impact d’une campagne média anti-tabac, on s’est intéressé à la proportion de fumeurs menant des actions pour essayer d’arrêter de fumer (diminution de la consommation, achat de patchs anti-tabac, consultations médicales, …), c’est-à-dire à la proportion de fumeurs “actifs” pour arrêter.
Un sondage “avant campagne” a été effectué auprès de \(n_1=1000\) fumeurs, et un sondage “après campagne” a été effectué auprès d’un autre échantillon de \(n_2=1000\) fumeurs ; les deux échantillons sont donc indépendants. Le premier sondage donne une proportion de \(p_1=0.15\) de fumeurs “actifs”, alors que le deuxième sondage donne une proportion de \(p_2=0.17\) de fumeurs “actifs”. On veut savoir si la campagne a été efficace ; autrement dit si la proportion de fumeurs “actifs” a augmenté après la campagne.
1) Déterminer un intervalle de confiance au niveau 95% de la proportion de fumeurs “actifs” avant la campagne.
Rappelons l’intervalle de confiance d’une proportion \(\hat p\): \[ \left[\hat p - u_{1-\alpha/2} \sqrt{\frac{\hat p (1-\hat p)}{n}};\hat p + u_{1-\alpha/2} \sqrt{\frac{\hat p (1-\hat p)}{n}} \right]. \] Avec \(\hat p\) la fréquence empirique et \(u_{1-\alpha/2}\) le quantile d’ordre \(1-\alpha/2\) de la loi normale \(\mathcal N(0,1)\).
2) De façon analogue, donner un intervalle de confiance au niveau 95% de la proportion de fumeurs “actifs” après la campagne.
3) Peut-on déduire de ces deux intervalles que la campagne a été efficace ?
4) On suppose maintenant que \(p_2=0,20\). Que pouvez-vous conclure ?
5) On suppose encore que \(p_2=0,20\) mais que cette proportion a été calculée sur un échantillon de \(n_2=500\) personnes. Que peut-on en conclure ?