En statistique, un intervalle de confiance est un intervalle censé contenir un paramètre inconnu de la loi de probabilité d’une variable quantitative, que l'on cherche à estimer à partir d’un jeu de données. On peut ainsi obtenir une fourchette d’estimation d’un indicateur numérique usuel tel que la moyenne, la médiane ou la variance à partir d’un échantillon, et dont les bornes dépendent également de la famille de lois de probabilité considérée. La notion s’applique à d’autres paramètres et peut aussi se construire à partir de données statistiques plus complexes, par exemple issues d’un processus stochastique.
La définition de l’intervalle de confiance est subtile et souvent mal comprise[1], en particulier parce que l'intervalle construit peut contenir la valeur du paramètre inconnu ou pas. En considérant que les données sont issues d’un tirage aléatoire, les bornes calculées sont aléatoires aussi tandis que le paramètre à encadrer est déterministe. On associe à l’intervalle un niveau de confiance souvent exprimé sous la forme d'un pourcentage, le plus souvent à 95 %. Cela signifie que la méthode a 95 % de chances de produire un intervalle contenant la vraie valeur du paramètre inconnu.
En particulier, cette notion permet de définir une marge d'erreur entre les résultats d'un sondage et un relevé exhaustif de la population totale. Par exemple, pour une question fermée à deux modalités (oui/non) posée à 1 000 personnes représentatives d’une population bien plus grande, il y a au moins 95 % de chances que les proportions de réponses obtenues correspondent à celles de la population totale à moins de trois points de pourcentage.
Pour obtenir un intervalle plus réduit, donc plus précis, sans changer le nombre de sondés, il faut accepter un niveau plus faible, donc un plus grand risque de se tromper. Au contraire, pour réduire le risque d’erreur, on peut élargir l’intervalle.
Pour estimer simultanément plusieurs paramètres ou des paramètre vectoriels, la notion d’intervalle de confiance se généralise avec celle d’ellipsoïde de confiance.
Attention, la notion d'intervalle de confiance ne doit pas être confondue avec celle d'intervalle de fluctuation. Ce dernier est déterminé par le paramètre et encadre une variable aléatoire. Mais c’est précisément en renversant les inégalités d’un intervalle de fluctuation, issu du théorème central limite ou de l’inégalité de Bienaymé-Tchebychev, que l’on peut obtenir l’expression d’un intervalle de confiance, comme celui qui estime l’espérance d’une loi à partir de la moyenne empirique et d’une majoration de l’écart type.
La construction d’un intervalle de confiance vise en général à produire l’intervalle le plus étroit possible qui contient le paramètre au niveau de confiance donné, tandis qu’un estimateur sans biais doit faire correspondre son espérance avec le paramètre, tenant ainsi compte des valeurs extrêmes de la distribution, même improbable. Il est donc tout à fait possible qu’un estimateur classique du paramètre se retrouve extérieur à l’intervalle de confiance sur le même jeu de données.