Objectif
Cette fiche regroupe différentes formules et manipulations
algébriques utiles pour les calculs en Travaux Dirigés (TD) et pour les
démonstrations théoriques, basées sur le cours et les TDs.
1. Notations et Sommes Utiles
Pour des échantillons \((x_1, ...,
x_n)\) et \((y_1, ...,
y_n)\):
Moyennes empiriques
- \(\bar{x} = \frac{1}{n} \sum_{i=1}^n x_i
\implies \sum_{i=1}^n x_i = n\bar{x}\)
- \(\bar{y} = \frac{1}{n} \sum_{i=1}^n y_i
\implies \sum_{i=1}^n y_i = n\bar{y}\)
Somme des écarts à la moyenne
- \(\sum_{i=1}^n (x_i - \bar{x}) = \sum x_i
- \sum \bar{x} = n\bar{x} - n\bar{x} = 0\)
Somme des carrés des écarts (liée à la variance)
- \(S_{xx} = \sum_{i=1}^n (x_i - \bar{x})^2
= \sum x_i^2 - n\bar{x}^2\)
- (Détail : \(\sum (x_i^2 - 2x_i\bar{x}
+ \bar{x}^2) = \sum x_i^2 - 2\bar{x}\sum x_i + n\bar{x}^2 = \sum x_i^2 -
2\bar{x}(n\bar{x}) + n\bar{x}^2 = \sum x_i^2 -
n\bar{x}^2\))
Somme des produits des écarts (liée à la covariance)
- \(S_{xy} = \sum_{i=1}^n (x_i -
\bar{x})(y_i - \bar{y}) = \sum x_i y_i - n\bar{x}\bar{y}\)
- (Détail : \(\sum (x_i y_i - x_i\bar{y}
- \bar{x}y_i + \bar{x}\bar{y}) = \sum x_i y_i - \bar{y}\sum x_i -
\bar{x}\sum y_i + n\bar{x}\bar{y} = \sum x_i y_i - n\bar{x}\bar{y} -
n\bar{x}\bar{y} + n\bar{x}\bar{y}\))
2. Régression Linéaire Simple : \(y_i =
\beta_1 + \beta_2 x_i + \epsilon_i\)
(Note : \(\beta_1\)=Intercept,
\(\beta_2\)=Pente)
Estimateurs MCO
- Pente : \(\hat{\beta}_2 =
\frac{S_{xy}}{S_{xx}} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sum
(x_i - \bar{x})^2}\)
- Pente (forme alternative) : \(\hat{\beta}_2 = \frac{\sum (x_i -
\bar{x})y_i}{\sum (x_i - \bar{x})^2}\)
- Pente (pour la théorie) : \(\hat{\beta}_2
= \beta_2 + \frac{\sum (x_i - \bar{x})\epsilon_i}{\sum (x_i -
\bar{x})^2}\)
- Intercept : \(\hat{\beta}_1 = \bar{y} -
\hat{\beta}_2 \bar{x}\)
Variances et Covariance (sous hypothèses MCO)
- \(Var(\hat{\beta}_2) =
\frac{\sigma^2}{S_{xx}}\)
- \(Var(\hat{\beta}_1) = \sigma^2 \left(
\frac{1}{n} + \frac{\bar{x}^2}{S_{xx}} \right) = \frac{\sigma^2 \sum
x_i^2}{n S_{xx}}\)
- \(Cov(\hat{\beta}_1, \hat{\beta}_2) = -
\frac{\sigma^2 \bar{x}}{S_{xx}}\)
Décomposition de la variance
- \(SCT = \sum (y_i - \bar{y})^2 =
S_{yy}\) (Totale)
- \(SCE = \sum (\hat{y}_i -
\bar{y})^2\) (Expliquée)
- \(SCR = \sum (y_i - \hat{y}_i)^2 = \sum
\hat{\epsilon}_i^2\) (Résiduelle)
- \(SCT = SCE + SCR\)
Coefficient de détermination (\(R^2\))
- \(R^2 = \frac{SCE}{SCT} = 1 -
\frac{SCR}{SCT}\)
- \(R^2 = \frac{S_{xy}^2}{S_{xx}
S_{yy}}\)
- \(R^2 = \rho_{x,y}^2\) (où \(\rho_{x,y}\) est le coefficient de
corrélation)
Estimateur de \(\sigma^2\)
- \(\hat{\sigma}^2 =
\frac{SCR}{n-2}\) (Estimateur non biaisé)
3. Régression Linéaire Multiple : \(Y =
X\beta + \epsilon\)
Estimateur MCO
- \(\hat{\beta} =
(X'X)^{-1}X'Y\)
Projections (Valeurs ajustées et résidus)
- Matrice de projection sur \(\mathcal{M}(X)\) : \(P_X = X(X'X)^{-1}X'\)
- Vecteur ajusté : \(\hat{Y} = P_X Y =
X\hat{\beta}\)
- Matrice de projection sur \(\mathcal{M}(X)^\perp\) : \(P_{X^\perp} = I_n - P_X\)
- Vecteur résidu : \(\hat{\epsilon} = Y -
\hat{Y} = (I_n - P_X)Y = P_{X^\perp} Y\)
Variance de \(\hat{\beta}\)
- \(Var(\hat{\beta}) = \sigma^2
(X'X)^{-1}\) (Matrice de Variance-Covariance)
Sommes des Carrés (si intercept inclus)
- \(SCR = ||\hat{\epsilon}||^2 = ||Y -
\hat{Y}||^2 = Y'Y - \hat{\beta}'X'Y\)
- \(SCT = ||Y - \bar{y}\mathbf{1}||^2 =
Y'Y - n\bar{y}^2\)
- \(SCE = ||\hat{Y} - \bar{y}\mathbf{1}||^2
= \hat{\beta}'X'Y - n\bar{y}^2\)
- \(SCT = SCE + SCR\)
Coefficients de détermination
- \(R^2 = \frac{SCE}{SCT} = 1 -
\frac{SCR}{SCT}\)
- \(R_a^2 = 1 -
\frac{SCR/(n-p)}{SCT/(n-1)}\) (R² Ajusté)
Estimateur de \(\sigma^2\)
- \(\hat{\sigma}^2 =
\frac{SCR}{n-p}\) (Estimateur non biaisé, \(p\) = nombre de coefficients)