Francais | English | Espanõl

Méthode des moindres carrés

Un article de Wikivisual, l'encyclopédie libre.

polynômes d'approximation La méthode des moindres carrés, indépendamment élaborée par Gauss et Legendre permet de comparer des données expérimentales, généralement entachées d’erreurs de mesure à un modèle mathématique censé décrire ces données.

Ce modèle peut prendre diverses formes. Il peut s’agir de lois de conservation que les quantités mesurées doivent respecter. La méthode des moindres carrés permet alors de minimiser l’impact des erreurs expérimentales en « ajoutant de l’information » dans le processus de mesure.

Dans le cas le plus courant, ce modèle est une famille de fonctions <math>f(x,\alpha)</math> d’une ou plusieurs variables muettes <math>x</math>, indexées par un ou plusieurs paramètres <math>\alpha</math> inconnus. La méthode des moindres carrés permet de sélectionner parmi ces fonctions, celle qui reproduit le mieux les données expérimentales. On parle dans ce cas d’ajustement par la méthode des moindres carrés. Si les paramètres <math>\alpha</math> ont un sens physique la procédure d’ajustement donne également une estimation indirecte de la valeur de ces paramètres.

La méthode consiste en une prescription (initialement empirique) qui est que la fonction <math> f(x,\alpha) </math> qui décrit "le mieux" les données est celle qui minimise la somme quadratique des déviations des mesures aux prédictions de <math> f(x,\alpha)</math>.

Si par exemple, nous disposons de <math> N </math> mesures <math> (y_i)_{i=1,N} </math>, les paramètres <math> \alpha </math> "optimaux" aux sens de la méthode des moindres carrés sont ceux qui minimisent la quantité:

<math> K = \sum_{i=1}^N \left(y_i - f(x_i, \alpha)\right)^2 </math>

Si, comme c'est géneralement le cas, on dispose d'une estimation de l'écart-type <math>\sigma_i</math> de chaque mesure <math>y_i</math> (l'erreur qui affecte chaque <math> y_i </math>), on l'utilise pour "peser" la contribution de la mesure au <math> \chi^2 </math>. Une mesure aura d'autant plus de poids que son erreur sera faible:

<math> \chi^2 = \sum_{i=1}^N \left(\frac{y_i - f(x_i, \alpha)}{\sigma_i}\right)^2 </math>

La quantité ci-dessus est appelée khi-deux. Son nom vient de la loi statistique qu'elle décrit, si les erreurs de mesure qui entachent les <math> y_i </math> sont normalement distribuées (ce qui est très courant).

Dans ce dernier cas, la méthode des moindres carrés permet de plus d’estimer quantitativement l’adéquation du modèle aux mesures, pour peu que l'on dispose d'une estimation fiable des erreurs <math> \sigma_i </math>. Si le modèle d’erreur est non gaussien, il faut généralement recourir à la méthode du maximum de vraisemblance, dont la méthode des moindres carrés est un cas particulier.

Son extrême simplicité fait que cette méthode est très couramment utilisée de nos jours en sciences expérimentales. Dans de nombreux cas, la quantité que l’on cherche à mesurer n’est pas observable et n’apparaît qu’indirectement comme paramètre d’un modèle théorique. Dans ce dernier cas de figure, il est possible de montrer que la méthode des moindres carrés est un estimateur de ces paramètres, qui vérifie certaines conditions d’optimalité. En revanche, cet estimateur peut être parfois biaisé. Par ailleurs, il est extrêmement sensible aux points aberrants : on traduit ce fait en disant qu’il est non robuste. Plusieurs techniques permettent cependant de « robustifier » la méthode.

Sommaire

[modifier] Histoire

Le jour du Nouvel An de 1801, l'astronome italien Giuseppe Piazzi a découvert l'astéroïde Cérès. Il a alors pu suivre sa trajectoire durant 40 jours. Durant cette année, plusieurs scientifiques ont tenté de prédire sa trajectoire sur la base des observations de Piazzi (noter que la résolution des équations non linéaires de Kepler de la cinématique est un problème très difficile). La plupart des prédictions furent erronées; et le seul calcul suffisamment précis pour permettre à Zach, un astronome allemand, de localiser à nouveau Cérès à la fin de l'année, fut celui de Carl Friedrich Gauss, alors âgé de 24 ans (il avait déjà réalise l'élaboration des concepts fondamentaux en 1795, lorsqu'il était alors âgé de 18 ans). Mais sa méthode des moindres carrés ne fut publiée qu'en 1809, lorsqu'elle parut dans le tome 2 de ses travaux sur la Mécanique céleste , Theoria Motus Corporum Coelestium in sectionibus conicis solem ambientium. Le mathématicien français Adrien-Marie Legendre a développé indépendamment la même méthode en 1805.

En 1829, Gauss a pu donner les raisons de l'efficacité de cette méthode en effet, la méthode des moindres carrés est justement optimale à l'égard de bien des critères. Cet argument est maintenant connu sous le nom du théorème de Gauss-Markov.

[modifier] Formalisme

[modifier] Deux exemples simples

[modifier] Moyenne d'une série de mesures indépendantes

L'exemple le plus simple d'ajustement par la méthode des moindres carrés est probablement le calcul de la moyenne <math> m </math> d'un ensemble de mesures indépendantes <math> (y_i)_{i=1..N}</math> entachées d'erreurs gaussiennes. La prescription des moindres carrés revient à minimiser la quantité :

<math> \chi^2(m) = \sum_{i=1}^N \left(\frac{y_i -m}{\sigma_i}\right)^2 </math>

Cette quantité est une forme quadratique définie positive. Son minimum se calcule par différenciation : <math>{\rm grad} \chi^2(m) = 0</math>. Ce qui donne la formule usuelle :

<math> m = \frac{\sum_{i=1}^N y_i/\sigma_i^2}{\sum_{i=1}^N 1/\sigma_i^2}</math>

[modifier] Régression linéaire

Un autre exemple est l'ajustement d'une loi linéaire du type <math> y=\alpha x + \beta</math> sur des mesures indépendantes, fonction d'un paramètre connu <math> x </math>. Ce type de situation se rencontre par exemple lorsque l'on veut calibrer un appareil de mesure simple (ampèremètre, thermomètre) dont le fonctionnement est linéaire. <math> y </math> est alors la mesure instrumentale (déviation d'une aiguille, nombre de pas d'un ADC, ...) et <math> x </math> la grandeur physique qu'est censé mesurer l'appareil, généralement mieux connue, si l'on utilise une source de calibration fiable. La méthode des moindres carrés permet alors de mesurer la loi de calibration de l'appareil, d'estimer l'adéquation de cette loi aux mesures de calibration (i.e. dans le cas présent, la linéarité de l'appareil) et de propager les erreurs de calibration aux futures mesures effectuées avec l'appareil calibré. A noter qu'en général, les erreurs (et corrélations) portant sur les mesures <math> y_i </math> et les mesures <math> x_i </math> doivent être prises en compte. Nous traiterons ce cas général dans la section consacrée aux ajustements de modèles implicites.

La prescription des moindres carrés s'écrit pour ce type de modèle:

<math>\chi^2(\alpha, \beta) = \sum_{i=1}^N \left( \frac{y_i - \alpha x_i - \beta}{\sigma_i} \right)^2 </math>

Le minimum de cette expression est atteint pour <math> {\rm grad} \chi^2 = 0</math>, ce qui donne:

<math>

\begin{pmatrix} \sum \frac{x_i^2}{\sigma_i^2} & \sum \frac{x_i}{\sigma_i^2} \\ \sum \frac{x_i}{\sigma_i^2} & \sum \frac{1}{\sigma_i^2} \\ \end{pmatrix} \times \begin{pmatrix} \alpha_{min} \\ \beta_{min} \\ \end{pmatrix} = \begin{pmatrix} \sum \frac{x_i y_i}{\sigma_i^2} \\ \sum \frac{y_i}{\sigma_i^2} \\ \end{pmatrix} </math>

La détermination des paramètres "optimaux" (au sens des moindres carrés) <math>\alpha</math> et <math>\beta</math> se ramène donc à la résolution d'un système d'équations linéaires. Il s'agit là d'une propriété très intéressante, liée au fait que le modèle lui-même est linéaire. On parle d'ajustement ou de régression linéaire. Dans le cas général, la détermination du minimum du <math>\chi^2</math> est un problème plus compliqué, et généralement coûteux en temps de calcul.

La valeur des paramètres <math>\alpha_{min}</math> et <math>\beta_{min}</math> dépend des mesures <math>y_i</math> réalisées. Comme ces mesures sont entachées d'erreur, on conçoit bien que si l'on répète <math>M</math> fois les <math>N</math> mesures de calibration, et que l'on réalise à l'issue de chaque série l'ajustement décrit plus haut, on obtiendra <math>M</math> valeurs numériquement différentes de <math>\alpha_{min}</math> et <math>\beta_{min}</math>. Les paramètres de l'ajustement peuvent donc être considérés comme des variables aléatoires, dont la loi est fonction du modèle ajusté et de la loi des <math>y_i</math>.

On montre que la dispersion qui affecte les valeurs de <math>\alpha_{min}</math> et <math>\beta_{min}</math> dépend du nombre de points de mesure, <math> N </math>, et de la dispersion qui affecte les mesures (moins les mesures sont précises, plus <math>\alpha_{min}</math> et <math>\beta_{min}</math> fluctueront). Par ailleurs, <math>\alpha_{min}</math> et <math>\beta_{min}</math> ne sont généralement pas des variables indépendantes. Elles sont généralement corrélées, et leur corrélation dépend du modèle ajusté (nous avons supposé les <math>y_i</math> indépendants).

[modifier] Ajustement de modèles non-linéaires

[modifier] Ajustement sous contraintes

[modifier] Formalisme général : ajustement de modèles implicites

[modifier] Interprétation statistique

[modifier] Le critère du χ²

[modifier] Optimalité de la méthode des moindres carrés

Il faut se garder de penser que cette méthode est la méthode optimale quels que soient les cas de figure. Ainsi par exemple appliquer une méthode des moindres carrés sur une courbe en log-log (chaque axe porte le logarithme de la valeur représentée) peut ne pas présenter grand sens. De même, selon que l'on a à sa disposition un ampèremètre ou un wattmètre, la mesure de grandeur de ce qui passe dans un réseau de résistance sera soit :

  • L'intensité (i)
  • La puissance (Ri²)

Il va de soi qu'une méthode des moindres carrés sur la première de ces valeurs n'a pas de raison de donner le même résultat sur la seconde. Il faut donc bien s'interroger sur la signification de ce « carré d'erreur » que l'on cherche à minimiser, et si besoin effectuer au préalable les changements de variable adéquats.

Ce serait également une erreur que d'appliquer une méthode de moindres carrés à une classification par rang (voir Loi de Zipf).

En revanche, là où une distribution gaussienne est présumée (ou choisie pour des raisons d'entropie maximale en cas de méthode bayésienne), son choix peut souvent se justifier, et on le démontre même optimal si la relation entre les deux variables est bien linéaire.

[modifier] Robustesse

[modifier] Sensibilité aux points aberrants

[modifier] Techniques de robustification

[modifier] Voir aussi

<span class="AdQ" id="de" style="display:none;" />

cs:Metoda nejmenších čtverců de:Methode der kleinsten Quadrate en:Least squares es:Mínimos cuadrados gl:Mínimos cadrados it:Metodo dei minimi quadrati ja:最小二乗法 nl:Kleinste-kwadratenmethode pl:Metoda najmniejszych kwadratów pt:Método dos mínimos quadrados ru:Метод наименьших квадратов su:Kuadrat leutik sv:Minstakvadratmetoden vi:Bình phương tối thiểu zh:最小二乘法

Outils personnels