Partitionnement de données
Un article de Wikivisual, l'encyclopédie libre.
Le partitionnement de données (data clustering en anglais) est une méthode statistique d'analyse de données qui a pour but de regrouper un ensemble de données en différents paquets homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité que l'on définit en introduisant des mesures de distance.
Pour obtenir un bon partitionnement, il convient de :
- minimiser l'inertie intra-classe pour obtenir des grappes (cluster en anglais) les plus homogènes possibles.
- maximiser l'inertie inter-classe afin d'obtenir des sous-ensembles bien différenciés.
[modifier] Vocabulaire
La communauté scientifique francophone utilise différents termes pour désigner cette technique. Le mot anglais clustering est communément employé. On parle également souvent des méthodes de regroupement.
Le partitionnement de données est une méthode de classification non supervisée (différenciée de la classification supervisée où les données d'apprentissage sont déjà étiquetées), et donc parfois dénommée comme telle.
[modifier] Algorithmes
Il existe de multiples méthodes de partitionnement des données, parmi lesquelles :
- La méthode des nuées dynamiques
- Le regroupement hiérarchique
- L'algorithme EM
- L'analyse en composantes principales
[modifier] Voir aussi
de:Clusteranalyse en:Data clustering es:Clustering (Algoritmo) hr:Grupiranje it:Clustering ja:データ・クラスタリング pl:Grupowanie su:Data clustering th:การแบ่งกลุ่มข้อมูล

