« Python pour le calcul scientifique/Statistiques » : différence entre les versions

Navigation interactive dans l’historique

← Modification précédente Modification suivante →

Contenu supprimé Contenu ajouté

Intégrés

Version du 24 mars 2019 à 01:49

Le module NumPy fournit des fonctions statistiques.

Rappelons que dorénavant les programmes commencent tous par :

import numpy as np
import matplotlib.pyplot as plt

Méthodes de matrices

Rappel : la classe des matrices (ndarray) dispose de méthodes permettant de calculer des statistiques sur les éléments des matrices :

.min() : minimum des valeurs ;
.max() : maximum des valeurs ;
.ptp() : écart amplitude « max – min » (peak to peak) ;
.mean() : moyenne ;
.std() : écart type (standard deviation).

Statistiques descriptives

NumPy fournit la fonction np.quantile() qui détermine les quantiles avec la syntaxe :

np.quantile(M, q)

où M est une matrice (ou une liste, un n-uplet, bref un itérable de nombres) et q est un quantile ou un vecteur de quantiles sous la forme d'un nombre entre 0 et 1. Par exemple, pour avoir les quartiles :

np.quantile(M, [0, 0.25, 0.5, 0.75, 1])

Si un des éléments de la matrice est un NaN, le résultat est un NaN. Pour éviter cela, on peut utiliser la fonction np.nanquantile() qui ignore les NaN.

Les fonctions np.percentile() et np.nanpercentile() donnent les centiles ; on indique alors le centile que l'on veut sous la forme d'un nombre entier entre 0 et 100.

Nous disposons également des fonctions suivantes :

np.amin(), np.nanmin() : minimum ;
np.amax(), np.nanmax() : maximum ;
np.ptp() : amplitude.

Notons que pour toutes les fonctions, il est possible d'indiquer l'axe selon lequel on effectue le calcul. Par exemple,

M = np.arange(9).reshape(3, 3)
# [[0, 1, 2]
#  [3, 4, 5]
#  [6, 7, 8]]
print(np.quantile(M, [0.25, 0.5], 0))
# [[1.5 2.5 3.5]  : 1er quartile des colonnes
#  [3.  4.  5. ]] : médiane des colonnes
print(np.quantile(M, [0.25, 0.5], 1))
# [[0.5 3.5 6.5]  : 1er quartile des lignes
#  [1.  4.  7. ]] : médiane des lignes

Indicateurs de position et de dispersion

NumPy fournit les indicateurs de tendance centrale suivants :

np.mean() et np.nanmean() : moyenne ;
np.average() et np.nanaverage() : moyenne pondérée ; la syntaxe est np.average(M, axe, poids) ou bien np.average(M, weights = poids) (voir ci-après) ;
np.median() et np.nanmedian() : médiane.

En terme de performances, la fonction np.mean() est équivalente à la méthode M.mean() et à la fonction np.average() sans poids (ce qui équivaut donc à la moyenne). En revanche, la fonction np.nanmean() est plus lente, de même que la fonction np.average() lorsque l'on utilise des poids (même s'ils sont tous égaux à 1).

Comme précédemment, on peut indiquer l'axe (si l'on veut évaluer les valeurs par colonne ou par ligne). Pour la moyenne pondérée, on utilise une matrice poids P de même dimension que la matrice de valeurs M, P[i, j] étant le poids associé à la valeur M[i, j]. Par exemple, si l'on veut évaluer la moyenne pondérée pour toutes les valeurs de M (pas d'axe), on peut écrire une des deux solutions suivantes :

np.average(M, None, P) # l'axe est le 2e paramètre
np.average(M, weights = P)

NumPy fournit également les indicateurs de dispersion suivants :

np.std(), np.nanstd() : écart type (standard deviation) ;
np.var(), np.np.nanvar() : variance.

Fréquence, histogramme

On peut générer une matrice aléatoire avec les fonctions np.random.rand(), qui utilise une loi uniforme sur [0 ; 1], et np.random.randn() qui utilise une loi normale centrée réduite.

Lorsque l'on dispose d'une série de données aléatoires, qu'elles aient été mesurées ou bien générées par une fonction aléatoire, on peut ensuite les mettre dans des classes (bins). Les classes sont définies par un vecteur (ou une liste, un n-uplet) [c1, c2,c3, …, cn]. La classe 0 désigne les valeurs inférieures à c₁ ; la classe 1 désigne les valeurs c₁ ≤ x < c₂ ; la classe n (n == len(classes)) désigne les valeurs supérieures à c_n.

La fonction np.digitize() indique dans quelle classe se trouve un nombre. Si on lui donne une matrice (ou un vecteur, une liste, un n-uplet), il renvoie une matrice de même dimension, np.digitize(M, classes)[i, j] étant la classe de l'élément M[i, j]. Par exemple :

M = np.random.rand(10)

classes = (0, 0.2, 0.4, 0.6, 0.8, 1)

print(M)
print(np.digitize(M, classes))

On peut changer la « largeur » des inégalités avec le paramètre right = True : right, « droite », est vrai (true) lorsque l'inégalité large est à droite, la classe i désigne les valeurs c_i < x ≤ c_{i + 1}. La syntaxe est alors np.digitize(M, classes, True) ou bien np.digitize(M, classes, right = True). Le sens de l'inégalité ne dépend pas du sens du vecteur de classes ; ainsi, right désigne la valeur supérieure de l'intervalle même si le vecteur de classes est classé par ordre décroissant.

La fonction np.histogram() détermine n classes de même taille et renvoie deux vecteurs : la première contient le nombre d'éléments dans chaque classe et la seconde décrit les classes (c'est-à-dire les bornes des classes).

Pour tracer l'histogramme, nous disposons de la fonction plt.hist() :

M = np.random.randn(50)
plt.plot(M, np.ones_like(M), "|")
plt.hist(M, bins=10, density=1)

La fonction np.bincount() travaille sur les listes de nombre entiers. Elle renvoie un n-uplet, np.bincount(M)[i] est le nombre de fois que le nombre i revient dans la matrice M — rappel, le premier élément du n-uplet np.bincount(M) a l'indice 0 donc correspond au nombre de fois que le nombre 0 apparaît dans la matrice M.

Notes et références

Polynômes < ↑ >

@@ Ligne 10 : / Ligne 10 : @@
 Rappel : la classe des matrices ''(ndarray)'' dispose de méthodes permettant de calculer des statistiques sur les éléments des matrices :
-* <code>min()</code> : minimum des valeurs ;
+* <code>.min()</code> : minimum des valeurs ;
-* <code>max()</code> : maximum des valeurs ;
+* <code>.max()</code> : maximum des valeurs ;
-* <code>ptp()</code> : écart amplitude « max – min » ''({{lang|en|peak to peak}})'' ;
+* <code>.ptp()</code> : écart amplitude « max – min » ''({{lang|en|peak to peak}})'' ;
-* <code>mean()</code> : moyenne ;
+* <code>.mean()</code> : moyenne ;
-* <code>std()</code> : écart type ''({{lang|en|standard deviation}})''.
+* <code>.std()</code> : écart type ''({{lang|en|standard deviation}})''.
 == Statistiques descriptives ==
-NumPy fournit la fonction <code>quantile()</code> qui détermine les quantiles avec la syntaxe :
+NumPy fournit la fonction <code>np.quantile()</code> qui détermine les quantiles avec la syntaxe :
 <source lang="python">
 np.quantile(M, q)
@@ Ligne 26 : / Ligne 26 : @@
 np.quantile(M, [0, 0.25, 0.5, 0.75, 1])
 </source>
-Si un des éléments de la matrice est un  NaN, le résultat est un NaN. Pour éviter cela, on peut utiliser la fonction <code>nanquantile()</code> qui ignore les NaN.
+Si un des éléments de la matrice est un  NaN, le résultat est un NaN. Pour éviter cela, on peut utiliser la fonction <code>np.nanquantile()</code> qui ignore les NaN.
-Les fonctions <code>percentile()</code> et <code>nanpercentile()</code> donnent les centiles ; on indique alors le centile que l'on veut sous la forme d'un nombre entier entre 0 et 100.
+Les fonctions <code>np.percentile()</code> et <code>np.nanpercentile()</code> donnent les centiles ; on indique alors le centile que l'on veut sous la forme d'un nombre entier entre 0 et 100.
 Nous disposons également des fonctions suivantes :
-* <code>amin()</code>, <code>nanmin()</code> : minimum ;
+* <code>np.amin()</code>, <code>np.nanmin()</code> : minimum ;
-* <code>amax()</code>, <code>nanmax()</code> : maximum ;
+* <code>np.amax()</code>, <code>np.nanmax()</code> : maximum ;
-* <code>ptp()</code> : amplitude.
+* <code>np.ptp()</code> : amplitude.
 Notons que pour toutes les fonctions, il est possible d'indiquer l'axe selon lequel on effectue le calcul. Par exemple,
@@ Ligne 52 : / Ligne 52 : @@
 NumPy fournit les indicateurs de tendance centrale suivants :
-* <code>mean()</code> et <code>nanmean()</code> : moyenne ;
+* <code>np.mean()</code> et <code>np.nanmean()</code> : moyenne ;
-* <code>average()</code> et <code>nanaverage()</code> : moyenne pondérée ; la syntaxe est  <code>average(M, axe, poids)</code> ou bien <code>average(M, weights = poids)</code> (voir ci-après) ;
+* <code>np.average()</code> et <code>np.nanaverage()</code> : moyenne pondérée ; la syntaxe est  <code>np.average(M, axe, poids)</code> ou bien <code>np.average(M, weights = poids)</code> (voir ci-après) ;
-* <code>median()</code> et <code>nanmedian()</code> : médiane.
+* <code>np.median()</code> et <code>np.nanmedian()</code> : médiane.
 En terme de performances, la fonction <code>np.mean()</code> est équivalente à la méthode <code>M.mean()</code> et à la fonction <code>np.average()</code> sans poids (ce qui équivaut donc à la moyenne). En revanche, la fonction <code>np.nanmean()</code> est plus lente, de même que la fonction <code>np.average()</code> lorsque l'on utilise des poids (même s'ils sont tous égaux à 1).
@@ Ligne 64 : / Ligne 64 : @@
 NumPy fournit également les indicateurs de dispersion suivants :
-* <code>std()</code>, <code>nanstd()</code> : écart type ''({{lang|en|standard deviation}})'' ;
+* <code>np.std()</code>, <code>np.nanstd()</code> : écart type ''({{lang|en|standard deviation}})'' ;
-* <code>var()</code>, <code>nanvar()</code> : variance.
+* <code>np.var()</code>, <code>np.np.nanvar()</code> : variance.
 == Fréquence, histogramme ==
-On peut générer une matrice aléatoire avec les fonctions <code>random.rand()</code>, qui utilise une loi uniforme sur [0 ; 1], et <code>random.randn()</code> qui utilise une loi normale centrée réduite.
+On peut générer une matrice aléatoire avec les fonctions <code>np.random.rand()</code>, qui utilise une loi uniforme sur [0 ; 1], et <code>np.random.randn()</code> qui utilise une loi normale centrée réduite.
 Lorsque l'on dispose d'une série de données aléatoires, qu'elles aient été mesurées ou bien générées par une fonction aléatoire, on peut ensuite les mettre dans des classes ''({{lang|en|bins}})''. Les classes sont définies par un vecteur (ou une liste, un n-uplet) <code>[c1, c2,c3, …, cn]</code>. La classe 0 désigne les valeurs inférieures à ''c''<sub>1</sub> ; la classe 1 désigne les valeurs ''c''<sub>1</sub> ≤ ''x'' &lt; ''c''<sub>2</sub> ; la classe ''n'' (<code>n == len(classes)</code>) désigne les valeurs supérieures à ''c<sub>n</sub>''.
-La fonction <code>digitize()</code> indique dans quelle classe se trouve un nombre. Si on lui donne une matrice (ou un vecteur, une liste, un n-uplet), il renvoie une matrice de même dimension, <code>digitize(M, classes)[i, j]</code> étant la classe de l'élément <code>M[i, j]</code>. Par exemple :
+La fonction <code>np.digitize()</code> indique dans quelle classe se trouve un nombre. Si on lui donne une matrice (ou un vecteur, une liste, un n-uplet), il renvoie une matrice de même dimension, <code>np.digitize(M, classes)[i, j]</code> étant la classe de l'élément <code>M[i, j]</code>. Par exemple :
 <source lang="python">
@@ Ligne 87 : / Ligne 87 : @@
 [[Fichier:Histogramme loi normale 50 ech numpy pyplot.png|vignette|Histogramme tracé avec Python/Numpy/Matplotlib.]]
-La fonction <code>histogram()</code> détermine ''n'' classes de même taille et renvoie deux vecteurs : la première contient le nombre d'éléments dans chaque classe et la seconde décrit les classes (c'est-à-dire les bornes des classes).
+La fonction <code>np.histogram()</code> détermine ''n'' classes de même taille et renvoie deux vecteurs : la première contient le nombre d'éléments dans chaque classe et la seconde décrit les classes (c'est-à-dire les bornes des classes).
-Pour tracer l'histogramme, nous disposons de la fonction <code>matplotlib.pyplot.hist()</code> :
+Pour tracer l'histogramme, nous disposons de la fonction <code>plt.hist()</code> :
 <source lang="python">
 M = np.random.randn(50)
@@ Ligne 96 : / Ligne 96 : @@
 </source>
-La fonction <code>bincount()</code> travaille sur les listes de nombre entiers. Elle renvoie un n-uplet, <code>np.bincount(M)[i]</code> est le nombre de fois que le nombre ''i'' revient dans la matrice M — rappel, le premier élément du n-uplet <code>np.bincount(M)</code> a l'indice 0 donc correspond au nombre de fois que le nombre 0 apparaît dans la matrice M.
+La fonction <code>np.bincount()</code> travaille sur les listes de nombre entiers. Elle renvoie un n-uplet, <code>np.bincount(M)[i]</code> est le nombre de fois que le nombre ''i'' revient dans la matrice M — rappel, le premier élément du n-uplet <code>np.bincount(M)</code> a l'indice 0 donc correspond au nombre de fois que le nombre 0 apparaît dans la matrice M.
 == Notes et références ==