Comment Blue calcule-t-il les mesures de dispersion ?

Les mesures de tendance centrale ne suffisent pas à décrire les données. Deux ensembles de données peuvent avoir la même moyenne, mais être complètement différents. Pour décrire les données, il faut donc connaître l'étendue de leur variabilité. Celle-ci est donnée par les mesures de dispersion. Variabilité et dispersion sont des synonymes.

Résumé des mesures courantes de dispersion

Il existe de nombreuses mesures de dispersion. L'écart type, l'intervalle interquartile et l'intervalle semi-interquartile sont les trois mesures de dispersion les plus couramment utilisées, mais plusieurs autres sont disponibles dans Blue.

L'écart type
De loin la mesure de dispersion la plus largement utilisée. Elle prend en compte tous les scores, possède des propriétés utiles lorsqu'elle est utilisée avec une distribution normale et est mathématiquement facile à manipuler. Elle apparaît donc dans de nombreuses formules en statistiques inférentielles.
Mesure la variabilité, ou la dispersion, des données dans une distribution normale. L'écart type (de l'échantillon) indique dans quelle mesure la moyenne représente fidèlement les données de l'échantillon.

Erreur type de la moyenne
Mesure la distance probable entre la moyenne de l'échantillon et la moyenne réelle de la population.
Est toujours inférieure à l'écart type de l'échantillon.
L'écart interquartile
Si l'écart interquartile est important, cela signifie que les 50 % d'observations du milieu sont très espacées.
L'avantage important de l'écart interquartile est qu'il peut être utilisé comme mesure de dispersion si les valeurs extrêmes ne sont pas enregistrées avec précision (comme dans le cas d'intervalles de classe ouverts dans la distribution de fréquence) et qu'il n'est pas affecté par les valeurs extrêmes.
Le principal inconvénient de l'utilisation de l'écart interquartile comme mesure de dispersion est qu'il ne se prête pas à la manipulation mathématique.
Écart semi-interquartile
Dans une distribution symétrique, un intervalle s'étendant d'un écart semi-interquartile en dessous de la médiane à un écart semi-interquartile au-dessus de la médiane contiendra la moitié des scores. Cela ne sera toutefois pas vrai pour une distribution asymétrique.
L'écart semi-interquartile est rarement utilisé comme mesure de dispersion, en partie parce qu'il n'est pas très maniable mathématiquement. Cependant, l'écart semi-interquartile est moins influencé par les scores extrêmes, ce qui en fait une bonne mesure de dispersion pour les distributions asymétriques et lui confère une bonne signification intuitive. Notez que l'écart semi-interquartile est plus sujet aux fluctuations d'échantillonnage dans les distributions normales que l'écart type, et qu'il n'est donc pas souvent utilisé pour les données qui sont approximativement distribuées normalement.
Il doit être utilisé pour compléter l'écart type dans la plupart des cas.
Écart type de l'échantillon par rapport à l'écart type de la population
Nous sommes généralement intéressés par l'écart type de la population, car celle-ci contient toutes les valeurs qui nous intéressent. Par conséquent, vous calculeriez normalement l'écart type de la population si vous disposiez de l'ensemble de la population.
Lorsque l'on dispose uniquement de données provenant d'un échantillon, on peut estimer l'écart type de la population à partir de l'écart type de l'échantillon.
Cependant, si vous ne disposez que d'un échantillon, mais que vous souhaitez faire une déclaration sur l'écart type de la population à partir de laquelle l'échantillon est tiré, vous devez utiliser l'écart type de l'échantillon.
Il peut souvent y avoir une confusion quant à l'écart type à utiliser, car le nom « écart type de l'échantillon » est interprété à tort comme signifiant l'écart type de l'échantillon lui-même et non l'estimation de l'écart type de la population basée sur l'échantillon.

Calculs blue

Écart type de l'échantillon (SD)

La formule de l'écart type de l'échantillon est la suivante :

Équation 27

où sont les valeurs observées des éléments de l'échantillon, ! est la valeur moyenne de ces observations, et N est le nombre d'observations dans l'échantillon.

Erreur type de la moyenne de l'échantillon

L'erreur type de la moyenne de l'échantillon est généralement estimée comme étant l'écart type de l'échantillon divisé par la racine carrée de la taille de l'échantillon (en supposant l'indépendance statistique des valeurs de l'échantillon) :

Équation 30

où :

est l'écart type de l'échantillon (c'est-à-dire l'estimation basée sur l'échantillon de l'écart type de la population).

est la taille (nombre d'observations) de l'échantillon.

Écart type de la population (PSD)

La formule pour le écart type de la population est :

Équation 33

où sont les valeurs observées des éléments, ! est la valeur moyenne de ces observations et N est le nombre d'observations.

Erreur type de la moyenne de la population

L'erreur type de la moyenne de la population est généralement estimée comme étant l'écart type de la population divisé par la racine carrée de la population :

Équation 36

où :

est l'écart type de la population

est la taille (nombre d'observations) de la population.

Intervalle interquartile

Dans un ensemble de données, les quartiles sont les valeurs qui divisent les données en quatre parties égales. L'intervalle interquartile est défini comme la différence entre le 25e et le 75e centile (également appelés premier et troisième quartiles). L'intervalle interquartile décrit donc les 50 % d'observations du milieu.

intervalle interquartile

La médiane de la moitié inférieure d'un ensemble de données est le quartile inférieur (LQLQ) ou Q1Q1 .

La médiane de la moitié supérieure d'un ensemble de données est le quartile supérieur (UQUQ) ou Q3Q3 .

Les quartiles supérieur et inférieur peuvent être utilisés pour trouver une autre mesure de variation appelée intervalle interquartile.

L'intervalle interquartile ou IQR est l'intervalle de la moitié centrale d'un ensemble de données. Il s'agit de la différence entre le quartile supérieur et le quartile inférieur.

Équation 39

Dans l'exemple ci-dessus, le quartile inférieur est 52 et le quartile supérieur est 58. Ainsi,

l'écart interquartile est :

Équation 40

Écart semi-interquartile

Les statisticiens utilisent parfois également les termes « demi-écart interquartile » et « écart interquartile médian ».

Le demi-écart interquartile correspond à la moitié de la différence entre le premier et le troisième quartiles. Il s'agit de la moitié de la distance nécessaire pour couvrir la moitié des scores. Le demi-écart interquartile est très peu affecté par les scores extrêmes. Cela en fait une bonne mesure de la dispersion pour les distributions asymétriques. Il s'obtient en évaluant :

Équation 41

L'écart semi-interquartile est :

Équation 42

Rang centile

Le rang centile d'une note est le pourcentage de notes dans sa distribution de fréquence qui sont égales ou inférieures à cette note. Par exemple, une note supérieure ou égale à 75 % des notes d'un cours dans une évaluation de cours est dite être au 75e centile.

Les rangs centiles ne sont pas sur une échelle à intervalles égaux, ce qui signifie que la différence entre deux notes quelconques n'est pas la même entre deux autres notes dont la différence en rangs centiles est la même. Par exemple, 50 − 25 = 25 n'est pas la même distance que 60 − 35 = 25 en raison de la forme en courbe en cloche de la distribution. Certains rangs centiles sont plus proches les uns des autres que d'autres. Le rang centile 30 est plus proche de 40 que de 20 sur la courbe en cloche. En substance, nous ne pouvons établir aucune corrélation entre le score et le rang centile.

La formule mathématique est la suivante :

Équation 43

Où est le nombre de tous les scores inférieurs au score qui nous intéresse, ! est la fréquence du score d'intérêt, et ! est le nombre de candidats dans l'échantillon.

Plage de percentiles

Une plage de percentiles est la différence entre deux percentiles spécifiés. Il peut s'agir théoriquement de deux centiles quelconques, mais l'intervalle de centiles 10-90 est le plus courant. Pour trouver l'intervalle de centiles 10-90 :

Calculez le 10e centile
Calculez le 90e centile
Soustrayez l'étape 1 (le 10e centile) de l'étape 2 (le 90e centile).

Disponible dans les blocs de rapports Blue

Vous trouverez ci-dessous les mesures de dispersion pour les types de questions applicables :

Sélection unique

Question - Fréquence
Question - Score
Question - Feuille de calcul

Tableau à sélection unique

Question - Fréquence
Question - Score
Question - Feuille de calcul

Mise en œuvre dans les rapports Blue

Dans un bloc de rapport Question - Fréquence représentant une question à sélection unique, activez Afficher les statistiques, puis sélectionnez l'écart type (échantillon), l'erreur type et l'intervalle interquartile comme vous le souhaitez.
Dans un bloc de rapport Question - Fréquence pour un tableau à sélection unique, vous pouvez activer Afficher les statistiques de compétence pour calculer des statistiques telles que l'écart type (échantillon), l'erreur type et l'intervalle interquartile pour toutes les questions du tableau.
Pour un bloc de rapport Question - Score, vous devez sélectionner Afficher le tableau, puis activer la moyenne ou la médiane. Si vous utilisez la médiane, choisissez entre Médiane simple et Médiane interpolée.
Pour un bloc de rapport Question - Feuille de calcul, vous pouvez inclure la moyenne, le mode, la médiane ou la médiane interpolée dans un seul bloc. Pour ajouter des statistiques au bloc de feuille de calcul, sélectionnez la valeur dans la liste déroulante Élément, puis sélectionnez Ajouter .

Recommandations

Le défi du reporting consiste à choisir les mesures statistiques appropriées pour les données. Voici quelques recommandations pour atténuer ce problème :

Utilisez un bloc de rapport Question - Fréquence pour afficher l'écart type (échantillon).
Utilisez un bloc de rapport Question - Feuille de calcul pour afficher les mesures de tendance centrale et les mesures de dispersion pertinentes pour votre établissement.