Outils personnels
Vous êtes ici : Accueil Symposiums Usage et légitimité des démarches instrumentées en évaluation des apprentissages: véritables instruments de pilotage ? Élaborer la matrice Q des modèles cognitifs dans diverses conditions et définir leur impact sur sa validité et sa fidélité : une illustration de l’apport des modèles cognitifs à l’évaluation diagnostique
Navigation
« Juin 2022 »
Juin
LuMaMeJeVeSaDi
12345
6789101112
13141516171819
20212223242526
27282930
 
Actions sur le document

Élaborer la matrice Q des modèles cognitifs dans diverses conditions et définir leur impact sur sa validité et sa fidélité : une illustration de l’apport des modèles cognitifs à l’évaluation diagnostique

Résumé: Depuis quelques années, des nouveaux modèles de mesure réunissent les approches psychométrique et cognitive dans une perspective d’évaluation diagnostique. Des experts doivent développer une matrice Q contenant les attributs cognitifs indispensables à la résolution des items ainsi que leurs liens avec chaque item. Les modèles se basent sur cette matrice Q pour estimer les forces et les faiblesses de chaque sujet relativement aux attributs inclus dans Q. La qualité du diagnostic dépend de la capacité des experts de fournir des matrices de qualité. Cette présentation vise, dans un premier temps, à rapidement faire état des résultats d’une étude comparant des matrices élaborées par des experts pour deux QCM en mathématiques, dans trois conditions d’accès à des informations sur les items. Dans la première condition, les experts ne disposent que des énoncés des items; dans la seconde, les items leur sont fournis regroupés selon les résultats d’une analyse factorielle ; la troisième condition met à leur disposition les paramètres de difficulté et de discrimination de chaque item ainsi que les résultats de l’analyse des leurres. L’application du modèle cognitif RUM (Reparametrized Unified Model) aux données permet de montrer que la structure cognitive des matrices de la condition 2 est un peu plus forte pour les deux tests qui font l’objet de cette étude, mais que la différence entre les conditions 1 et 2 est peu importante. La condition 3 fournit les matrices de moins bonne qualité. Dans un deuxième temps, cette présentation vise à exploiter l’une des matrices de la condition 2 et les résultats de la modélisation RUM afin d’analyser l’information diagnostique produite et d’illustrer concrètement l’apport de ces nouveaux modèles de mesure. Cette analyse montre en particulier comment ces modèles peuvent contribuer à mettre en place des actions cohérentes pour favoriser la réussite des élèves.

Mention complète de la source: Loye, N., (2008), Élaborer la matrice Q des modèles cognitifs dans diverses conditions et définir leur impact sur sa validité et sa fidélité : une illustration de l’apport des modèles cognitifs à l’évaluation diagnostique. Actes du 20e colloque de l'ADMEE-Europe, Université de Genève. [https://plone.unige.ch/sites/admee08/symposiums/j-s7/j-s7-4]

Élaborer la matrice Q des modèles cognitifs dans diverses conditions et définir leur impact sur sa validité et sa fidélité : une illustration de l’apport des modèles cognitifs à l’évaluation diagnostique

Nathalie Loye, Université de Montréal

1. Introduction

Le mot diagnostic est issu du grec diagnosis dans lequel gnosis signifie connaissance et dia signifie à travers. Un diagnostic médical vise à identifier une maladie à travers des symptômes et parfois des investigations complémentaires. L’évaluation diagnostique en éducation cherche à identifier les particularités des élèves à travers leurs réponses aux questions d’un test. Selon Scallon (1988), le rôle de l’évaluation diagnostique va au-delà « du dépistage des élèves en difficulté, mais doit permettre de découvrir les forces et les faiblesses ainsi que le degré de préparation des élèves avant que ceux-ci n’entreprennent une séquence importante d’apprentissage ».

 

L’enjeu auquel est confronté le médecin consiste à découvrir la maladie dont souffre son patient. Il fournit ensuite les remèdes et traitements appropriés. L’enjeu d’une évaluation diagnostique en éducation vise à apprécier les « caractéristiques individuelles du sujet » (Legendre, 2005) en lien avec ses savoirs ou ses savoirs faire. Le but est, par la suite, de prendre des décisions pour procurer à chaque sujet en difficulté une remédiation appropriée. L’identification préalable des forces et faiblesses des élèves d’une classe peut, par exemple, permettre de mettre en place une structure de soutien visant la réussite des élèves en difficulté.

 

Dans des situations d’apprentissage et d’évaluation complexes et authentiques, l’observation des sujets dans leur résolution de problèmes ou la trace de leurs démarches sont autant de façons d’inférer les processus cognitifs mis en œuvre par chacun d’eux. Toutefois une approche individualisée nécessite beaucoup de temps de la part de l’enseignant. Un test diagnostique à correction objective, comme un examen à choix multiple, est plus rapide à administrer et à corriger. Le problème qui se pose alors consiste à cibler les informations individuelles qui ont une influence positive ou négative sur le cheminement de chaque étudiant et à les déduire à partir des seules réponses des sujets.

 

Un médecin définit ce qu’il doit observer chez son patient pour poser son diagnostic, mais aussi comment interpréter ses observations. Dans la phase d’élaboration d’un test diagnostique, il faut déterminer ce qui doit être évalué, la forme que doit prendre le test, mais également et surtout comment les résultats seront interprétés. Les modèles cognitifs permettent d’inférer, dans un but diagnostique, les processus cognitifs maîtrisés ou non par chaque sujet même lorsque les seules données accessibles sont la réussite ou l’échec à chaque item.

2. Les modèles cognitifs et la matrice Q

Loye (2005) présente quelques modèles modernes de mesure qui produisent un diagnostic en lien avec des variables latentes discrètes représentant des processus cognitifs. De manière générale, ces modèles permettent d’estimer la probabilité de répondre correctement à un item en fonction de la maîtrise d’un ensemble d’attributs cognitifs spécifiques à cet item. Un attribut cognitif représente un état latent de connaissance indispensable pour répondre à l’item sans être directement observable (Gierl, Leighton & Hunka, 2000 ; Leighton, Gierl & Hunka, 2002 ; Milewski & Baron, 2002 ; Tatsuoka, 1983).

 

Ces modèles s’appuient sur l’élaboration, par des experts, d’une liste des attributs cognitifs nécessaires et suffisants pour répondre à chaque item du test. Ces informations sont regroupées dans une matrice notée Q dont les lignes représentent les items et les colonnes les attributs. La valeur est 1 lorsqu’un lien existe entre l’attribut et l’item, et la valeur est 0 sinon. Le modèle permet ensuite d’estimer la probabilité qu’a chaque sujet de maîtriser chaque attribut.

Le processus d’élaboration de la matrice Q par les experts est le premier pas vers des inférences valides et fidèles concernant le diagnostic des sujets. Lorsque les experts doivent déterminer les processus cognitifs sous-jacents aux items d’un test existant, l’accès aux données permet de se demander dans quelle mesure le fait d’analyser les données et de fournir les résultats aux experts peut les aider à établir une matrice Q plus valide et plus fidèle.

3. L’élaboration de la matrice Q dans trois conditions expérimentales

L’élaboration de la matrice Q par les experts peut être influencée par les facteurs contextuels suivants : (a) les données: le domaine évalué et la forme du test, (b) la méthode de travail choisie, (c) la tâche demandée aux experts et (d) les conditions dans lesquelles les experts travaillent. C’est la dernière source d’influence qui est l’objet de la présente étude. La mise en place et le contrôle de plusieurs conditions d’élaboration de la matrice Q vise à déterminer si certaines d’entre elles influencent positivement ou négativement l’élaboration de la matrice Q. Un test à choix multiple en mathématiques est choisi, l’approche retenue consiste à faire travailler les experts individuellement pour ensuite synthétiser leur travail en cherchant à obtenir un consensus;  et les experts doivent déterminer individuellement les attributs ainsi que les liens items-attributs.

 

Cette recherche vise à comparer les matrices Q élaborées dans trois conditions expérimentales, par quatre experts, en utilisant les données de deux tests (identifiés A et B) à choix multiple construits par des enseignants pour leur propre usage (les tests A et B sont issus du pré-test de l’École Polytechnique de Montréal). Dans la condition 1, seuls les items sont fournis aux experts. Dans la condition 2, les informations additionnelles concernent la dimensionnalité du test (résultats d’analyses factorielles). Dans la condition 3, des informations sur les erreurs commises (analyse des leurres, difficulté et pouvoir discriminant des items) remplacent celles sur la dimension du test.

Les quatre experts élaborent séparément leur matrice relativement à chaque test pour chacune des trois conditions expérimentales. Par la suite, la méthode Multi Attribute Consensus Building (MACB)  (Vanderwood, Ysseldyke & Thurlow, 1993) est adaptée afin d’obtenir un classement consensuel des attributs individuels et de fabriquer des matrices Q synthèses pour chaque test et condition. Les catégories de la classification deviennent les attributs des matrices Q synthèses dans lesquelles une valeur 1 est placée dès que deux experts ou plus ont établi un lien entre l’item et l’attribut.

 

La forme des matrices Q individuelles et synthèses obtenues est comparée d’une condition à l’autre et la concordance entre les experts est étudiée pour chaque condition, de même que la représentativité des matrices Q synthèses. Le modèle RUM (Hartz, 2002) est appliqué aux données afin d’estimer trois paramètres considérés comme des indicateurs de la validité et de la fidélité de chaque matrice Q. Dans le modèle RUM, le paramètre πi représente la probabilité qu’un sujet ayant maîtrisé tous les attributs requis pour l’item i par la matrice Q les ait convenablement utilisés pour répondre à la question. Ce paramètre peut ainsi être associé à la notion de fidélité des attributs. Le paramètre rik compare la probabilité de bien répondre à l’item i selon que le sujet maîtrise ou non l’attribut k. Ce paramètre représente la pénalité due au fait de ne pas maîtriser l’attribut k, il peut être associé à la notion de validité puisqu’il est un indice de la pertinence d’utiliser l’attribut k pour résoudre l’item i. Enfin, le paramètre  ci est un indicateur de la validité du modèle qui permet de juger si la matrice Q contient tous les attributs importants pour l’item i. Ces paramètres sont estimés pour chaque matrice Q synthèse puis comparés entre les conditions afin de définir celle qui est la plus propice à l’élaboration de matrices Q synthèses de qualité.

4. Résultats de l’étude

Les résultats de cette étude sont rapidement résumés ici, mais le détail des comparaisons est disponible dans Loye (2008 ; en préparation). Cette recherche exploratoire apporte une contribution multiple à l’avancée des connaissances concernant les modèles cognitifs. Tout d’abord, la méthode pour faire travailler les experts a démontré sa pertinence par le fait que les matrices synthèses obtenues sont représentatives de l’ensemble des experts et qu’elles permettent d’obtenir des estimateurs robustes des paramètres du modèle RUM. Cette étude a également confirmé ce qui est annoncé dans la littérature (Roussos et al, 2007), à savoir que les items plus difficiles ont tendance à être moins bien représentés par les attributs cognitifs. Il semble donc qu’il faille porter une attention particulière à ces items lorsqu’on élabore une matrice Q.

Des trois conditions expérimentales de cette recherche, la condition 3 est celle qui fournit les matrices de moins bonne qualité. En particulier, l’analyse des leurres des questions à choix multiple semble faire perdre de vue la question dans son ensemble et amène les experts à être moins en accord les uns avec les autres. Les experts sont capables d’élaborer des attributs pertinents lorsqu’ils n’ont accès qu’à l’énoncé de l’item (condition 1). Toutefois, le fait de réaliser des analyses factorielles sur les données et de regrouper les items qui partagent une même dimension semble améliorer la structure cognitive des matrices puisque les comparaisons ont souvent été à l’avantage de la condition 2, même si les indicateurs de validité et de fidélité du modèle RUM ne sont pas statistiquement différents d’une condition à l’autre. En outre, les items qui partagent une dimension avec d’autres items correspondent à des liens statistiquement plus valides au sens du paramètre rik , indépendamment du fait d’en informer les experts. C’est donc la matrice Q synthèse de la condition 2 qui est choisie pour illustrer l’apport diagnostic de ces nouveaux modèles de mesure dans la partie qui suit.

5. Illustration du diagnostic et apport du modèle cognitif

5.1 La structure cognitive du test

Les modèles cognitifs permettent un diagnostic qui dépasse une vision atomisée du contenu du test comme celle fournie, par exemple, par une épreuve de maîtrise. Afin d’illustrer un diagnostic issu de l’application d’un modèle cognitif, la discussion qui suit se base sur les résultats de la modélisation des données du test B à l’aide de la  matrice Q synthèse produite à la condition 2. Le test B est constitué de vingt items dont dix portent sur les fonctions élémentaires et dix portent sur le calcul différentiel. Le tableau 1 présente le tableau de spécification du test B. En outre, six attributs ont été définis par consensus par les experts et sont libellés comme suit :

-        Attribut 1 : Décoder (tout ce qui a trait au fait de lire la question correctement : symboles mathématiques, mots clés)

-        Attribut 2 : Appliquer une technique (calcul algébrique, arithmétique, application de règles ou d’algorithmes)

-        Attribut 3 : Faire des liens entre des notions

-        Attribut 4 : Utiliser une représentation graphique (graphique, tableau, dessin ou autre pour aider à trouver la réponse)

-        Attribut 5 : Utiliser des propriétés, définitions, théorèmes, éléments de base et faire des liens entre ces éléments

-        Attribut 6 : Organiser la solution (plusieurs étapes, stratégie)

 

La synthèse des matrices Q individuelles a abouti à l’élimination de l’attribut 1 à la condition 2. Ainsi, la matrice Q synthèse utilisée pour illustrer le diagnostic ne contient que cinq de ces six attributs (2 à 6). Le tableau 2 présente les quarante quatre liens qui ont été établis entre ces cinq attributs et les vingt items par les experts dans cette matrice Q. Pour chacun des liens établis, le tableau 2 inclut la valeur correspondante du paramètre rik du modèle RUM. Ce paramètre, qui varie entre 0 et 1, est inversement proportionnel à la force du lien entre l’attribut et l’item, ainsi plus la valeur de rik est proche de 0, plus le lien entre l’attribut et l’item est fort. Selon Templin (2004), un item a une structure cognitive élevée lorsque la moyenne de ses paramètres rik est inférieure à 0,5. Selon ce critère, cette matrice Q fournit une structure forte pour neuf items du test B (voir les items identifiés par un astérisque dans le tableau 2). Notons que l’item 5 a été supprimé des analyses pour simplifier le modèle selon la procédure préconisée par Roussos et ses collègues (2007). Ces derniers proposent de supprimer de Q les liens pour lesquels r est supérieur à 0,9 afin de simplifier le modèle. C’est la raison pour laquelle les paramètres r n’ont pas été estimés pour cet item.

 

Tableau 1- Le tableau de spécification du test B

Fonctions élémentaires

Calcul différentiel

Notions

(Catégorie 1)

 

Fonctions

(Catégorie 2)

 

Notions

(Catégorie 3)

 

Techniques

(Catégorie 4)

 

définition

Item 1

puissance

Item 3

définition

Item 17

élémentaire

Item 15

domaine

Item 11

polynomiale

 

interprétation

Item 2

Item 9

produit

Item 8

graphe

 

Item 10

trigonométrique

 

utilisation

Item 6

Item 18

quotient

Item 19

composée

 

valeur  absolue

Item 20

Taylor

 

composition

Item 4

Item 12

logique

Item 14

racine carrée

Item 13

 

 

 

 

manipulation

item 16

exponentielle

 

 

 

 

 

 

 

logarithmique

Item 7

 

 

 

 

 

 

inéquation

Item 5

 

 

 

 

 

Tableau 2- La matrice Q

Items

(Catégorie)

Attribut 2

(tech.)

Attribut 3

(liens notions)

Attribut 4 (repr. graph.)

Attribut 5

(prop., …

Attribut 6

(org.)

Nbre total de liens

rmoyen

Item 1

(1)

0

1 (0,7)

1 (0,6)

1 (0,8)

0

3

0,7

Item 2*

(3)

1 (0,4)

1 (0,5)

0

1 (0,6)

0

3

0,5

Item 3*

(2)

1 (0,5)

0

0

0

0

1

0,5

Item 4

(4)

1 (0,6)

0

0

1 (0,6)

0

2

0,6

Item 5

(2)

1 (n.e.)

0

1 (n.e.)

0

0

2

(n.e)

Item 6*

(3)

1 (0,2)

0

0

1 (0,5)

1 (0,7)

3

0,5

Item 7

(2)

1 (0,6)

0

0

1 (0,6)

0

2

0,6

Item 8*

(4)

0

0

0

1 (0,3)

0

1

0,3

Item 9*

(3)

0

1 (0,3)

1 (0,2)

0

0

2

0,3

Item 10*

(1)

0

1 (0,3)

1 (0,4)

1 (0,8)

0

3

0,5

Item 11

(1)

1 (0,8)

0

0

1 (0,8)

0

2

0,8

Item 12

(4)

1 (0,9)

0

0

1 (0,3)

0

2

0,6

Item 13*

(2)

1 (0,6)

0

0

1 (0,5)

0

2

0,5

Item 14

(1)

1 (0,8)

0

0

0

0

1

0,8

Item 15

(4)

0

0

0

1 (0,9)

0

1

0,9

Item 16*

(1)

1 (0,4)

0

0

1 (0,5)

0

2

0,5

Item 17

(3)

1 (0,8)

1 (0,9)

1 (0,7)

1 (0,8)

0

4

0,8

Item 18

(3)

1 (0,8)

1 (0,8)

1 (0,8)

1 (0,8)

1 (0,5)

5

0,8

Item 19*

(4)

0

0

0

1 (0,4)

0

1

0,4

Item 20

(2)

1 (0,7)

0

0

0

1 (0,4)

2

0,6

Nbre total de liens

14

6

6

15

3

44

 

Note. Une valeur 1 indique qu’un lien existe entre l’item et l’attribut. Pour chaque lien entre un item i et un attribut k, la valeur du paramètre rik est fournie entre parenthèses (valeur arrondie à 10-1 ). Les items identifiés par un astérisque correspondent à une valeur moyenne de r inférieure ou égale à 0,5.

5.2 La caractérisation des sujets

Plusieurs manières de caractériser les sujets sont présentées et comparées dans le but d’illustrer la spécificité des modèles cognitifs à l’aide d’exemples concrets :

-          Chaque sujet peut être caractérisé par son score total sur 20 qui correspond au nombre de bonnes réponses qu’il a fourni;

-          Il est possible de calculer les sous-scores de chaque sujet relativement aux différentes catégories du tableau de spécification du test. Par exemple, les sujets pourraient obtenir quatre sous-scores  relatifs aux « fonctions élémentaires-notions »,  « fonction élémentaire-fonctions »,  « calcul différentiel-notions » et « calcul différentiel-techniques »;

-          À partir de la matrice Q, il est envisageable de calculer le score de chaque sujet relativement à chacun des attributs cognitifs identifiés en comptant le nombre de bonnes réponses fournies par le sujet aux items reliés à l’attribut. Dans une telle éventualité, un même item peut être comptabilisé plusieurs fois;

-          Finalement, le modèle RUM fournit l’estimation d’un paramètre αj qui prend ici la forme d’un vecteur (αj2, αj3, αj4, αj5, αj6) dans lequel chaque valeur αjk représente la probabilité de maîtrise de l’attribut k par le sujet j.

 

Dans un premier temps, il est important de remarquer que l’étiquetage des items dans le tableau de spécification n’est pas directement en lien avec les attributs cognitifs qui les caractérisent dans la matrice Q. La figure 1 présente le nombre d’items reliés à chaque attribut dans les quatre catégories définies par le tableau de spécification du test. On remarque par exemple que les items liés au « calcul différentiel-notions » sont globalement reliés aux cinq attributs et que les experts n’ont relié que deux des cinq items classés dans « calcul différentiel-techniques »  à l’attribut 2 (technique). Par contre ils sont tous en lien avec l’attribut 5 (propriétés, définitions et liens). Les cinq items reliés aux « fonctions élémentaires- fonctions » sont quant à eux tous reliés à l’attribut 2 (technique). À ce stade de la réflexion, il semble qu’un diagnostic lié au tableau de spécification devrait être assez différent d’un diagnostic lié à la structure cognitive du test puisqu’aucun lien systématique ne peut être mis en évidence entre les deux classifications.

 

 

Les cinq sous-scores calculés à partir des items qui ont été réussis et qui sont reliés à chaque attribut permettent également de caractériser chaque sujet. Pour les fins de l’exercice d’illustration proposé ici, deux sujets (sujet16 et sujet 216) ayant obtenu un score total de 8/20 sont sélectionnés.  Ce choix se base sur le fait qu’ils ont assez de bonnes réponses pour permettre des comparaisons et qu’ils se classent sous la moyenne du groupe qui est de 10,8. En outre, ces deux sujets ont des sous-scores identiques relativement aux catégories du tableau de spécification, sans avoir nécessairement toujours répondu convenablement aux mêmes items. Les résultats de ses deux sujets font l’objet du tableau 3. Ils ont tous les deux les sous-scores de 2/5 « fonctions élémentaires-notions », de 3/5 « fonctions élémentaires- fonctions », de 1/5 « calcul différentiel- notions » et de 2/5 « calcul différentiel- techniques » pour un total de 8/20. Ainsi ces deux sujets ont un profil identique en ce qui concerne leurs sous-scores en lien avec les quatre catégories d’items du tableau de spécification.

 

Tableau 3 – Les résultats au test des sujets 16 et 216

 

 

Sujet 16

 

 

Sujet 216

 

Item (catégorie)

 

score

Att.2

Att.3

Att.4

Att.5

Att.6

score

Att.2

Att.3

Att.4

Att.5

Att.6

Item 1

(1)

0

 

 

 

 

 

 

0

 

 

 

 

 

Item 2*

(3)

1

1 (0,4)

1 (0,5)

 

1 (0,6)

 

 

0

 

 

 

 

 

Item 3*

(2)

1

1 (0,5)

 

 

 

 

 

0

 

 

 

 

 

Item 4

(4)

0

 

 

 

 

 

 

1

1 (0,6)

 

 

1 (0,6)

 

Item 5

(2)

1

1 (n.e.)

 

1 (n.e.)

 

 

 

1

1 (n.e.)

 

1 (n.e.)

 

 

Item 6*

(3)

0

 

 

 

 

 

 

0

 

 

 

 

 

Item 7

(2)

1

1 (0,6)

 

 

1 (0,6)

 

 

1

1 (0,6)

 

 

1 (0,6)

 

Item 8*

(4)

1

 

 

 

1 (0,3)

 

 

0

 

 

 

 

 

Item 9*

(3)

0

 

 

 

 

 

 

1

 

1 (0,3)

1 (0,2)

 

 

Item 10*

(1)

0

 

 

 

 

 

 

0

 

 

 

 

 

Item 11

(1)

1

1 (0,8)

 

 

1 (0,8)

 

 

1

1 (0,8)

 

 

1 (0,8)

 

Item 12

(4)

0

 

 

 

 

 

 

0

 

 

 

 

 

Item 13*

(2)

0

 

 

 

 

 

 

0

 

 

 

 

 

Item 14

(1)

0

 

 

 

 

 

 

1

1 (0,8)

 

 

 

 

Item 15

(4)

1

 

 

 

1 (0,9)

 

 

1

 

 

 

1 (0,9)

 

Item 16*

(1)

1

1 (0,4)

 

 

1 (0,5)

 

 

0

 

 

 

 

 

Item 17

(3)

0

 

 

 

 

 

 

0

 

 

 

 

 

Item 18

(3)

0

 

 

 

 

 

 

0

 

 

 

 

 

Item 19*

(4)

0

 

 

 

 

 

 

0

 

 

 

 

 

Item 20

(2)

0

 

 

 

 

 

 

1

1 (0,7)

 

 

 

1 (0,4)

r moyen

 

0,54

0,5

n.e.

0,62

-

 

 

0,7

0,3

0,2

0,73

0,4

Note. Pour chaque lien entre un item i et un attribut k, la valeur du paramètre rik est fournie entre parenthèses (valeur arrondie à 10-1 ). Les items identifiés par un astérisque correspondent à une valeur moyenne de r inférieure ou égale à 0,5.

 

À partir des informations contenues dans la matrice Q (voir tableau 2), ces deux sujets peuvent être caractérisés par cinq nouveaux scores qui correspondent au nombre d’items réussis en lien avec les cinq attributs présents dans la matrice Q. Les profils de ces deux sujets vus sous cet angle font l’objet du graphique de gauche de la figure 2. Cette fois-ci, comme on pouvait s’y attendre, les deux sujets n’ont plus des profils identiques[1]. Les deux sujets ont répondu convenablement à six des quatorze items en lien avec l’attribut 2 (technique) et à un des six items en lien avec l’attribut 3 (liens notions). Par contre, le sujet 16 a répondu correctement à un seul des six items en lien avec l’attribut 4 (rep. graph.) et le sujet 216 à deux sur six. En ce qui concerne l’attribut 5 (prop., déf., et liens), le sujet 16 en compte deux de plus que le sujet 216 avec six items corrects sur quinze contre quatre sur quinze. Enfin, seul le sujet 216 a une bonne réponse sur trois en lien avec l’attribut 6 (organisation).

                                 

 

Le modèle RUM permet l’estimation de la probabilité de maîtrise de chaque attribut par chaque sujet. Le profil obtenu pour les sujets 16 et 216 fait l’objet du graphique de droite de la figure 2. On peut supposer que le nombre d’items réussis pour chaque attribut influence le paramètre α. Toutefois, la force du lien qui existe entre un item et un attribut devrait logiquement également jouer un rôle. Il suffit de regarder la figure 3 pour comprendre que la probabilité de maîtrise augmente globalement en fonction du nombre d’items réussis, mais aussi que des variations importantes existent à score égal. Ainsi, ces variations constituent un apport spécifique du modèle cognitif.

 

                                 

 

L’observation des positions respectives des sujets 16 et 216 dans la figure 3 permet plusieurs constatations. Tout d’abord, les deux sujets ont des positions proches en ce qui concerne les attributs 2 et 3. Ces deux sujets ont répondu à six items en lien avec l’attribut 2. Un regard sur le tableau 3 montre que la valeur moyenne de r (représentant la force moyenne des liens entre les items concernés et l’attribut 1) est un peu plus petite pour le sujet16 que pour le sujet 216. Ainsi le fait que ce sujet ait répondu correctement aux items 2, 3 et 16 pour lesquels la valeur de r est inférieure à 0,5 en regard de l’attribut 1 explique que le modèle l’ait estimé un peu plus habile relativement à cet attribut que le sujet 216. Le même raisonnement peut s’appliquer à l’attribut 3. Les sujets ont répondu convenablement à un seul item en lien avec l’attribut 3, mais le lien entre l’item 9 (sujet 216) et l’attribut 3 est plus fort que celui entre l’item 2 (sujet 16) et l’attribut 3.

 

En ce qui concerne l’attribut 4, les deux sujets ont répondu à l’item 5 qui n’est pas comptabilisé dans la modélisation. Par contre, le sujet 216 a répondu correctement à un item additionnel (item 9) pour lequel le lien avec l’attribut 4 est très fort. Ceci explique que cette bonne réponse augmente beaucoup sa probabilité de maîtrise de l’attribut 4 par rapport au sujet 16. Si on compare les items que les deux sujets ont réussis en lien avec l’attribut 5, on remarque que la valeur moyenne de r est inférieure dans le cas du sujet 16. Ceci s’explique par le fait que deux des items réussis par le sujet 16 ont un lien étroit avec l’attribut 5 (r inférieur ou égal à 0,5 pour les items 4 et 16). L’impact sur le diagnostic est une probabilité de maîtriser cet attribut beaucoup plus forte pour le sujet 16 que pour le sujet 216. Enfin, le sujet 16 n’a répondu correctement à aucun des items qui sont reliés l’attribut 6 dans la matrice Q. Il est intéressant de constater que ce sujet a tout de même une probabilité non nulle de maîtriser cet attribut. Quant au sujet 216, il a convenablement répondu à l’item 20 qui a un fort lien avec l’attribut 6 lui conférant ainsi une probabilité assez élevée de maîtrise de cet attribut.

 

L’estimation des valeurs de la probabilité de maîtrise de chaque attribut par chaque sujet donne donc une information plus complète que le sous-score attaché à chaque attribut puisqu’elle tient compte de la force du lien entre l’item et l’attribut. La différence entre les deux approches est illustrée par la figure 2.

5.3 La spécificité du diagnostic issu d’un modèle cognitif

Les sujets 16 et 216 ont  un score total de 8/20. Ils ont convenablement répondu à la moitié des items touchant les fonctions élémentaires (2/5 et 3/5), mais à seulement trois des items liés au calcul différentiel (1/5) et 2/5). Leurs profils indiquent donc des plus grandes difficultés en ce qui concerne les notions reliées au calcul différentiel. Une mesure d’appui à leur proposer pourrait donc viser ce contenu plus particulièrement. Par contre, sans un retour individuel aux items réussis ou non, un tel diagnostic ne montre pas clairement ce qui est le plus à retravailler.

 

La partie de droite de la figure 2 présente les portraits des sujets 16 et 216 relativement à leur probabilité de maîtriser chaque attribut estimée à l’aide du RUM. Ces profils mettent en évidence des différences importantes entre les deux sujets. S’ils ont des forces assez semblables (et inférieures à 0,5) en ce qui concerne l’attribut 2 (technique) et l’attribut 3 (lien notions), ils diffèrent sensiblement en ce qui a trait à l’attribut 4 (représentation graphique) et à l’attribut 6 (organisation de la solution), mais ils diffèrent beaucoup en ce qui concerne l’attribut 5 (propriétés, définitions et liens). Si le sujet 216 est plus habile que le sujet 16 relativement au recours à des représentations graphiques pour trouver la solution et à l’organisation de la solution, le sujet 16 est beaucoup plus à l’aise avec l’utilisation de propriétés, définitions, théorèmes, éléments de base et au fait de faire des liens entre ces éléments que le sujet 216 pour lequel cet aspect est très problématique.

 

Il semble donc qu’un diagnostic basé sur le contenu mathématique des items ne fasse pas de différence entre ces deux sujets, alors qu’un diagnostic basé sur leurs processus cognitifs les distingue. Ces informations complémentaires peuvent donc aider à mettre en place des actions afin de venir en aide à ces deux sujets. Les exercices de soutien à leur proposer pourraient être reliés aux différents attributs identifiés dans la matrice Q afin de favoriser l’utilisation des exercices les plus appropriés. Leurs niveaux étant semblables, il pourrait aussi être pertinent de faire travailler ces deux sujets ensemble en tirant parti des forces et faiblesses de chacun d’eux dans le but d’aider l’autre.

6. Conclusion

La présente étude visait à déterminer les meilleures conditions à mettre en place pour favoriser l’élaboration de la matrice Q nécessaire à l’utilisation d’un modèle cognitif. Elle a permis d’exploiter la matrice Q considérée comme étant de meilleure qualité afin d’analyser le profil de deux sujets et d’illustrer le processus d’évaluation diagnostique spécifique à ces modèles. Cette illustration met d’abord en évidence l’importance de développer la matrice Q avec beaucoup de soin puisque la force des relations item/attribut joue un rôle crucial dans le diagnostic. Elle montre également comment ces modèles permettent d’identifier des différences entre deux sujets aux scores et sous-scores identiques. Enfin, elle précise comment l’approche cognitive dépasse la vision disciplinaire en offrant des informations sur les processus mis en œuvre avec plus ou moins de facilité par les sujets. Ce sont ces informations jumelées à un contenu qui peuvent favoriser la mise en place de mesures d’appuis appropriées. 

Références

Gierl, M.J., Leighton, J.P., & Hunka, S.M. (2000). Exploring the logic of Tatsuoka’s Rule-Space  model for test development and analysis. Educational Measurement : Issues and Practices, 19(3), 34-44.

Hartz, S. (2002). A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality. Thèse de doctorat non publiée. Champaign, IL : University of Illinois.

Legendre, R. (2005). Dictionnaire actuel de l’éducation, 3ème édition. Guérin, Montréal.

Leighton, J.P., Gierl, M.J.,  & Hunka, S.M. (2002). The attribute hierarchy model for cognitive assessment. Paper presented at the annual meeting of the National Council for Measurement in Education, Nouvelle Orléans, April, 2002.

Loye, N. (2005). Quelques modèles modernes de mesure. Mesure et évaluation en éducation, 28(3), 51-68.

Loye (2008). Conditions d’élaboration de la matrice Q des modèles cognitifs et impact sur sa validité et sa fidélité. Thèse de doctorat non publiée. Université d’Ottawa.

Loye, N. (en préparation). Le défi de combiner les modèles cognitifs et le testing adaptatif : un premier pas. Dans J.-G. Blais, Évaluation des apprentissages et technologies de l’information et de la communication : enjeux, applications et modèles de mesure.

Milewski, G.B., & Baron, P.A. (2002). Extending DIF methods to inform aggregate reports on cognitive skills. Paper presented at the annual meeting of the American Educational Research Association, New Orleans, April , 2002.

Roussos, L., DiBello, L., Stout, W., Hartz, S., Henson, R. A., Templin, J. (2007). The fusion model skills diagnosis system. Dans J. P. Leighton et M. J. Gierl (Ed). Cognitive diagnostic assessment for education: Theory and applications (pp. 275-318). New York, NY: Cambridge University Press.

Scallon, G. (1988). L’évaluation formative des apprentissages, 1 et 2. Les presses de l’Université Laval, Québec.

Tatsuoka, K.K. (1983). Rule-space: an approach for dealing with misconceptions based on item response theory. Journal of educational measurement, 20, 345-354.

Templin, J. L. (2004). Generalized linear mixed proficiency models for cognitive diagnosis. Thèse de doctorat non publiée. Champaign, IL : University of Illinois.

Vanderwood, M., Ysseldyke, J., & Thurlow, M. (1993). Consensus building: A process for selecting educational outcomes and indicators. National center on educational outcomes, report 2, University of Minnesota.

 

 

 

 



[1] L’item 5 a été retiré des analyses RUM, mais il a été conservé pour calculer les scores. Ceci n’a aucune influence ici puisque les deux sujets choisis l’ont réussi.