Studievoortgang en studieresultaten

Ik moet bekennen dat Juf Ank en juf Helma feitelijk pas achteraf een aardige inleiding tot deze Bayesian inference bleken te zijn. Ank zal onmiddellijk zeggen dat dit zeer noodzakelijk en goed is, wellicht zonder het zelf te begrijpen. Helma zal grommend weglopen en een peuk opsteken bij het raam in haar klaslokaal. Hoe ook, ik hoop dat ze me het niet euvel duiden dat ik hen hier ongevraagd ten tonele voer.

Scene: op een ochtend in de lerarenkamer van basisschool De Klimop.

Directeur Anton: Goeiemoggel! Hoe is de sfeer?

Juf Helma: Ja, kut! Het koffiezetapparaat doet het niet!

Inleiding

De Spin-off van een initieel onderzoek naar het effect van geslacht op studievoortgang en studieresultaten resulteerde in een nieuwe vraag Doen studenten die hard werken het ook beter? Hierbij is de indicator voor hard werken het aantal behaalde EC per jaar. Deze indicator zegt niets over het niveau waarop een student de de onderwijsmodules behandelde stof beheerst. Dit laatste zou wel zichtbaar moeten zijn in de cijfers waarmee een student deze modules afrond met een of meer toetsen. Het cijfer wordt in dit onderzoek – een onderzoek dat, net als het onderzoek naar het effect van geslacht, niet meer is dan een eerste verkennende vorm van inzicht krijgen behelst – derhalve gezien als indicator voor het niveau waarop de student de behandelde stof beheerst en dus als indicator van studieresultaat. Vanzelfsprekend kan er veel op deze werkdefinities afgedongen worden, maar voor een eerste verkennende fase naar de relatie tussen beide aspecten volstaat, zo denk ik, deze grove bepaling.

Deze vraag, doen studenten die hard werken het ook beter?, is om verscheidene redenen relevant. Ten eerste is de aanname dat studenten die hard werken voor en aan hun studie ook hogere cijfers halen een plausibele. Hard werken houdt immers ook goed studeren in en goed studeren zou, onder normale, standaardomstandigheden, ook tot een hoger niveau van beheersing van de leerstof moeten leiden, en dus ook resulteren in een hoger cijfer.

Een tweede aspect is motivationeel. Studenten die hard werken en die de stof ook beter beheersen, zouden, als uitvloeisel hiervan, ook op een hoger cijfer moeten kunnen rekenen, een prikkel in de vorm van extrinsieke motivatie.

Een derde aspect betreft de wijze waarop het onderwijs wordt vormgegeven. Indien er summatief getoetst wordt — een wijze van toetsen die aan mijn onderwijsinstituut veruit de meest gangbare is — dan moet hard werken, veel tijd besteden aan en energie steken in een studieprogramma leiden tot betere resultaten.Dit is mogelijk bij formatief toetsen ook het geval, maar de relatie tussen inzet en resultaat liggen mogelijk anders bij deze vorm van toetsing. Indien dit niet het geval is, dan is er, minstens potentieel, met betrekking tot een of meer aspecten van dit onderwijs iets niet op orde.

Daar verschillende onderwijsmodules een zeer grote verscheidenheid van aspecten en onderdelen behandelen en toetsen, en er bovendien niet alleen kennis maar ook vaardigheden worden getoetst, is het niet zinvol om naar resultaten van individuele toetsen te kijken. Veeleer is het gemiddeld gewogen tentamencijfer een goede afspiegeling van de gehele opleiding ongeacht het moment waarop de student zich in de studie bevindt, daar het GGT gemiddeld cijfer per behaalde EC behelst.

Methode

Waar we dus, vanuit de onderzoeksvraag bezien, feitelijk behoefte aan hebben is een antwoord op de vraag hoe studievoortgang zich verhoudt tot studieresultaten. Indien deze worden gedefinieerd als EC per jaar respectievelijk GGT, dan moet een eenvoudige lineaire regressie ons dichterbij een antwoord op onze vraag kunnen brengen. We kunnen hiervoor gebruik maken van de standaard formule zoals we deze uit de lineaire modellen kennen:

De data

Het dataframe bestaan uit N=459 studenten, verspreid over 4 studiejaren. Hierbij zijn studenten die een jaar overdoen en studievertragers niet opgenomen.Een student die een jaar overdoet, bevindt zich nog in studiejaar 1, 2, 3 of 4, terwijl een vertrager in studiejaar ≥5 zit.

In het studieprogramma kunnen 60 EC per jaar behaald worden en alle studenten zijn op deze zestigpuntenschaal ingedeeld, waardoor alle studenten met elkaar vergeleken kunnen worden ongeacht het totale aantal studiepunten dat ze cumulatief hebben opgebouwd in eerdere studiejaren.Hierdoor kunnen studenten in jaar 3 en 4 dus op een negatief aantal EC uitkomen.

In onderstaande plot in Figuur 1 worden GGT en EC op de y-as respectievelijk de x-as getoond. Beide assen worden vergezeld van een zogenaamde probability density plot aan de bovenzijde voor EC en de rechterzijde voor GGT.

Figuur 1 ⋙ Data plot van EC en GGT

Bayesiaanse regressie

Hoewel in Figuur 1 de data worden getoond, wordt hierin nog weinig zichtbaar van de mate van correlatie die tussen GGT en EC bestaat. Daarvoor is, zoals gezegd, een test naar correlatie tussen beide nodig. Hiervoor is een Baysiaanse enkelvoudige regressie uitgevoerd zoals beschreven in Kruschke.Kruschke, John K. Doing Bayesian Data Analysis. A Tutorial with R, Jags, and Stan. Amsterdam, Boston, etc.: Elsevier, 2015.

Zoals beschreven in hoogdstuk 17 van Kruschke (2015) maakt de aldaar ontwikkelde en hier gebruikte Baysiaanse linearie regresssie gebruik van de zogenaamde Hamiltonian Monte Carlo Simulation (HMC) in STAN. De hier gebruikte test maakt bovendien geen gebruik van de normale verdeling als noise distribution maar van de t-verdeling. Dit maakt de test robuust tegen uitschieters. Dit is geen overbodig luxe zoals blijkt uit de data plot in Figuur 1, waar op beide assen de nodige uitschieters zichtbaar zijn.

Figuur 2 toont de zogenaamde post predictive check van de posterior distribution. Hierin wordt een aantal regressielijnen zichtbaar gemaakt, namelijk de meest waarschijnlijke binnen de zogenaamde parameter space. Verticaal worden bovendien met welvende lijnen probability density distributions gegeven, vergezegld van een rechte lijn die de 95% HDI, het zogenaamde highest density interval, weergeven.

Figuur 2Post predictive analysis van de correlatie van GGT en EC.

Uit Figuur 2 blijkt al dat de regressie lijn slechts een zeer kleine hellingsgraad laat zien. Dit wordt in meer detail duidelijk wanneer de posterior distribution van de β1, de regressie coefficient zoals weergegeven in Figuur 3 nader bekijken.

Figuur 3 ⋙ De posterior distribution van de regressiecoefficient.

De posterior distribution van de hellingsgraad heeft een modus van .00458 wat als bijzonder gering beschouwd kan worden. De 95% HDI overschrijdt weliswaar de nul niet, maar is toch van een zeer geringe omvang met een kleine maximum waarde: .00294–.00621.

GGT en diversiteit onderwijs

Alvorens bovenstaande data te analyseren, maak ik hier een tussenstap. Deze is zinvol daar collega’s met wie ik de data besprak, stelden dat bij een opleiding als die tot leraar basisonderwijs geen correlatie tussen hard werken en GGT kan zijn omdat daarvoor de studie veel te breed is. De hypothese hierin zou dan zoiets zijn als: je kunt nooit overal goed in zijn wanneer de diversiteit aan elementen en aspecten in een opleiding een bepaalde mata aan diversiteit overschrijdt, waardoor veel EC halen niet, of niet per se, gelijk hoeft te staan aan een hoger GGT. Deze hypothese leek mij een plausibele en een nader onderzoekje waard.

Nu is het zo dat het aantal curriculumonderdelen en de diversiteit ervan in elk van de opeenvolgende studiejaren van onze opleiding gestaag afneemt. Het aantal onderdelen waarop studenten per studiejaar worden beoordeeld is: 17, 16 , 10 en 4 het eerste, tweede, derde respectievelijk vierde studiejaar.

Indien de hypothese van mijn collega’s klopt, dan zou dit zichtbaar moeten zijn in een toename van de hellingsgraad van de regressielijn naarmate het studiejaar hoger is. Indien immers de potentieel aanwezige correlatie tussen EC en GGT teniet wordt gedaan door de factor diversiteit dan zou, met het wegvallen van deze factor de correlatie weer zichtbaar moeten worden.

Dit doe ik in twee stappen. Eerst geef ik, in de hier volgende paragraaf, enige beschrijvende statistiek met betrekking tot GGT in de verschillende studiejaren, om in de daarop volgende paragraaf te toetsen of er aantoonbare verschillen zijn tussen de studiejaren.

GGT in de verschillende studiejaren

In onderstaande tabel zijn per studiejaar het gemiddelde (μ) en de standaard deviatie (σ) vermeld.

jaar μ σ
1 7.378 .500
2 7.471 .424
3 7.445 .371
4 7.435 .356
1–4 7.426 .427

Onderstaande diagrammen tonen, in Figuur 4–7 de distributies van GGT voor de afzonderlijke studiejaren 1, 2, 3, en 4, gevolgd door die van alle studiejaren op één zestigpuntenschaal in Figuur 8.

Figuur 4 ⋙ Histogram van GGT van het eerste studiejaar: μ = 7.378, σ = .500.
Figuur 5 ⋙ Histogram van GGT van het tweede studiejaar: μ = 7.471, σ = .371.
Figuur 6 ⋙ Histogram van GGT van het Onderstaande studiejaar: μ = 7.435, σ = .356.
Figuur 7 ⋙ Histogram van GGT van het vierde studiejaar: μ = 7.426, σ = .427.
Figuur 8 ⋙ Histogram van GGT van de vier studiejaren op een zestigpuntenschaal : μ = 7.426, σ = 0.427

Uit bovenstaand blijkt dat zowel de gemiddelden als de standaard deviaties nauwelijks van elkaar verschillen. Dit duidt er reeds op dat het waarschijnlijk is dat studiejaar als factor weinig tot geen invloed blijkt te hebben op de variabele GGT. Om hierin meer zekerheid te krijgen, is echter een statistische test nodig.

ANCOVA van GGT, EC en studiejaar

Om de invloed van diversiteit als factor in beeld te krijgen, moet dus studiejaar alf factor opgenomen worden in de vorm van een categorische variabele. Dit is mogelijk met een zogenaamde Analysis of Covariance, kortweg ANCOVA. Ik maak ook hier gebruik van een Bayseiaans model dat gelijkt op de traditionele, frequentistische ANCOVA en dat ontwikkeld is door John Kruschke en beschreven in Kruschke (2015, p. 568–573).Kruschke, John K. Doing Bayesian Data Analysis. A Tutorial with R, Jags, and Stan. Amsterdam, Boston, etc.: Elsevier, 2015.

Hierin is GGT als afhankelijke variabele opgenomen en met twee onafhankelijke variabelen, namelijk niet alleen de continue variabele EC maar ook de categorische variabele studiejaar. Zo wordt de relatie tussen EC en GGT in beeld gebracht waarbij echter studiejaar ook wordt verdisconteerd. In dit Bayesiaanse model zijn dus zowel EC als studiejaar de zogenaamde predictor variables voor de outcome variable GGT.

De figuren 9–12 geven, vergelijkbaar met Figuur 2, de regressielijnen van GGT en EC voor de afzonderlijke studiejaren 1–4, vergezeld van probability density distributions van de posterior distribution, waarbij de cirkels de data uit de sample vertegenwoordigen.

Figuur 9Post predictive analysis van de correlatie van GGT en EC in het eerste studiejaar.
Figuur 10Post predictive analysis van de correlatie van GGT en EC in het tweede studiejaar.
Figuur 11Post predictive analysis van de correlatie van GGT en EC in het derde studiejaar.
Figuur 12Post predictive analysis van de correlatie van GGT en EC in het vierde studiejaar.

Waar bovenstaande figuren een eerste inzicht geven, zijn de constrasten tussen de studiejaren nodig om meer detailinformatie en inzicht te krijgen. Deze zijn weergegeven in Figuur 13–18. Voor elk studiejaar worden telkens twee histogrammen getoond. De bovenste geeft het verschil tussen de eerste en de tweede groep van het contrast, waarvoor de formule, die in Kruschke (2015, p. 565–567) wordt beschreven, de volgende is:Kruschke, John K. Doing Bayesian Data Analysis. A Tutorial with R, Jags, and Stan. Amsterdam, Boston, etc.: Elsevier, 2015.

De verschil tussen μ1 en μ2 wordt in het histogram getoond op het niveau van de variabele GGT, dat wil zeggen op een cijferschaal van 1–1. In dit histogram is een comparison value van .0 aangegeven door een groene horizontale stippellijn.

Het tweede histogram toont de effectmaat die als Cohen’s d gelezen kan worden. Dit histogram heeft naast de comparison value ook een zogenaamde region of practicle equivalence, ROPE waarvoor de ondergrens op −.5 en de bovengrens op −.2 is gesteld.De waarden kunnne absoluut gelezen worden waarbij er geen verschil is tussen positieve of negatieve getallen. De waarden komen overeen met de de gebruikelijke indeling van Cohen’s d, waarbij .5 de ondergrens is van een gemiddeld effect en .2 de ondergrens van een klein effect; waarden <.2 dienen geïnterpreteerd te worden als geen effect.

Figuur 13 ⋙ Contrast van het eerste versus het tweede studiejaar.
Figuur 14 ⋙ Contrast van het eerste versus het derde studiejaar.
Figuur 15 ⋙ Contrast van het eerste versus het vierde studiejaar.
Figuur 16 ⋙ Contrast van het tweede versus het derde studiejaar.
Figuur 17 ⋙ Contrast van het tweede versus het vierde studiejaar.
Figuur 18 ⋙ Contrast van het derde versus het vierde studiejaar.

Wanneer de cijfers van bovenstaande histogrammen in een tabel worden geplaatst, blijkt al snel, dat het effect van studiejaar, en dus van diversiteit zeer gering tot afwezig is.

contrast μ1 − μ2 d modus d < .20 d .20–.49 d ≥ .50
1 vs. 2 −.073 −.181 55.1% 44.2% 0.7%
1 vs. 3 −.120 −.292 29.6% 65.3% 5.1%
1 vs. 4 −.110 −.258 34.5% 61.9% 3.7%
2 vs. 3 −.029 −.070 81.4% 18.5% 0.1%
2 vs. 4 −.015 −.035 85.1% 14.8% 0.1%
3 vs. 4 0.003 0.006 6.8% 89.7% 3.5%

Uit bovenstaand blijkt dat diversiteit als zodanig wel een factor is. Dit blijkt mijns inziens uit het feit dat de grootste mate van effect gemeten is in de contrasten tussen het eerste en het derde jaar, en tussen het eerste en het vierde jaar. Anderzijds, is het vanuit, de hypothese dat diversiteit een factor is, niet goed te verklaren waarom dan het effectmaat tussen het eerste en het derde studiejaar dan groter is dan dat tussen het eerste en het vierde studiejaar. Een vraag die ook geldt voor het effect van het derde versus het vierde studiejaar.

Het beeld is echter duidelijk, het effect van de factor diversiteit is zeer, zeer klein. De som van de percentages van geen effect en een klein effect waarbij Cohen’s d ≤.5 is, is in elk studiejaar ver in de negentig. Alleen in het contrast van het eerste versus het derde studiejaar geeft het Bayseiaanse model een kans van 5% op een gemiddeld effect, en voor het eerste versus het vierde als ook voor het derde versus het vierde studiejaar betreft dit 4%.

Conclusie

Op basis van de huidige populatie studenten, N=459 blijkt uit Figuur 2 en 3 dat er geen, dat wil zeggen een verwaarloosbare correlatie is tussen het GGT en het aantal behaalde EC. De richtingscoefficient, weergegeven in β1, toont een zeer geringe hellingsgraad met een modus van .00458. De 95% HDI is zeer gering van omvang wat duidt op een zeer betrouwbare analyse en een voldoende grote steekproef.

Met betrekking tot het effect van diversiteit is gebleken dat deze slechts een zeer minimaal effect heeft bij een klein deel van de contrasten en geheel geen effect laat zien in het merendeel van de contrasten. Daar waar een groot effect te verwachten is, namelijk tussen het eerste en het vierde studiejaar, blijkt dit niet uit de effectmaat van het contrast tussenbeide. Dit is opvallend om een tweetal redenen. Ten eerste is de diversiteit van het aantal onderdelen vanaf jaar 2 gestaag afgenomen en tot een zeer klein aantal teruggelopen. Ten tweede zijn studenten die voor een verkeerde studie blijken te hebben gekozen voor het overgrote deel na het eerste studiejaar op natuurlijke wijze weggefilterd en zeker in jaar vier niet meer aanwezig.

Discussie

Is de stelling hard werken loont niet plausibel op basis van bovenstaande analyse? Ik denk het niet. Het is namelijk wel degelijk zo dat een student met hard werken de studie soepeler en sneller doorloopt. Met andere woorden: hard werken en veel tijd en energie in de studie investeren levert precies dat op wat het meest waarschijnlijk is, namelijk studiepunten. Wat het niet oplevert, zo lijken bovenstaande analyses aan te duiden, is een hoger GGT.

De analyses zeggen feitelijk niet zozeer iets over wat studenten wel of niet moeten doen, ze zeggen veeleer iets over het studieprogramma en wát daarbinnen nu feitelijk getoetst wordt. Dat lijkt dus niet zozeer het niveau van beheersing van de competenties, maar meer de mate waarin een student volgens plan, dat wil zeggen volgens het door het opleidingsinstituut vastgelegde studieprogramma, op het vastgestelde moment de vastgestelde toets doet en haalt. Beheersing van de getoetste competenties lijkt echter níet samen te hangen met hard werken en dat geeft te denken.

Het beeld dat, volgens mij, uit de analyses van de data naar voren komt is dat van een studie die meer toets op ‘braafheid’ en netjes het studieprogramma volgen en niet dat van een studie die prikkelt tot het nastreven van een zo hoog mogelijke beheersing van vakinhouden, al dan niet in termen van competenties.

Hierin lijken de data te wijzen naar analyse die overeenkomsten vertoont met een functie van onderwijs die Caplan (2018) signaling noemt.Caplan, Bryan. The Case against Education. Why the education system is a waste of time and money. Princeton: Princeton University Press, 2018.

In het eerste hoofdstuk stelt Caplan het volgende in de paragraaf getiteld What Does Education Signal?

Now we’re up to three broad traits that education signals: intelligence, conscientiousness, and conformity.

Van deze drie is intelligentie de minst belangrijke. In Caplans signaling theory zijn diploma’s geen – of slechts in zeer geringe mate – teken van inhoudelijke expertise of van intellect, maar van specifieke persoonskenmerken, namelijk betrouwbaarheid, plichtsgetrouwheid, conformisme. Met andere woorden een diploma biedt de potentiële werkgever een zekerheid met betrekking tot de mate waarin een potentiële werknemer een betrouwbare uitvoerder is. Wat we nastreven is (sociale) voorspelbaarheid en daarmee werknemers die een beheersbare en planbare functie in een klokwerk kunnen zijn. De elementen die Caplan (2018) in zijn studie aanhaalt zijn ‘beschamend’ sterk…

Wellicht heeft mijn collega het bij het rechte eind wanneer ze stelt dat onze opleiding een strikt lineaire aangelegenheid is, waarbij ik als docent op verschillende momenten in verschillende studiejaren aan de lopende band van het onderwijs moet aanschuiven. Misschien heeft die manager gelijk die me erop wijst dat we vooraleerst een bedrijf zijn; wellicht een onderwijsbedrijf, maar toch… een bedrijf.

Uitleiding: wederom Ank en Helma

Wellicht leidt ook de pabo op tot die voorspelbare, betrouwbare, gehoorzame juf Ank en is het diploma meer een garantie voor een bepaalde mate van Ank-gehalte dan wel een verzekeringspolis die aanduidt dat het Helma-gehalte onder een zeer laag specifiek percentage blijft? Laten we eerlijk zijn: wie kan als collega of leidinggevende uit de voeten met het paffende, grofgebekte ongeleide projectiel Helma?

Hoewel… hoe anders dan via en door Helma, weet juf Ank weer hoe betrouwbaar en plichtsgetrouw ze is?

Dus bij deze voor alle Helma’s: vergeet niet hoe moeilijk de Anks het met je hebben wanneer je zelfs voor hun stoplicht geen achting toont. Voor alles Anks: vergeet nooit dat je bij het afscheid van de vorige Helma een traantje moest laten, omdat je ergens wel weet hoe loyaal en betrokken ze is.

Appendix

Onderstaande codes geven, voor wie met het boek van Andy Field zijn grootgebracht, de uitkomst van een frequentistische lineaire regressie in R. De significantie betreft hier de nulhypothese dat de waarde van de regressielijn, de β1 gelijk aan nul is en het blijkt dat deze moet worden verworpen. Bovendien blijkt ook hier uit de Adjusted R-squared dat 94% onverklaard blijft.

De adjusted R-squared geeft ook aan dat het effect zeer klein is, namelijk .0571.

Betrouwbaarheidsintervallen wijken af van de Bayesiaanse analyse

Residuals:
     Min       1Q   Median       3Q      Max
-1.05938 -0.27612 -0.04089  0.27545  1.70504

Coefficients:
                         Estimate Std. Error t value Pr(>|t|)    
(Intercept)             7.2405455  0.0396409 182.653  < 2e-16 ***
ec_ggt_per_jaar_60pt$ec 0.0045348  0.0008459   5.361 1.32e-07 ***
---
Signif. codes:  0 *** 0.001 ** 0.01 * 0.05 . 0.1   1

Residual standard error: 0.4147 on 457 degrees of freedom
Multiple R-squared:  0.05916,	Adjusted R-squared:  0.0571
F-statistic: 28.74 on 1 and 457 DF,  p-value: 1.319e-07
                      2.5 %        97.5 %
(Intercept)             7.162644490 7.318446579
ec_ggt_per_jaar_60pt$ec 0.002872358 0.006197179

Uitgaande van deze frequentistische analyse zou ik niets kunnen concluderen dan dat de nul-hypothse verworpen moet worden en dat er dus mogelijk wel degelijk een correlatie tussen beide is. Dit is, mijns inziens, exemplarisch voor het verschil tussen Bayesiaanse probability moddeling en frequentist frameworks. Alleen staren naar een p-waarde kan zeer misleidend zijn.

Studievoortgang en studieresultaten - October 11, 2019 - Robert Voogdgeert