Per­son­lighet­stester blir brukt i stadig flere sam­men­henger. Reak­sjonene på bruk av slike tester ser ut til å ha en ten­dens til å variere mel­lom blank avvis­ning og ukri­tisk god­tagelse. Det er naturligvis for­nuftig å være like skep­tisk til per­son­lighet­stest­ing som alt annet. I denne artikke­len kom­mer jeg ikke desto min­dre kom­mer til å argu­mentere for at det fak­tisk finnes gode per­son­lighet­stester, og at det finnes anven­delses­måter av disse som kan komme både den som tar testene og de som gir testene til gode. Skep­tik­eren er kan­skje mer inter­essert i føl­gende prob­lem­still­inger, som jeg kom­mer til å bel­yse i det føl­gende:

  • Hvor­dan kan man skjelne mel­lom gode og dårlige per­son­lighet­stester?
  • Finnes det hold­bare, grunn­leggende teori­er om per­son­lighetsmål?

Bakgrunn: Er det personen eller situasjonen som bestemmer en handling?

Psykolo­gen som viten­skap har lenge befat­tet seg med måling av men­neske­lige egen­skaper. Denne grenen av psykolo­gien, som befat­ter seg med mål­bare forskjeller mel­lom men­nesker kalles dif­fer­en­sialp­sykolo­gi når den dreier seg om teori­er, og psykometri når den dreier seg om metoder. Fra ca. århun­dreskiftet og fram til ca. 2. ver­den­skrig var det fak­tisk nesten utelukkende måling og eval­uer­ing av men­nesker som amerikanske psykologer drev med – ter­api var stort sett over­latt til psyki­a­trene.

Det ikke slik at for­målet med den forsknin­gen som foregikk var å lage per­son­lighet­stester. For­målet var å lage teori­er om per­son­lighet, og per­son­lighet­stester ble utviklet for å teste disse teoriene. Det var dette som viste seg å være så vanske­lig. Til tross for at f.eks. astrolo­gene hevder å kunne dele opp men­neske­heten i 12 stjer­netegn med bestemte karak­tertrekk, lyk­tes det ikke psykolo­gene å finne mål på per­son­lighet som kunne fanges i tester. Kor­re­lasjon­er mel­lom testscore og testkri­terier var sjelden over 0.3, noe som er alt­for lite til å kon­klud­ere med at det finnes noen kjerneper­son­lighet som er kon­stant fra situ­asjon til situ­asjon.

Poenget med å måle per­son­lighet er å kunne forut­si noe om hvor­dan men­nesker vil rea­gere under gitte forut­set­ninger, dvs. å kunne spå om framti­da. Dette har vist seg uhyre vanske­lig. Fak­tisk var det gjengs opp­fat­ning blant psykologer fram til beg­yn­nelsen av 80-tal­let at men­neske­lig adferd var så kom­pleks at den ikke lot seg måle. Årsak­en ble antatt å være at det ikke finnes noen kjerneper­son­lighet – det var situ­asjo­nen, ikke indi­videt, som avgjorde hvor­dan indi­videt skulle rea­gere. «Per­son­lighet» er en illusjon som skyldes men­neskers trang til å «se» flere sam­men­henger og mer kon­sis­tens enn det fak­tisk finnes i ver­den. Siden det er situ­asjo­nen, ikke per­so­n­en, som avgjør hvor­dan vi han­dler, er det ikke mulig å lage per­son­lighet­stester.

Men kjen­ner vi ikke igjen men­nesker fra situ­asjon til situ­asjon? «Ole er seg selv lik,» sier vi, og med det men­er vi at vi synes Ole har en dis­tinkt oppførsel som skiller ham fra andre men­nesker og som gjør ham til Ole. «Nei,» sa psykolo­gene – «du synes du kjen­ner igjen Ole for­di du bare kjen­ner ham i et bestemt miljø – arbeid, foren­ing, eller andre aktiviteter. Hadde du truf­fet ham i flere sam­men­henger hadde du sett at han ville være en forskjel­lig per­son i hver sam­men­heng du kjente ham i.» Det er til en viss grad sant – i forskjel­lige miljøer finnes det forskjel­lige strenger å spille på. Vi er ikke full­s­tendig upåvir­ket av miljøet. Det er antagelig også rik­tig at vi «ser» mer kon­sis­tens enn hva som fak­tisk er til­felle, hva angår både andre men­neskers oppførsel og andre ting i livet.

Gjennombruddet

På beg­yn­nelsen av 80-tal­let ble det blåst nytt liv i per­son­lighets­forsk­ing – og dermed også i per­son­lighet­stest­ing – for­di to teo­retiske gjen­nom­brudd, fra hver sin kant, viste at det fak­tisk er mulig å beskrive per­son­lighet på en slik måte at det er mulig å komme med gyldige forut­sigelser om indi­viders adferd.

Statistisk aggregering

Tidligere tiders per­son­lighets­forsk­ing hadde begått en gjen­nom­ført feil: å forsøke å forut­si enkel­hen­delser. Tenk deg at vi skulle lage en per­son­lighet­stest som gikk ut på å måle tilbøye­lighet til å ser­vere piz­za. Hvis Ola skulle slå ut på denne testen, skulle Ola for­ventes å ser­vere piz­za neste gang han hadde gjester. Men det går an å gå lei av piz­za, å man­gle noen av ingre­di­ensene som skal til, eller å ha lyst til å lage noe annet. Piz­za­server­ingsin­dek­sen var alt­så basert på en illusjon om smak: det er ikke mulig å måle tilbøye­lighet til å ser­vere piz­za.

Joda, viste det seg – det er ikke mulig å predikere hvorvidt Ola vil eller ikke vil ser­vere piz­za neste gang han har gjester, men det er mulig å vise om han vil ser­vere piz­za oftere enn gjen­nom­snit­tet av nord­menn når han har gjester. Det er alt­så ikke mulig å forut­si enkeltad­ferd, men det er mulig å forut­siadferdsmøn­stre, og det er van­ligvis det vi er inter­essert i. Et slag ten­nis blir ikke avgjort etter første serve, fot­bal­lkam­p­en var­er lengre enn noen få pas­ninger. Selv om man er best er det mulig å komme opp i uheldige situ­asjon­er, det som er vik­tig i idrettsam­men­heng er å få vist at man klar­er å være dyk­tig over tid. I alle andre sam­men­henger er det slik at situ­asjo­nen av og til over­styr­er per­son­ligheten – men i mange sam­men­henger vil man se et kon­sis­tent møn­ster bare man måler mange nok ganger.

 

Det har vist seg at flere avgjørende forskn­ingsrap­porter som kon­klud­erte med at men­nesker ikke er kon­sis­tente, hadde vist det mot­sat­te der­som de innsam­lede dataene hadde vært aggregerte. Det er i grun­nen rart at det tok så lang tid å oppdage dette.

Leksikalsk analyse og De fem store

Til tross for man­glende evne til å forut­si adferd med noe syn­derlig hell, ble det likev­el laget hypoteser og teori­er om per­son­lighet. Gor­don All­port og Ray­mond Cat­tell gikk en annen vei enn den rent empiriske – i ste­den for å predikere adferd, prøvde All­port, og senere Cat­tell på bak­grunn av All­ports studi­er – å finne om det er mulig å redusere de adjek­tivene vi bruk­er for å beskrive men­neske­lig adferd ned i syn­onymer. All­port tok utgangspunk i 18000 adjek­tiv­er som ble delt opp etter bruksmåter, slik at det ble mulig å se et møn­ster i hvor­dan men­nesker beskriv­er hveran­dre. Cat­tell analy­sert de per­son­lighet­strekkbeskrivende adjek­tivene for egne­thet, og endte opp med ca. 4000 adjek­tiv­er som men­nesker i test­grup­per skulle bruke for å beskrive men­nesker som de kjente. Han bruk­te fak­tor­analyse på dataene, dvs. at han bruk­te en teo­retisk formel for å vise hvilke adjek­tiv­er som opp­trådde sam­men og dermed kunne sies å være mer eller min­dre syn­onyme. Dette skjed­de på 1930- og 40-tal­let, og krevde enorm datakraft etter dati­das teknolo­gi.

 Cat­tell fant 16 per­son­lighet­strekk, og mente dermed å kunne si at men­nesker beskriv­er hveran­dre etter sek­sten forskjel­lige grup­per av karak­ter­is­tikker – men ikke et ord om hvor disse karak­ter­is­tikkene kom fra eller om de var kon­sis­tente. På bak­grunn av dette resul­tatet lanserte han den etter hvert klas­siske per­son­lighet­stesten Cat­tells 16PF, som fort­satt blir brukt i mange land, inklud­ert Norge. Cat­tell var kan­skje først ute, men seinere forsk­ing har reist tvil om resul­tatene hans. Det vis­er seg i hvert fall, vil mange hevde, at dataene hans ikke ga grunnlag for mer enn fem trekk. John Nor­man fant også fem trekk i 1961, men lot være å gå videre med resul­tatene for­di han ble over­be­vist om at trekkene ikke var sta­bile og der­for ikke kunne brukes til stort.

I 1981 ble fire forskere enige om at der­som man så på den lit­ter­a­turen som fantes, kan man redusere trekkbeskrivende adjek­tiv­er til fem grup­per. I den føl­gende tabellen har jeg gjen­gitt hva hver at disse grup­pene van­ligvis kalles på norsk og engel­sk. Det er vanske­lig å bli helt enig om hva disse grup­pene fak­tiskbeskriv­er, så det er ikke full­s­tendig samsvar mel­lom de ordene som brukes på norsk og de ordene som brukes på engel­sk. Enkelte betyd­nings­fulle forskere bruk­er andre navn enn de jeg har brukt her.

StyrkeExtra­ver­sion
VarmeAgree­able­ness
Kon­trollCon­sci­en­tious­ness
Følelsemes­sig Sta­bilitetEmo­tion­al Sta­bil­i­ty
Åpen­hetOpen­ness to Ideas

Ikke desto min­dre: Per­son­lighet­stester som måler nor­mal per­son­lighet, dvs. slike som brukes i næringslivet og i andre sam­men­henger for å måle egne­thet til arbeid eller samar­beid, måler et eller flere av disse trekkene. Den kan­skje mest kjente per­son­lighet­stesten, MBTI, antas å måle fire av disse trekkene (det ute­lat­te trekket er følelsesmes­sig sta­bilitet) (Cos­ta & McCrae, 1989).

De fem trekkene beskriv­er, kort for­t­alt:

Styrke omfat­ter slike trekk som søken ut i ver­den, ener­giskhet, tale­treng­th­et, alt som har med å gjøre seg bemer­ket. Men­nesker som har høyt utslag på denne fak­toren blir gjerne opp­fat­tet som utad­vendte, mens de som har lavt utslag gjerne blir opp­fat­tet som innad­vendte, selv om det er litt mis­visende. Men­nesker som scor­er høyt på styrke forsøk­er å sette seg ambisiøse mål og å gjen­nom­føre dem, og scor­er gjen­nom­snit­tlig litt høyere på IQ-tester enn de som har lav score. De snakker først i for­sam­linger og bren­ner ikke inne med idéene sine. Men­nesker som scor­er lavt på styrke bruk­er gjerne lenger tid på å for­berede svarene sine, og kan som resul­tat av dette av og til levere bedre resul­tater enn de som scor­er høyt.

Varme omfat­ter slike trekk som sosial omsorg og empati, men også tilbøye­lighet til å være godtroende. Varme men­nesker har let­tere enn andre for å la seg dis­tra­here av at det er andre men­nesker til stede. Men­nesker som scor­er høyt på varme er gode å ha i alle sam­men­henger hvor det er vik­tig å ta vare på men­nesker og men­neske­lige relasjon­er – de kan bl.a. fun­gere som katalysater­er for fastlåste diskusjon­er i arbei­dssam­men­heng. Men­nesker som scor­er lavt på varme har let­tere for å ta og gjen­nom­føre upop­ulære avgjørelser og er ofte sta, på godt og vondt. Men­nesker som scor­er høyt på varme har større tilbøye­lighet enn andre til å over­drive effek­ten av behan­dling.

Emosjonell intel­li­gens som vi har hørt så mye om i det siste er antagelig en kom­bi­nasjon av styrke og varme. Leary (1957) samt Moxnes og Engvik (1973/1974) viste at men­nesker som scor­er høyt på begge del­er har god selvinnsikt og blir sett på som sym­pa­tiske.

Kon­troll omfat­ter slike trekk som ryd­dighet og pålite­lighet. Men­nesker som scor­er høyt på denne fak­toren er slike som blir fer­di­ge med ting. Sam­men med IQ er dette den fak­toren som best predik­er­er kvalitet i arbei­d­sut­førelse. Men­nesker som scor­er høyt på kon­troll kan ha en ten­dens til kon­for­mitet, men de får ting gjort. Men­nesker som scor­er lavt på kon­troll er ofte uortodokse og kreative.

Følelsesmes­sig sta­bilitet omfat­ter slike trekk som eng­s­telse og for­sik­tighet. Men­nesker som scor­er høyt på følelsesmes­sig sta­bilitet har «is i magen», og kan holde hodet kaldt til glede for seg selv og til nytte for andre, og tør å ta sjanser. Men­nesker som scor­er lavt på følelsesmes­sig sta­bilitet er eng­stelige, nervøse og for­sik­tige, og er gode å ha i enhver sam­men­heng hvor man ikke får vært nøye nok.

Åpen­het for ideer omfat­ter slike trekk som intellekt, åpen­het og tol­er­anse. Men­nesker som har høy score på åpen­het for ideer frem­står som oppfinn­somme, kul­tiverte og flek­si­ble. Det er gjerne de som er teo­retik­erne i arbei­dssam­men­heng. Men­nesker som scor­er lavt på åpen­het for ideer er gjerne prak­tisk anlagt, og spør etter prak­tisk nytte. Når det opp­står kon­flik­ter i arbei­d­slivet, og disse har utgangspunkt i forskjeller i per­osnlighet, er det gjerne denne fak­toren som skiller de stri­dende parter. Det er antagelig også denne fak­toren det er vik­tigst at men­nesker i et par­forhold scor­er likt på.

Disse fem fak­torene har fått tilnavnet De fem store (The Big Five) for­di de antas å omfat­te fem store per­son­lighet­strekk-kat­e­gori­er som tilsam­men dekker mesteparten av det som trengs for å beskrive en per­son.

Testkvalitet – hvordan kan man skjelne en god test fra en dårlig test?

Det er alt­så slik at det finnes i alle fall én mod­ell for per­son­lighet som er empirisk og teo­retisk valid­ert, og som er mulig å bruke som utgangspunkt for per­son­lighet­stester. At jeg har nevnt den her skyldes først og fremst at det stort sett er denne mod­ellen som blir brukt innen mod­erne per­son­lighets­forsk­ing, men også for å gi et enkelt eksem­pel på en mod­ell for per­son­lighet.

Relevans

Det finnes heller ingen fasitsvar for per­son­lighet­stester, annet enn at i de fleste sam­men­henger bør kon­troll være høy. Det er ikke slik at alle gode tester må forholde seg til de fem store – i enkelte sam­men­henger er det bare del­er av de fem store som gir inter­es­sant infor­masjon om hvor­dan en arbei­dssøler vil passe til opp­gaven ved­k­om­mende skal gjøre. Det er lett – i alle fall i teorien – å lage en per­son­lighet­stest, det er mye vanske­ligere å lage en arbei­d­spros­es­s­analyse som vis­er hvilken pro­fil eller hvilke pro­fil­er som er ønske­lig. Det finnes ingen fasit for hvor­dan dette skal gjøres, annet enn at i en arbei­ds­gruppe er det en fordel om så mange pro­fil­er som mulig er rep­re­sen­tert. Forskjel­lige teo­retikere, f.eks. Bel­bin (1992), har tanker om hvor­dan disse forskjel­lene bør være.

Normering

Det er ikke slik (som mange tror) at det blir antatt at det finnes pro­to­typiske eksem­pler på per­son­ligheter, og at man kan lage tester som vis­er disse. I ste­den bruk­er man en pros­ess som kalles normer­ing, som kort for­t­alt går ut på at testen blir prøvet ut på en gruppe vilkårlig val­gte men­nesker, og ser hvor­dan svarene fordel­er seg hos dem. Så blir svar­fordelin­gen fra denne grup­pen nor­malis­ert, slik at fordelin­gen får en bestemt medi­an og et bestemt stan­dar­d­avvik. Når noen seinere tar testen vis­er alt­så resul­tatet hvor man står i forhold til test­grup­pa.

 Dette betyr at per­son­lighet­stester må normeres på nytt når de blir over­satt til et nytt språk. Den «bil­lige» måten er å over­sette testen ord for ord og så normere den på nytt, men dette er ofte ikke bra nok for­di forskjeller i nyanser kan gi store utslag selv i en samvit­tighets­fullt utført over­set­telse. Ideelt sett kan man beholde den teo­retiske mod­ellen som en test er basert på, men testen som sådan må lages på nytt.

Validitet

Det er ikke uten videre gitt at en test måler det den skal måle (særig ikke etter at den er over­satt fra et annet språk). En tommestokk måler lengde opp­til etpar meter, men den er ikke god til å måle hvor gam­mel noen er – det er en kor­re­lasjon mel­lom alder og høyde, men den er lav og den går mot 0 når alderen er over ca. 16 eller høy­den er over ca. 1½ meter.

En test valid­eres for å vise eller forbedre

  • intern kon­sis­tens i spørsmå­lene (intern validitet)
  • sam­men­hen­gen mel­lom spørsmå­lene og vari­ab­lene som skal måles (ekstern validitet)
  • om testen forut­si­er det den er ment å for­tusi (kri­terieva­liditet)

Validitet er ikke noe enkelt begrep. Det omfat­ter forskjel­lige tilnær­minger og metoder som er nok­så unike for denne type test­ing. Det er få tall som kan gies som resul­tat av en valid­er­ing, men tall som bør oppgis er

Chron­bachs alfa som er et tall mel­lom 0 og 1. Det bør være over 0.8. Det vis­er i hvor stor grad spørsmål som er ment å måle samme begrep, fak­tisk gjør det.

Predik­tiv validitet som oppgis som et tall mel­lom 0 og 1. Det bør være over 0.8, eller i hvert fall ikke stort lavere. Det vis­er hvor nøyak­tig testen måler det den skal forut­si.

Kri­terieva­liditet som også oppgis som et tall mel­lom 0 og 1. Det uttrykker forhold­et mel­lom hvilket resul­tat testen gir og hva den skal måle. Kri­terieva­liditet kan være et tvil­somt begrep for­di det ikke alltid er mulig å måle kri­teri­et nøyak­tig. I noen sam­men­henger (men ikke alle) kan man reg­ne ut rimelig nøyak­tig hvor sikker man kan være på at man har et godt mål på kri­teri­et. I andre til­feller er det ikke noen tvil.

Per­son­lighetsmåling og per­son­lighetsmod­el­ler­ing er svært vanske­lig å sette seg inn i. Hele faget hvil­er på sta­tis­tiske analyser av empiriske obser­vasjon­er. Selv om matem­atikken som lig­ger bak van­ligvis er forholdsvis enkel krev­er meto­dene ofte et uvant tanke­sett.

Om gyldighet og ugyldighet i personlighetstesting, ved DALL-E 3
Om gyldighet og ugyldighet i per­son­lighet­stest­ing