Om gyldighet og ugyldighet i personlighetstesting - Grendel evidensbasert psykologi AS

Personlighetstester blir brukt i stadig flere sammenhenger. Reaksjonene på bruk av slike tester ser ut til å ha en tendens til å variere mellom blank avvisning og ukritisk godtagelse. Det er naturligvis fornuftig å være like skeptisk til personlighetstesting som alt annet. I denne artikkelen kommer jeg ikke desto mindre kommer til å argumentere for at det faktisk finnes gode personlighetstester, og at det finnes anvendelsesmåter av disse som kan komme både den som tar testene og de som gir testene til gode. Skeptikeren er kanskje mer interessert i følgende problemstillinger, som jeg kommer til å belyse i det følgende:

Hvordan kan man skjelne mellom gode og dårlige personlighetstester?
Finnes det holdbare, grunnleggende teorier om personlighetsmål?

Bakgrunn: Er det personen eller situasjonen som bestemmer en handling?

Psykologen som vitenskap har lenge befattet seg med måling av menneskelige egenskaper. Denne grenen av psykologien, som befatter seg med målbare forskjeller mellom mennesker kalles differensialpsykologi når den dreier seg om teorier, og psykometri når den dreier seg om metoder. Fra ca. århundreskiftet og fram til ca. 2. verdenskrig var det faktisk nesten utelukkende måling og evaluering av mennesker som amerikanske psykologer drev med – terapi var stort sett overlatt til psykiatrene.

Det ikke slik at formålet med den forskningen som foregikk var å lage personlighetstester. Formålet var å lage teorier om personlighet, og personlighetstester ble utviklet for å teste disse teoriene. Det var dette som viste seg å være så vanskelig. Til tross for at f.eks. astrologene hevder å kunne dele opp menneskeheten i 12 stjernetegn med bestemte karaktertrekk, lyktes det ikke psykologene å finne mål på personlighet som kunne fanges i tester. Korrelasjoner mellom testscore og testkriterier var sjelden over 0.3, noe som er altfor lite til å konkludere med at det finnes noen kjernepersonlighet som er konstant fra situasjon til situasjon.

Poenget med å måle personlighet er å kunne forutsi noe om hvordan mennesker vil reagere under gitte forutsetninger, dvs. å kunne spå om framtida. Dette har vist seg uhyre vanskelig. Faktisk var det gjengs oppfatning blant psykologer fram til begynnelsen av 80-tallet at menneskelig adferd var så kompleks at den ikke lot seg måle. Årsaken ble antatt å være at det ikke finnes noen kjernepersonlighet – det var situasjonen, ikke individet, som avgjorde hvordan individet skulle reagere. «Personlighet» er en illusjon som skyldes menneskers trang til å «se» flere sammenhenger og mer konsistens enn det faktisk finnes i verden. Siden det er situasjonen, ikke personen, som avgjør hvordan vi handler, er det ikke mulig å lage personlighetstester.

Men kjenner vi ikke igjen mennesker fra situasjon til situasjon? «Ole er seg selv lik,» sier vi, og med det mener vi at vi synes Ole har en distinkt oppførsel som skiller ham fra andre mennesker og som gjør ham til Ole. «Nei,» sa psykologene – «du synes du kjenner igjen Ole fordi du bare kjenner ham i et bestemt miljø – arbeid, forening, eller andre aktiviteter. Hadde du truffet ham i flere sammenhenger hadde du sett at han ville være en forskjellig person i hver sammenheng du kjente ham i.» Det er til en viss grad sant – i forskjellige miljøer finnes det forskjellige strenger å spille på. Vi er ikke fullstendig upåvirket av miljøet. Det er antagelig også riktig at vi «ser» mer konsistens enn hva som faktisk er tilfelle, hva angår både andre menneskers oppførsel og andre ting i livet.

Gjennombruddet

På begynnelsen av 80-tallet ble det blåst nytt liv i personlighetsforsking – og dermed også i personlighetstesting – fordi to teoretiske gjennombrudd, fra hver sin kant, viste at det faktisk er mulig å beskrive personlighet på en slik måte at det er mulig å komme med gyldige forutsigelser om individers adferd.

Statistisk aggregering

Tidligere tiders personlighetsforsking hadde begått en gjennomført feil: å forsøke å forutsi enkelhendelser. Tenk deg at vi skulle lage en personlighetstest som gikk ut på å måle tilbøyelighet til å servere pizza. Hvis Ola skulle slå ut på denne testen, skulle Ola forventes å servere pizza neste gang han hadde gjester. Men det går an å gå lei av pizza, å mangle noen av ingrediensene som skal til, eller å ha lyst til å lage noe annet. Pizzaserveringsindeksen var altså basert på en illusjon om smak: det er ikke mulig å måle tilbøyelighet til å servere pizza.

Joda, viste det seg – det er ikke mulig å predikere hvorvidt Ola vil eller ikke vil servere pizza neste gang han har gjester, men det er mulig å vise om han vil servere pizza oftere enn gjennomsnittet av nordmenn når han har gjester. Det er altså ikke mulig å forutsi enkeltadferd, men det er mulig å forutsiadferdsmønstre, og det er vanligvis det vi er interessert i. Et slag tennis blir ikke avgjort etter første serve, fotballkampen varer lengre enn noen få pasninger. Selv om man er best er det mulig å komme opp i uheldige situasjoner, det som er viktig i idrettsammenheng er å få vist at man klarer å være dyktig over tid. I alle andre sammenhenger er det slik at situasjonen av og til overstyrer personligheten – men i mange sammenhenger vil man se et konsistent mønster bare man måler mange nok ganger.

Det har vist seg at flere avgjørende forskningsrapporter som konkluderte med at mennesker ikke er konsistente, hadde vist det motsatte dersom de innsamlede dataene hadde vært aggregerte. Det er i grunnen rart at det tok så lang tid å oppdage dette.

Leksikalsk analyse og De fem store

Til tross for manglende evne til å forutsi adferd med noe synderlig hell, ble det likevel laget hypoteser og teorier om personlighet. Gordon Allport og Raymond Cattell gikk en annen vei enn den rent empiriske – i steden for å predikere adferd, prøvde Allport, og senere Cattell på bakgrunn av Allports studier – å finne om det er mulig å redusere de adjektivene vi bruker for å beskrive menneskelig adferd ned i synonymer. Allport tok utgangspunk i 18000 adjektiver som ble delt opp etter bruksmåter, slik at det ble mulig å se et mønster i hvordan mennesker beskriver hverandre. Cattell analysert de personlighetstrekkbeskrivende adjektivene for egnethet, og endte opp med ca. 4000 adjektiver som mennesker i testgrupper skulle bruke for å beskrive mennesker som de kjente. Han brukte faktoranalyse på dataene, dvs. at han brukte en teoretisk formel for å vise hvilke adjektiver som opptrådde sammen og dermed kunne sies å være mer eller mindre synonyme. Dette skjedde på 1930- og 40-tallet, og krevde enorm datakraft etter datidas teknologi.

Cattell fant 16 personlighetstrekk, og mente dermed å kunne si at mennesker beskriver hverandre etter seksten forskjellige grupper av karakteristikker – men ikke et ord om hvor disse karakteristikkene kom fra eller om de var konsistente. På bakgrunn av dette resultatet lanserte han den etter hvert klassiske personlighetstesten Cattells 16PF, som fortsatt blir brukt i mange land, inkludert Norge. Cattell var kanskje først ute, men seinere forsking har reist tvil om resultatene hans. Det viser seg i hvert fall, vil mange hevde, at dataene hans ikke ga grunnlag for mer enn fem trekk. John Norman fant også fem trekk i 1961, men lot være å gå videre med resultatene fordi han ble overbevist om at trekkene ikke var stabile og derfor ikke kunne brukes til stort.

I 1981 ble fire forskere enige om at dersom man så på den litteraturen som fantes, kan man redusere trekkbeskrivende adjektiver til fem grupper. I den følgende tabellen har jeg gjengitt hva hver at disse gruppene vanligvis kalles på norsk og engelsk. Det er vanskelig å bli helt enig om hva disse gruppene faktiskbeskriver, så det er ikke fullstendig samsvar mellom de ordene som brukes på norsk og de ordene som brukes på engelsk. Enkelte betydningsfulle forskere bruker andre navn enn de jeg har brukt her.

Styrke	Extraversion
Varme	Agreeableness
Kontroll	Conscientiousness
Følelsemessig Stabilitet	Emotional Stability
Åpenhet	Openness to Ideas

Ikke desto mindre: Personlighetstester som måler normal personlighet, dvs. slike som brukes i næringslivet og i andre sammenhenger for å måle egnethet til arbeid eller samarbeid, måler et eller flere av disse trekkene. Den kanskje mest kjente personlighetstesten, MBTI, antas å måle fire av disse trekkene (det utelatte trekket er følelsesmessig stabilitet) (Costa & McCrae, 1989).

De fem trekkene beskriver, kort fortalt:

Styrke omfatter slike trekk som søken ut i verden, energiskhet, taletrengthet, alt som har med å gjøre seg bemerket. Mennesker som har høyt utslag på denne faktoren blir gjerne oppfattet som utadvendte, mens de som har lavt utslag gjerne blir oppfattet som innadvendte, selv om det er litt misvisende. Mennesker som scorer høyt på styrke forsøker å sette seg ambisiøse mål og å gjennomføre dem, og scorer gjennomsnittlig litt høyere på IQ-tester enn de som har lav score. De snakker først i forsamlinger og brenner ikke inne med idéene sine. Mennesker som scorer lavt på styrke bruker gjerne lenger tid på å forberede svarene sine, og kan som resultat av dette av og til levere bedre resultater enn de som scorer høyt.

Varme omfatter slike trekk som sosial omsorg og empati, men også tilbøyelighet til å være godtroende. Varme mennesker har lettere enn andre for å la seg distrahere av at det er andre mennesker til stede. Mennesker som scorer høyt på varme er gode å ha i alle sammenhenger hvor det er viktig å ta vare på mennesker og menneskelige relasjoner – de kan bl.a. fungere som katalysaterer for fastlåste diskusjoner i arbeidssammenheng. Mennesker som scorer lavt på varme har lettere for å ta og gjennomføre upopulære avgjørelser og er ofte sta, på godt og vondt. Mennesker som scorer høyt på varme har større tilbøyelighet enn andre til å overdrive effekten av behandling.

Emosjonell intelligens som vi har hørt så mye om i det siste er antagelig en kombinasjon av styrke og varme. Leary (1957) samt Moxnes og Engvik (1973/1974) viste at mennesker som scorer høyt på begge deler har god selvinnsikt og blir sett på som sympatiske.

Kontroll omfatter slike trekk som ryddighet og pålitelighet. Mennesker som scorer høyt på denne faktoren er slike som blir ferdige med ting. Sammen med IQ er dette den faktoren som best predikerer kvalitet i arbeidsutførelse. Mennesker som scorer høyt på kontroll kan ha en tendens til konformitet, men de får ting gjort. Mennesker som scorer lavt på kontroll er ofte uortodokse og kreative.

Følelsesmessig stabilitet omfatter slike trekk som engstelse og forsiktighet. Mennesker som scorer høyt på følelsesmessig stabilitet har «is i magen», og kan holde hodet kaldt til glede for seg selv og til nytte for andre, og tør å ta sjanser. Mennesker som scorer lavt på følelsesmessig stabilitet er engstelige, nervøse og forsiktige, og er gode å ha i enhver sammenheng hvor man ikke får vært nøye nok.

Åpenhet for ideer omfatter slike trekk som intellekt, åpenhet og toleranse. Mennesker som har høy score på åpenhet for ideer fremstår som oppfinnsomme, kultiverte og fleksible. Det er gjerne de som er teoretikerne i arbeidssammenheng. Mennesker som scorer lavt på åpenhet for ideer er gjerne praktisk anlagt, og spør etter praktisk nytte. Når det oppstår konflikter i arbeidslivet, og disse har utgangspunkt i forskjeller i perosnlighet, er det gjerne denne faktoren som skiller de stridende parter. Det er antagelig også denne faktoren det er viktigst at mennesker i et parforhold scorer likt på.

Disse fem faktorene har fått tilnavnet De fem store (The Big Five) fordi de antas å omfatte fem store personlighetstrekk-kategorier som tilsammen dekker mesteparten av det som trengs for å beskrive en person.

Testkvalitet – hvordan kan man skjelne en god test fra en dårlig test?

Det er altså slik at det finnes i alle fall én modell for personlighet som er empirisk og teoretisk validert, og som er mulig å bruke som utgangspunkt for personlighetstester. At jeg har nevnt den her skyldes først og fremst at det stort sett er denne modellen som blir brukt innen moderne personlighetsforsking, men også for å gi et enkelt eksempel på en modell for personlighet.

Relevans

Det finnes heller ingen fasitsvar for personlighetstester, annet enn at i de fleste sammenhenger bør kontroll være høy. Det er ikke slik at alle gode tester må forholde seg til de fem store – i enkelte sammenhenger er det bare deler av de fem store som gir interessant informasjon om hvordan en arbeidssøler vil passe til oppgaven vedkommende skal gjøre. Det er lett – i alle fall i teorien – å lage en personlighetstest, det er mye vanskeligere å lage en arbeidsprosessanalyse som viser hvilken profil eller hvilke profiler som er ønskelig. Det finnes ingen fasit for hvordan dette skal gjøres, annet enn at i en arbeidsgruppe er det en fordel om så mange profiler som mulig er representert. Forskjellige teoretikere, f.eks. Belbin (1992), har tanker om hvordan disse forskjellene bør være.

Normering

Det er ikke slik (som mange tror) at det blir antatt at det finnes prototypiske eksempler på personligheter, og at man kan lage tester som viser disse. I steden bruker man en prosess som kalles normering, som kort fortalt går ut på at testen blir prøvet ut på en gruppe vilkårlig valgte mennesker, og ser hvordan svarene fordeler seg hos dem. Så blir svarfordelingen fra denne gruppen normalisert, slik at fordelingen får en bestemt median og et bestemt standardavvik. Når noen seinere tar testen viser altså resultatet hvor man står i forhold til testgruppa.

Dette betyr at personlighetstester må normeres på nytt når de blir oversatt til et nytt språk. Den «billige» måten er å oversette testen ord for ord og så normere den på nytt, men dette er ofte ikke bra nok fordi forskjeller i nyanser kan gi store utslag selv i en samvittighetsfullt utført oversettelse. Ideelt sett kan man beholde den teoretiske modellen som en test er basert på, men testen som sådan må lages på nytt.

Validitet

Det er ikke uten videre gitt at en test måler det den skal måle (særig ikke etter at den er oversatt fra et annet språk). En tommestokk måler lengde opptil etpar meter, men den er ikke god til å måle hvor gammel noen er – det er en korrelasjon mellom alder og høyde, men den er lav og den går mot 0 når alderen er over ca. 16 eller høyden er over ca. 1½ meter.

En test valideres for å vise eller forbedre

intern konsistens i spørsmålene (intern validitet)
sammenhengen mellom spørsmålene og variablene som skal måles (ekstern validitet)
om testen forutsier det den er ment å fortusi (kriterievaliditet)

Validitet er ikke noe enkelt begrep. Det omfatter forskjellige tilnærminger og metoder som er nokså unike for denne type testing. Det er få tall som kan gies som resultat av en validering, men tall som bør oppgis er

Chronbachs alfa som er et tall mellom 0 og 1. Det bør være over 0.8. Det viser i hvor stor grad spørsmål som er ment å måle samme begrep, faktisk gjør det.

Prediktiv validitet som oppgis som et tall mellom 0 og 1. Det bør være over 0.8, eller i hvert fall ikke stort lavere. Det viser hvor nøyaktig testen måler det den skal forutsi.

Kriterievaliditet som også oppgis som et tall mellom 0 og 1. Det uttrykker forholdet mellom hvilket resultat testen gir og hva den skal måle. Kriterievaliditet kan være et tvilsomt begrep fordi det ikke alltid er mulig å måle kriteriet nøyaktig. I noen sammenhenger (men ikke alle) kan man regne ut rimelig nøyaktig hvor sikker man kan være på at man har et godt mål på kriteriet. I andre tilfeller er det ikke noen tvil.

Personlighetsmåling og personlighetsmodellering er svært vanskelig å sette seg inn i. Hele faget hviler på statistiske analyser av empiriske observasjoner. Selv om matematikken som ligger bak vanligvis er forholdsvis enkel krever metodene ofte et uvant tankesett.