Tuesday, July 22, 2014

Är blattar bättre än svennar på yatzy? Statistikexperiment för sverigedemokrater och andra.

En illustration publicerad av SDU (Sverigedemokratisk ungdom) den 15 juli visar de mest överrepresenterade namnen bland svenska fängelsedömda. Listan toppas av Tomasz följt av Zoran, Marek, Marko, Krzysztof, Igor, Pawel och så vidare.

Jag får en känsla av att vi är överens, jag och redaktionen på SDU, om att det här är vad man hade väntat sig. Men att vi har lite olika uppfattningar om varför listans utseende är som förväntat.

Att runt 95% av internerna är män är ingen hemlighet, och det är nog inte det som är tänkt att vara poängen. Något som tycks vara centralt för SDU är i stället överrepresentationen av invandrare bland fängelsedömda.

Går man till kriminalvårdens webbplats hittar man statistik av vilken det framgår att runt en tredjedel av fängelseinternerna i Sverige är utländska medborgare (jämfört med cirka 7% av hela befolkningen). Någon motsvarande statistik för utomlands födda verkar inte finnas, men det är hur som helst klart att utländsk härkomst är en av de saker som korrelerar med att bli dömd för brott. Liksom en rad andra parametrar som ålder, kön, inkomst, bostad, utbildningsnivå osv.

Vad SDU har tänkt göra för att grupper som exempelvis män ska integreras bättre i samhället framgår inte på deras webbsidor. I stället verkar det vara viktigt att ge en bild av att det främst är polacker, araber och romer som begår brott i Sverige. Eventuellt någon finne.

Facebooksidan Slutpixlat publicerade snabbt ett svar med en illustration av vilka namn som i själva verket dominerar på de svenska fängelserna. Den visar inte “överrepresentation”, utan absoluta tal, och då heter internerna i stället Johansson, Andersson, Mikael och Peter. Så vilken bild är den sanna?

Dags för lite vetenskaplighet. Det framgår inte vilken metod redaktionen på SDU har använt för att få fram sin topplista, men det ligger nära till hands att titta på förhållandet mellan antalet personer som har ett visst namn och antalet domar mot personer med detta namn. Troligen har man sorterat bort alltför ovanliga namn, då topplistan i annat fall skulle ha dominerats av namn som bara en handfull personer har, och där det räcker att en person döms ett par gånger för att “överrepresentationen” ska bli enorm.

En del av det som ibland kallas för ett "vetenskapligt förhållningssätt" är idén att formulera en så kallad nollhypotes, och försöka förstå hur världen skulle se ut om den vore sann. I det här fallet skulle en nollhypotes bestå i att det inte fanns någon korrelation alls mellan namn och fängelsedomar.

För att undersöka hur det då skulle bli, klickade jag fram statistik över de 1000 vanligaste mansnamnen i Sverige. Kanske borde jag ha tagit med både kvinno- och mansnamn, men jag ville fokusera på det här med “svenska” kontra “utländska” namn och få en tydlig jämförelse med SDUs bild.

Listan börjar med Erik, 300974 personer, och nummer tusen är Isa, 562 personer. Summerar man blir det drygt 9 miljoner. Det borde vara runt hälften eftersom det bara är män, så det kan inte vara enbart tilltalsnamn. Å andra sidan finns även dubbelnamn (med och utan bindestreck) som Lars-Åke och “Lars Åke” med i listan. Men jag orkar inte reda ut exakt hur statistiken är gjord, min poäng ska nog framgå ändå.

Grovt räknat sitter en man på tusen i fängelse. För att få något som är helt slumpmässigt och i väldigt runda slängar lika vanligt, simulerar jag att var och en av drygt 9 miljoner personer med namn från listan kastar fem tärningar. Att få “yatzy” (samma utfall på alla fem) motsvarar att sitta i fängelse. Egentligen borde väl “kåk” motsvara kåken, men det är lite för vanligt. Sannolikheten att få yatzy är en på 1296, så av 300000 Erik till exempel, väntar vi oss att runt 230 ska få yatzy.Mitt datorprogram får sedan räkna ut andelen personer med yatzy för varje namn, och göra en topplista med de mest “överrepresenterade” namnen bland dem som fick yatzy, på samma sätt som SDU gjorde med fängelsestatistiken.

Resultat:

Dino 7.6595745
Enes 6.881416
Mostafa 5.12253
Sabah 5.102362
Janos 4.729927
Sylve 4.5633802
Taha 4.5553603
Maurits 4.3932204
Pavel 4.312812
Kay 4.263158
Abdallah 4.173913
Carl-Magnus 4.0
Mattis 3.9272726
Erich 3.891892
Jan Olof 3.595007
Ante 3.570248

Siffrorna visar “överrepresentationen”. Det betyder att bland dem som heter Dino var antalet yatzy 7.65 gånger det förväntade antalet. Det finns 846 Dino, så det förväntade antalet var 846/1296, ungefär 0.65. Den enorma överrepresentationen beror på att fem av dem råkade få yatzy den här gången. Mitt program skriver ut dem som har en överrepresentation på minst 3.5. Jag tyckte det blev en lagom lång lista då.

Det fina med simuleringar är att man kan köra dem hur många gånger man vill. Nästa gång blir det:

Raul 7.160221
Pavel 6.469218
Damir 6.0750003
Eduard 4.5876107
Francis 4.5526934
Matts 4.4786177
Jesus 4.4536085
Jozsef 4.263158
Ferenc 4.180645
Zoltan 4.0818896
Salman 3.981567
Bengt-Erik 3.97546
Stephen 3.888
Anas 3.84
Aulis 3.795022
Andy 3.7894738
Louis 3.7262795
Claus 3.6870553
Nikolaos 3.6765957
Jan Olof 3.595007

Jesus [xeˈsus] vilka namn, kommer de verkligen från Sverige? Och se upp med de här Pavel och Jan Olof, nu har de varit med två gånger!

Vi tar en till:

Carl-Henrik 4.896725
Zbigniew 4.8660827
Hanna 4.7184467
Taha 4.5553603
Ismet 4.5156794
Halvard 4.3932204
Dawid 4.305648
Walid 4.2306857
Abdallah 4.173913
Wiktor 4.1638556
Ryszard 4.133971
Adem 4.133971
Karl-Axel 4.101266
Anwar 4.037383
Constantin 3.9938369
Salman 3.981567
Janusz 3.9392097
Karl-Gustaf 3.9095023
Johann 3.8533201
Seyed 3.8155053
Aulis 3.795022
Alaa 3.7729259
Laszlo 3.7277086
Gillis 3.7155964
Nikolaos 3.6765957
Melwin 3.6277118
Ronald 3.570248
Jamal 3.5628865

Spela aldrig tärning med utlänningar och folk med dubbelnamn, de fuskar hela tiden!

Efter några körningar blir mönstret tydligt. Det är mycket "invandrarnamn", och här och där något dubbelnamn och någon ovanlig stavning. Varför blir det så? Varför har aldrig Anders, Johan och Mikael samma tur med tärningarna som Abdulrahman, Mateusz och Nils-Åke?

Det är ingen konspiration. Mitt datorprogram vet inte vilka namn som är "svenskklingande" och vilka som är "utländska", utan det som händer är att topplistan domineras av de ovanligare namnen. Namn som är ovanliga i Sverige uppfattas som utländska för att de är, tja, ovanliga i Sverige. Undantagen, de namn som är ganska ovanliga i Sverige och ännu ovanligare utomlands, är främst dubbelnamn och udda stavningar, och för all del ett och annat ålderdomligt namn.

Och varför kommer de ovanliga namnen högre upp? Får man oftare yatzy om man heter något konstigt? Nej det får man inte, men det blir större spridning i statistiken. För att ett namn med 500 eller 1000 bärare ska komma över min godtyckligt satta tröskel på 3.5 krävs bara att ett par-tre av dem råkar få yatzy. Lite sådär osannolikt, men inte extremt. Att däremot något av de 100 vanligaste namnen skulle komma med är praktiskt taget uteslutet. Nummer 100 på listan är Ola med 20778 bärare. Förväntade antalet Ola med yatzy är ungefär 16, så det är för det mesta 10-20 stycken. En liten uträkning visar att sannolikheten att Ola kommer över tröskeln på 3.5*16=56 är runt en på tusen biljoner.

Och Ola var nummer hundra. Att "Erik" skulle kvala in med 800 yatzy i stället för det normala 200-250 är så osannolikt att vi får börja tramsa om att varje partikel i det synliga universum är en dator som kör en miljard simuleringar i sekunden alltsedan Big Bang. Och det händer ändå inte en enda gång.

Så vad betyder det här? Är inte invandrare överrepresenterade i brottsstatistiken? Jo, förmodligen är de det. Men illustrationen på SDUs webbsida ger inget stöd för detta. I stället ser den ut ungefär som man hade väntat sig om det inom gruppen män inte fanns någon korrelation mellan namn och fängelsedomar!