måndag 12 februari 2018

Meningsutbyte med Bo Rothstein om matematisk modellering

Bo Rothstein är med varje rimligt mått mätt en av Sveriges mest framstående statsvetare, och på tidningarnas debattsidor utgör han en frisk fläkt. Ibland går han dock en smula överstyr i sin argumentation, som i gårdagens artikel på DN Debatt, rubricerad Felaktig tolkning av metoo riskerar att skada tilliten. Det finns mycket att diskutera och kritisera i den artikeln, men här skall jag uppehålla mig vid en enda detalj, nämligen följande passage:
    [På] min egen arbetsplats, Göteborgs universitet, [utförs] ett antal undersökningar [...] där de tillfrågade fått svara på frågan om de under det senaste året utsatts för sexuella trakasserier. Resultatet är att cirka 2 procent av kvinnorna uppger att de blivit utsatta (och ungefär 1 procent av männen).

    Det är statistiskt inte helt enkelt att översätta dessa två procent per år till längre tidsperioder, men om man utgår från en anställningstid om 20 år är en någotsånär rimlig uppskattning att femton procent av de anställda kvinnorna blivit utsatta för vad de själva uppfattar vara sexuella trakasserier någon gång under en tjugoårsperiod.

Dessa 15% synes mig gripna ur luften, något som föranledde mig att igår skriva en Facebookuppdatering med följande innehåll.
    En sak jag inte begriper med den här artikeln är detta: om man är kritisk mot metoo och tycker att ett huvudproblem är att det är tyst kring vetenskapliga resultat om hur vanligt förekommande sexuella trakasserier är, på vad sätt skulle det då förbättra situationen att en ledande statsvetarprofessor killgissar1 på DN Debatt att 15% av kvinnliga anställda vid Göteborgs universitet blivit utsatta för sexuella trakasserier under sistlidna 20-årsperiod?
Jag skrev dock detta med en lite obehaglig magkänsla av att jag själv faktiskt kunde tänkas ha bidragit (om än helt oavsiktligt) till den av Rothstein anförda procentsiffran. Den 27 november förra året tog jag nämligen del av en Facebookuppdatering från samme Rothstein, där han frågade huruvida en årlig trakasserisannolikhet om 1,6% (en sifferuppgift som härrör från samma undersökning vid Göteborgs universitet men som avser en poolning av grupperna män och kvinnor) kunde översättas till en 32%-ig sannolikhet att bli trakasserad någon gång under en 20-årsperiod. Jag svarade nej, och Rothstein bad mig utveckla, varvid jag utvecklade:
    Det första du skall tänka på är huruvida du har tillräcklig information för att besvara din fråga. Det har du inte här, för sannolikheten att trakasseras inom loppet av en tjugoårsperiod beror inte bara på den årliga sannolikheten, utan också på beroendestrukturen mellan att trakasseras ett år och ett annat år. Givet att den årliga siffran är rätt kan, beroende på denna beroendestruktur, tjugoårssannolikheten landa var som helst mellan 1,6% och 32%. För att få fram en exaktare siffra krävs modellantaganden. Tre exempel:

    (1) Om trakasseri ett år immuniserar en person mot trakasseri alla kommande år (ett fullständigt orimligt antagande), så att det varje år uteslutande är nya personer som syns i statistiken, så fungerar din kalkyl, och svaret blir 32%.

    (2) Om det ständigt är exakt samma personer som trakasseras (ett lika orimligt antagande) så att inga nya kommer in i statisktiken under ett nytt år, så blir svaret 1,6%.

    (3) Om statistiskt oberoende gäller mellan att en person blir trakasserad ett år och nästa (ett måhända aningen mindre orimligt antagande, men fortfarande orimligt), dvs noll korrelation, så fungerar den Lindbomska kalkylen1 nedan, och svaret blir 27,6%.

    Många alternativa modellantaganden är möjliga. Så vad är sanningen? I slutändan är det en empirisk fråga. Intill dess vi kan besvara den gissar jag (tentativt) att positiv men inte fullständig korrelation föreligger mellan trakasseri mot en och samma person ett år och ett annat, så att det rätta svaret i så fall hamnar någonstans mellan (2) och (3).

Min obehagliga magkänsla besannades för någon timme sedan, då Rothstein kommenterade på Facebook med följande ord.
    Modellantaganden har jag fått från Olle Häggström själv [se ovan] när jag får några månader sedan frågade honom hur man skulle resonera om detta. Som ni kan se [...] är hans egen "gissning" att man hamnar någonstans mellan 1,6% och 27,6. Och då blir det väl som jag skrev, runt 15%.

    [...]

    Kan tillägga att jag inte är förtjust i att bli förolämpad ("killgissning"). Jag är inte statistiker men har gjort så gott jag kunnat i detta genom att tillfråga en av landets främsta matematiska statistiker. Har jag gjort fel så vi jag naturligtvis rätta till det men tonen i många av dessa kommentarer ger mig avsmak

Mitt svar till honom:
    Det här var inte helt bra, Bo. Om du faktiskt på allvar tolkar något av det jag skrev på din FB den 27 november som stöd för din siffra 15% så ber jag härmed att å det bestämdaste få dementera detta.

    Att "tillfråga en av landets främsta matematiska statistiker" är naturligtvis en god idé i sådana här sammanhang, men det hade varit en ännu bättre idé om du hade fullföljt den strategin lite ihärdigare innan du vände dig till DN Debatt. Du hade exempelvis kunnat fråga mig (a) huruvida medelvärdet mellan två ytterlighetspunkter automatiskt ger en rimlig uppskattning, och (b) huruvida kvantifieringarna "någonstans mellan 1,6% och 27,6%" och "runt 15%" är att betrakta som synonyma. Mitt svar hade blivit ett kraftfullt nej på båda frågorna.

Rothstein valde då att insistera på att det jag skrivit utgjorde stöd för hans 15%:
    Olle, tråkigt att du inte vågar stå för vad du faktiskt skrev, eller åtminstone erkänna att du uttryckt dig på ett sätt som gjort min tolkning helt av vad du skrev rimlig. Igen, du avslutar med följande
      Så vad är sanningen? I slutändan är det en empirisk fråga. Intill dess vi kan besvara den gissar jag (tentativt) att positiv men inte fullständig korrelation föreligger mellan trakasseri mot en och samma person ett år och ett annat, så att det rätta svaret i så fall hamnar någonstans mellan (2) och (3).
    Modell 2 var 1,6 procent, modell var 27, 6 procent. "Mellan" måste enligt svenskt språkbruk ses som en mittpunkt, och då hamnar man något under 15%.
Mitt korta svar på det:
    Jag står för det jag skrev, Bo. Och är ärligt talat lite chockad över hur du valt att vantolka detta.

Där tog dessvärre diskussionen slut, i och med att Rothstein, tydligen en smula förnärmad, valde att trycka på Facebooks avfriendningsknapp.

Fotnoter

1) I (den ganska omfattande) kommentarstråden fick jag viss berättigad kritik för ordvalet "killgissar" (inte bara från Rothstein). Ordet anbefalles visserligen av statliga Institutet för språk och folkminnen som ett av 2017 års nyord, men är likväl inte särskilt lyckat.

2) Nämligen uträkningen 1 - (1-0,016)20 = 0,276.

23 kommentarer:

  1. Du kunde ha varit mycket mindre dryg.

    SvaraRadera
  2. Jag läste Bo Rothsteins artikel i DN. Jag erkänner att jag, utan att reflektera, tog hans procentangivelse ad notam. Eftertanken kom först sedan jag nu läst Olles blogginlägg.

    SvaraRadera
  3. Jag tycker inte Olle var dryg här, snarare mycket återhållsam. En fullt berättigad reaktion på Rothsteins statistiska resonemang vore t.ex. 😨😨😨😂😂😂😱😱😱🤡.

    SvaraRadera
  4. Det här är ju väldigt spännande tycker jag. Med beräkningarna alltså. Som jag förstått dina exempel i texten utgår de från någon slags idé om att orsaken till trakasserier och gruppen "förövare" och "offer" är någorlunda konstanta. Men så är det ju inte i verkligheten.

    Om man tänker såhär då; att det för varje låt säga femårsperiod så har omsättningen av personal/studenter förändrats på det sättet att hälften är "gamla" och hälften "nya" i organisationen. Vilket iaf på student- och doktorandsidan inte är helt orimligt...
    Och att det dessutom inom varje låt säga tvåårsperiod har skett sådana förändringar att anledningen (i brist på bättre ord) till trakasserier "utvidgats" så att det inte är samma typ av "kriterier" längre för att bli trakasserad. T ex att målgruppen utökats från glappkäftiga tjejer till blyga tjejer eller från den stora gruppen "biologiska tjejer" till att innefatta "biologiska tjejer och alla som deifnierar sig som tjejer"... hur påverkar de förändringarna de matematiska beräkningarna? Jag är allvarlig, även om tonen kan uppfattas som något ironisk.

    SvaraRadera
  5. Dryg eller inte, alla debatter mår bättre om skippar ord som väcker agg och irritation. Tyvärr tycks allt internetdebatt dra mer och mer åt det jobbiga hållet.

    SvaraRadera
  6. Intressant diskussion, men spelar den statistiska diskussionen egentligen så stor roll? Om populationsstorleken är N, och 0.016 N trakasseras varje år, så kommer 0.32 N trakasserier att inträffa under 20 år (minst). Vad ni diskuterar är om det är samma individer eller olika som blir offer. Är det viktigt i sammanhanget?

    SvaraRadera
    Svar
    1. Det här helt klart en berättigad fråga!

      Radera
  7. Bos förståelse av begreppet ”någonstans mellan” är ju något alldeles hårresande åt skogen

    SvaraRadera
    Svar
    1. Jag tror att många som forskar inom olika ämnesområden missförstår hur man ska använda statistik och sannolikhetsteori. Hur kan man annars så ofta nås av nästan motsatta ”forskningsrön” med bara en knapp veckas mellanrum?

      Man ska inte dricka för mycket te, eftersom det kan vara farligt. Men å andra sidan ska man dricka mycket te, eftersom det kan förlänga livet. För några dagar sedan sades det i media att rågbröd kan vara farligt, men å andra sidan är rågbröd nyttigt. Ibland hör man personer som refererar till ”forskningen” som hävdar att det är hälsofrämjande med ett glas rödvin per dag. Att det säkert även finns motsatt uppfattning bland forskare brukar man i så fall inte vilja höra, trots att just sådana rön antagligen dominerar.

      Jag tror förstås inte att några forskare avser att ljuga. (Några undantag finns förstås, med hänvisning till vad som hänt på KI.) Problemet är nog istället det att grundkurser i statistik och sannolikhetsteori mest består av formler utan någon härledning. Man får bara lära sig använda formlerna varvid förståelsen ofta uteblir. Men att tvinga på dem som studerar andra ämnen än matematik och statistik en gedigen kurs i statistik och sannolikhetsteori skulle nog inte bli uppskattat. Dessutom finns inte motsvarande tid till förfogande. Alltså är det lätt gjort att genvägar blir utnyttjade med missförstånd som följd.

      Radera
  8. Förstår inte kritiken mot ordvalet "killgissar". Dett var ju snarast ett skolboksexempel på företeelsen.

    SvaraRadera
    Svar
    1. Det olämpliga är inte den aktuella tillämpningen av ordet, som förvisso var spot on, utan bruket av ord som på ett svepande sätt tillskriver en mångfacetterad kategori människor en dålig egenskap.

      Radera
  9. Jo ordet killgissning hör nog hemma på samma verbala soptipp som kärringsnack, lilla gumman (riktad mot någon som inte är en liten gumma typ min katt eller en fyraårig flicka

    Med detta sagt kanske mer pedagogik varit att föredra. Jag erkänner mig gärna vara i samma fårskalleklass som Bo Rothstein. Vi har alltså två ytterlighetsvärden som bägge bygger på orimliga premisser. Men orimligheten inträdes väl inte när man hamnar på prick 1,6 procent.om det faktiska värde är 2 procent så är väl den orimliga premissen om inte sann så i vilket fall mycket nära sanningen. Och det låter ju osanolikt.

    Detta borde väl då ge oss en fallande grad av osannolikhet när vi går från värdet 1,6 procent. Detsamma borde gälla från värdet 27,5 procent.

    Så varför blir det fel om man säger att det korrekta värdet förmodligen hamnar i intervallet 9-20 procent.

    SvaraRadera
    Svar
    1. Det finns inte mycket att ta på i detta luddiga resonemang. Att det modellantagande (2) som leder till svaret 1,6% är orimligt implicerar på intet vis att det inte skulle kunna finnas andra och betydligt mer rimliga antaganden som leder till svaret 2%. Om du vill hävda att "det korrekta värdet förmodligen hamnar i intervallet 9-20 procent" behöver du ge någorlunda övertygande argument för en korrelationsstruktur (rörande trakasserier av en och samma individ olika år) som leder till den slutsatsen.

      Radera
    2. Tack för svar men jag hänger inte riktigt med- Värdet 1,6 byggde ju på total korrelation. Det vill säga det är alltid samma individer som traksseras under varje år- Ett antagande som vi på förnuftsmässiga grunder avvisat som orimligt. Men bygger då inte svaret 2 procent på att ditt modellantagande är nästintill perfekt. Siffran 2 procent innebär ju att att det i stort sett men inte alltid är samma personer som trakasseras från år till år.

      Radera
    3. Eller annorlunda uttryckt skulledet betydligt mer rimliga antagande som landar i slutsatsen 2 % låta.

      Radera
    4. Det jag frågar efter är ju faktiskt en siffra. siffran 1,6 motsvara alltså en korrelation på 1 vilken korrelation skulle då ge oss 2 procent.

      Radera
    5. Anonym 20:35. Jag tror mig inte veta vad som är den verkliga korrelationsstrukturen, och jag är överhuvudtaget inte någon expert på sexuella trakasseriers sociologi. Det står dig givetvis fritt att spekulera kring möjliga korrelationer, men bättre än att fastna i teoretiska spekulationer vore ju att ge sig ut och faktiskt ta reda på hur det ligger till. Jag ser inga oöverstigliga hinder mot att avgöra denna fråga empiriskt.

      Anonym 23:56. Det finns inget unikt svar på din fråga, då det ju finns många olika (i själva verket oändligt många) korrelations- och beroendestrukturer som landar i samma 2%.

      Radera
    6. En mycket förenklad modell vore att sannolikheten att drabbas reduceras med en faktor k varje år man inte drabbats förut, sannolikheten att någon gång utsättas under 20 år blir då en synnerligen icke-linjär funktion av k och Rothsteins "medelvärde" på 15% motsvarar ett k omkring 92%, dvs inte långt ifrån den ovan avvisade situationen med fullkomligt oberoende. (2% motsvarar däremot ett k omkring 20%.)

      Detta bara som ett exempel på hur tokfel hans resonemang är.

      Radera
    7. Ett fånigt exempel för att visa poängen att sanningen mycket väl kan ligga nära ändppunkten i ett intervall: Föräldrarna till mellan 99% och 9999% av nu levande människor har varit människor. Detta är sant, eftersom den riktiga siffran är 100%.

      Radera
    8. Mycket fåningt då det inte ens är ett teoretiskt möjligt intervall.

      Radera
    9. Njaej Albert det finns ju trots allt betydligt fler och ävern mer sannolika modeller som ger 15 procent.

      Radera
    10. Albert glöm min kommentar om 0,92. Men nu är inte 0,92 så där väldigt osannolikt. Väre för honom är då att att 2 % gavs av 0,2.

      Vilka värden ger 10 och 20 procent.

      Radera
  10. Jag är faktiskt ärligt nyfiken över varför resonemanget ovan är fel.Kan någon förklara.

    SvaraRadera