måndag 25 februari 2013

Vad är samhällsvetenskap? Robin Hanson svarar

På den AI-konferens i Oxford i december jag tidigare rapporterat om hade jag nöjet att träffa Robin Hanson, som är nationalekonom vid George Mason University i USA och en av de vassaste och mest kreativa akademiska tänkare jag överhuvudtaget känner till. Han är totalt orädd vad gäller att tänka utanför boxen och leverera oväntade och provocerande perspektiv, som t.ex. hans förslag "Shall we vote on values, but bet on beliefs?" eller då han la fram fördelarna med med att legalisera utpressning.1 Till de mest klargörande begrepp jag tagit till mig på senare år hör Hansons Great Filter, som jag diskuterat här på bloggen. Hans egen blogg Overcoming Bias hör enligt min mening till bloggosfärens allra mest läsvärda.

Robin Hanson har lagt mycket kraft på att fundera över samhälleliga och ekonomiska konsekvenser av radikala framtida teknologier, inklusive Singulariteten. På mötet i Oxford gav han ett föredrag över ämnet Envisioning the economy and society of whole brain emulations, där han med nationalekonomiska metoder analyserar vissa sådana konsekvenser, och landar i ett framtidsscenario så dystopiskt att tanken svindlar och gör ont.2 Till dem som likt mig instinktivt ryggar tillbaka inför Hansons ekonomiska analyser av helhjärneemuleringsteknikens konsekvenser hör Nikola Danaylov (på nätet mest känd under signaturen Socrates). Med avstamp i ett utkast till Hansons kommande bok i ämnet har Danaylov spelat in två intervjuer med Hanson: Tillsammans upptar de två intervjuerna mer än två och en halv timme, men att lyssna till dem är ändå, enligt min mening, synnerligen väl använd tid. Det är två exceptionellt klartänkta herrar som båda gör sitt yttersta att tydligt men med ömsesidig respekt och intellektuell nyfikenhet artikulera den djupa meningsmotsättning som råder mellan dem. Kärnfrågan, som samtalet successivt rör sig in mot, handlar om vad samhällsvetenskapen egentligen är och vad den är kapabel till ifråga om prediktioner, samt om huruvida dikotomin deskriptivt-normativt går att upprätthålla. På sin blogg fyller Hanson på med en kort efteranalys, varur jag saxar:
    You might think that Danaylov’s complaint is that I use the wrong social science, one biased too far toward libertarian conclusions. But in fact his complaint seems to be mainly against the very idea of social science: an ability to predict social outcomes. He apparently argues that since 1) future social outcomes depend in many billions of individual choices, 2) ethical and political considerations are relevant to such choices, and 3) humans have free will to be influenced by such considerations in making their choices, that therefore 4) it should be impossible to predict future social outcomes at a rate better than random chance.

    For example, if allowing some [emulated minds to run on faster computers] than others might offend common ethical ideals of equality, it must be impossible to predict that this will actually happen. While one might be able to use physics to predict the future paths of bouncing billiard balls, as soon as a human will free will enters the picture making a choice where ethics is relevant, all must fade into an opaque cloud of possibilities; no predictions are possible.

    Now I haven’t viewed them, but I find it extremely hard to believe that out of 90 interviews on the future, Danaylov has always vigorously complained whenever anyone even implicitly suggested that they could any better than random chance in guessing future outcomes in any context influenced by a human choice where ethics or politics might have been relevant. I’m in fact pretty sure he must have nodded in agreement with many explicit forecasts. So why complain more about me then?

    It seems to me that the real complaint here is that I forecast that human choices will in fact result in outcomes that violate the ethical principles Danaylov holds dear. He objects much more to my predicting a future of more inequality than if I had predicted a future of more equality. That is, I’m guessing he mostly approves of idealistic, and disapproves of cynical, predictions. Social science must be impossible if it would predict non-idealistic outcomes, because, well, just because.

Fotnoter

1) Så till den milda grad provocerande är han, att en av mina kommentatorer här på bloggen för något år sedan funderade över om "en del av sådana personer [som Robin Hanson] skulle kunna ha räddats genom att den s.k. skeptikerrörelsen gett dem skarp konstruktiv kritik i början av deras kontrarian karriärer" - på vilket jag svarade (med ett par rejäla underdrifter) att det knappast "hade varit önskvärt att 'rädda' honom i början av hans karriär" och att det "vore olyckligt om han hade neutraliserats till att enbart leverera mainstream-tänkande".

2) Jag har i en tidigare bloggpost länkat till en videoupptagning av ett snarlikt Hanson-föredrag rubricerat Uploads economics 101.

torsdag 21 februari 2013

Den värsta farsot som härjar i vår svenska välfärd heter "New public management"

Nya numret av Axess (nr 1/2013) bjuder på ett läsvärt temablock om den svenska välfärden, dess folkhemska historia, och de problem den står inför idag, med intressanta texter av Lars Trägårdh, Thomas Gür, Maribel Morey och Henrik Berggren. Den sistnämnde har under många år varit ett ljus i halvdunklet på DN:s ledarredaktion och är författare till en underbar Palmebiografi. Det är hans text, med rubriken Fastna inte i ideologistrid, som jag här vill lyfta fram. Tidskriften Axess har valt att stympa sitt eget inflytande över idédebatten genom att gömma sina texter bakom en betalvägg, och jag gör dem allstå en tjänst då jag i det följande citerar långa stycken ur Berggrens essä.

Särskilt värdefullt finner jag hans nutidshistoriska perspektiv:
    Den strukturkris som drabbade västvärlden under sjuttiotalet innebar att det för första gången blev nödvändigt att göra nedskärningar i den moderna välfärdsstaten. Socialdemokraterna - som återtagit makten 1982 - gjorde det under vånda och var ytterst mottagliga för idéer som handlade om effektivisering, det vill säga åtgärder som räddade välfärden till en lägre kostnad.
De var under press, inte bara från Moderaterna vilka, med Berggrens ord, "var inne i sin mest aggressivt nyliberala fas", utan också från medborgare "missnöjda med centralbyråkratisk maktfullkomlighet". Berggren exemplifierar med PC Jersilds Babels hus och med taxichauffören Folke Pudas hugerstrejk på Sergels torg. Detta, menar han,
    ledde till en paradoxal situation. Å ena sidan fanns ett stort missnöje med utförandet av välfärdstjänsterna, å andra sidan stod det efter 1985 års val klart att svenskarna inte ville skrota välfärdsstaten. Valets segrare blev Olof Palme och folkpartiledaren Bengt Westerberg, som båda tydligt ställt sig bakom den generella välfärden. Förloraren var moderatledaren Ulf Adelsohn, som drivit det oroväckande kravet på systemskifte. Det verkade alltså som svenskarna ville behålla sin skattefinansierade välvärd men samtidigt krävde större valfrihet och inflytande över dess utformning. Det var i alla fall den slutsats som politiker från vänster till höger drog.

    Allt detta ledde fram till en revolution i styrningen av den svenska offentliga sektorn. Nyliberalismen hade förlorat den ideologiska striden inom väljarkåren men skulle i stället tränga djupt in i den svenska förvaltningen.

Berggren går sedan vidare och diskuterar effekterna av denna omsvängning, på ett sätt som jag tycker är i linje med med den systemkritik (eller skall vi kalla det litanior?) som jag själv formulerat i bloggposter som Se t.ex. följande stycken av Berggren om det nya kvalitets- och effektiviseringstänkandet:
    Jag vet att en del människor har svårt att förstå att utvärdering, kvalitetssäkring, konkurrens och målstyrning kan ha en skadlig effekt. Det är väl alltid bättre, säger de indignerat, att ta reda på om en verksamhet leder till de resultat vi önskar, det utvärderas alldeles för lite i [...] dagens Sverige. Titta bara på alla brister i skolan, äldreomsorgen och andra kommunala verksamheter. Den som motsätter sig ökad kontroll har rimligtvis något att dölja, förmodligen lättja och inkompetens. Ju mer genomskinlighet desto bättre.

    Hm, jovisst, kanske. Eller vid närmare eftertanke, nej. Visst måste vi utvärdera. Och visst kan det vara så att vi ibland inte utvärderas tillräckligt. Som den omdebatterade SNS-rapporten om Konkurrensens konsekvenser påpekade: vi vet faktiskt inte om privatiseringar, outsourcing, konkurrens och valfrihet inom välfärdssektorn har lett till högre kvalitet eller effektivitet.

    Men missriktad utvärdering inom specifika verksamheter är värre än ingen utvärdering alls. Mål- och resultatstyrning underminerar den tillit och professionella ansvarskänsla som historiskt sett har uppnåtts, och [bygger] på misstänksamhet. Utgångspunkten är att icke-marknadsorienterade yrkesgrupper som lärare, läkare, poliser och så vidare inte gör sitt jobb om de inte kontrolleras noggrant. Men just denna brist på tillit kan paradoxalt nog försämra kvaliteten på de utförda offentliga tjänsterna. Risken är att utförarna upphör att tänka själva och ta eget ansvar (naturligtvis utifrån ett tydligt regelverk) och i stället inriktar sig ensidigt på att uppfylla de kvantitativa mål som ledningen satt upp: antal genomförda rattonykterhetsprov, hur tunga blöjor gamlingarna får ha och så vidare.

    Överdriven kontroll blir helt enkelt kontraproduktiv. Den som inte någon gång ställer frågan "Älskar du mig?" till sin partner riskerar att få en obehaglig överraskning; den som ställer frågan tio gånger om dagen kommer med säkerhet att döda kärleken. Att aldrig kolla saldot på sitt bankkonto är dumt; att göra det var femte minut hindrar dig från att tjäna nya pengar som kan fylla på kontot. Och det är där vi håller på att hamna idag. Istället för att inrikta sig på sitt arbete är alltför många lärare, socialarbetare och läkare upptagna med att dokumentera och kvalitetssäkra.

För den som vill ta del av konkreta exempel på de groteska konsekvenser som denna farsot - kallad New public management - för med sig i den svenska vårdapparaten rekommenderar jag Maciej Zarembas just nu pågående artikelserie Patienten och prislappen i DN. Precis som Axess har DN valt att hålla sig med betalvägg, men bjuder som ett slags lockgåva på artikelseriens första del, där vi bland annat kan läsa följande.
    Förr i tiden, när Karlsson äntligen nådde fram till doktorn, kunde han ta upp alla sina plågor: den onda ryggen, andnöden och blemman bakom örat. Det kanske tog tre kvart. Numera kan det gå snabbare att nå fram, men i gengäld får Karlsson höra: ”En sak i taget.” Han får en läkartid tid för blemman, en annan för andnöden, en tredje för ryggen. Karlsson knotar kanske, det blir dyrt med resor och varför skall han behöva ta ledigt tre gånger?

    Därför att ”beställaren” (landstinget i Stockholm) anser att läkarnas produktivitet mäts i antalet besök. Om de är långa eller korta spelar ingen roll. Alla ersätts som om de varade i cirka en kvart. Således blir det mest kostnadseffektivt för vårdcentralen att dela upp Karlsson i tre produkter à 485 kronor styck.

    Doktor N, chef för en privat vårdcentral i Stockholm, gör inte så. Men hon vet andra husläkare som skulle kalla Karlsson en fjärde gång, bara för att berätta att blemman var ofarlig. Hon ringer i stället – och går miste om ytterligare 485 kronor. (Det finns ingen priskod för telefonkontakt.) Och skriver hon recept, räcker de i ett år, fast det mest lönsamma är att skriva på tre månader. Varje recept ger 80 kronor.

    [...]

    ”Här kommer Gun-Britt med rullator, hon är åttiofem. Det tar fem minuter innan hon lyckas sätta sig på britsen. När hon har klätt av sig har min kvart gått och jag har inte ens börjat undersöka. Då tar hon fram en lapp med åtta frågor som hon förberett i ett halvår ... Vad är det för vårdkvalitet när jag blir stressad av att människan är gammal?”

    Det är inte lönt att tala med doktor N om landstingets incitament. Hon har inte studerat i tio år, väser hon, för att någon kamrer skall tala om för henne vilka patienter som hon bör prioritera. Men om hon tar sig tid med Gunbritt och det råkar sitta ”en sån där bortskämd åttiotalist” i väntrummet, som kanske skall på dyksemester och är orolig för vax i öronen, blir hon bestraffad om hon låter honom vänta.

    Ja, faktiskt. Regelboken 7:5: Patienter som fått vänta mer än 30 min har rätt att bli undersökta gratis. Som på McDonald’s.

fredag 15 februari 2013

Ovederhäftigt om materialism och medvetande

Nyligen konstaterade jag här på bloggen att den ledande svenska populärvetenskapliga tidskriften Forskning och Framsteg visserligen är utmärkt läsvärd, men ändå emellanåt uppvisar ett och annat lågvattenmärke. Detta blandade omdöme är i ännu högre grad giltigt för den populärt inriktade engelska filosofitidskriften Philosophy Now. När jag är ute och reser brukar jag alltid spana efter den på Pressbyrån, och gläds stort varje gång ett nytt nummer utkommit. Varje nytt nummer bjuder pålitligt på en eller flera riktigt intressanta artiklar, men också minst en som är så provocerande dålig, dum, vilseledande eller tendentiös att jag blir arg. Jag skall nu osa svavel över en artikel i den senare kategorin från november/decembernumret 2012, nämligen On ‘Known-To-Be-False’ Materialist Philosophies of Mind av en herre vid namn Graham Smetham.

Graham Smetham uppges vara "a Buddhist philosopher" och författare till boken Quantum Buddhism and the Higgs Discovery.1 Hans artikel har två huvudpoänger. Den ena är att de försök ofta som görs2 att förklara mänskligt medvetande på strikt fysikaliska eller materialistiska grunder ger upphov till en besvärande cirkularitet i fall det skulle visa sig att fysiken och materien har sin grund i medvetandet. Häri har Smetham en verklig poäng, även om man hade kunnat önska att han uttryckte saken något klarare och mer koncist. Hans andra huvudpoäng är svårare att hålla med om, nämligen att det, med tanke på vad vi faktiskt vet om kvantmekaniken, kan anses vetenskapligt fastslaget att fysiken och materien har sin grund i medvetandet.

Som stöd för denna uppfattning ägnar Smetham sida upp och sida ned åt namesdropping (bland andra Roger Penrose får stå ut med nesan att omnämnas i artikeln) och quote mining, dock utan att visa några tecken på att veta vad han talar om. Som en sammanfattning av kunskapsläget i fråga om förhållandet mellan materia och medvetande skriver han att...
    if there is one thing that has been established by the science of quantum mechanics, it is the fact that ‘materialism’ must be abandoned as a viable metaphysical position. In fact, the belief in the existence of solid material stuff which exists completely independent of mind is now about as scientifically acceptable as the phlogiston theory of heat.3
Detta är en mycket grov förvrängning av var vetenskapen idag står i fråga om tolkningar av kvantmekaniken. Även om Smetham inte nämner Köpenhamnstolkningen vid namn så är det uppenbart att det är denna han vill stödja sig på, och då speciellt de varianter som tillskriver medvetandet en fundamental roll i samband med vågfunktionskollapsen. Vad Smetham här sopar under mattan är för det första att Köpenhanmnstolkningen är långt ifrån allenarådande bland dagens fysiker,4 och för det andra att även om vi inskränker oss till de fysiker som ansluter sig till Köpenhamnstolkningen så är det långt ifrån alla (utan troligtvis en ganska liten minoritet) som vill tillskriva medvetandet en fundamental roll i sammanhanget.5

Jag blev nyss uppmärksammad på ett pinfärskt manuskript rubricerat A Snapshot of Foundational Attitudes Toward Quantum Mechanics av de tre fysikerna Maximillian Schlosshauser, Johannes Kofler och Anton Zeilinger, som presenterar resultatet av en enkätundersökning bland deltagarna på en internationell konferens i juli 2011 om kvantmekanikens grunder. Jag vill inte härmed påskina att vetenskapliga frågor avgörs genom omröstning, och inte heller att de svarande skulle vara representativa för en större population av experter på området, men jag tycker ändå att undersökningen ger en intressant bild av vilka uppfattningar man kan träffa på i sammanhanget. På frågan "What is your favorit interpretation of quantum mechanics?" angav 42% av de totalt 33 svarande alternativet "Copenhagen", medan 18% föredrog Everetts många världar-tolkning.6 På frågan om "The observer" angav blott 6% (dvs två av de 33 svarande) att denne "plays a distinguished physical role (e.g. wave-function collapse by consciousness)".

Frågan om hur kvantmekaniken rätt skall tolkas är inte avgjord, och jag tycker nog att möjligheten att medvetande spelar en fundamental roll kan vara fortsatt värd att ta på allvar.7 Men att, som Smetham, hävda att laborerandet med möjligheten att medvetandet inte spelar en sådan roll skulle vara att klassa som tokerier i nivå med flogistonteorin, är bara löjligt.

Fotnoter

1) Efter att ha läst Smethams artikel i Philosophy Now känner jag mig inte särskilt mycket mer sugen på den boken än på t.ex. Läckbergs senaste eller på att äta en portion snöslask hämtad direkt från Vasagatan i Göteborg.

2) Som exempel på forskare som försvarar sådana förklaringsmodeller nämner Smetham Daniel Dennett, Paul Churchland och Patricia Churchland, men det finns förstås många andra.

3) Besserwisser som jag är kan jag inte motså den billiga poängen att påpeka att flogistonteorin inte handlar om värme utan om förbränning.

4) Så t.ex. försvarar den framstående fysikern David Deutsch, vars senaste bok jag recenserat här på bloggen, den alternativa många världar-tolkningen av kvantmekaniken.

5) Dekoherens verkar vara ett lovande alternativ.

6) En liknande undersökning av Max Tegmark 14 år tidigare gav liknande resultat.

7) David Chalmers gör det i sin läsvärda bok The Conscious Mind.

måndag 11 februari 2013

Påven avgår!

Över hela världen ljuder idag djungeltrumman: påven avgår! För några timmar sedan meddelade Joseph Ratzinger, mer känd som påven Benedictus XVI, att han om ett par veckor, den 28 februari, frånträder sitt ämbete. Det lär vara första gången sedan 1415 som en påve avgår av annan orsak än sin egen död. Som skäl till sin avgång anger Ratzinger åldersrelaterad brist på ork, men det är givetvis fritt fram för oss andra att spekulera över om annat kan tänkas ligga bakom. Har det måhända något att göra med hans sätt att hantera katolska kyrkans pedofilskandaler, eller kan det rentav vara så att han gått och blivit ateist?

Dagen till ära vill jag bjuda på en av mina YouTube-favoriter - en finstämd liten sång av Tim Minchin, som med subtila medel och alldeles på pricken ringar in min syn på Ratzinger.

För den som har svårt att uppfatta texten i detalj rekommenderas denna länk.

fredag 8 februari 2013

Med VR i dagarna två

Just nu är jag på väg hem från ett tvådagarsmöte med Vetenskapsrådet, i vars natur- och teknikvetenskapliga ämnesråd jag är ledamot. Lokalerna på Norra Latin i Stockholm var fina, men får mig att skämmas en smula över hur vi i Sverige, som ett led i avvecklingen av utbildningssektorns status, gör om våra ståtligaste skolbyggnader till konferenslokaler. Medverkan av utbildningsminister Björklund var utlovad, men därav blev intet. Istället fick vi intressanta föredragningar av dennes statssekreterare Peter Honeth och VR:s generaldirektör Mille Millnert, samt därutöver en hel del mångfacetterade och givande diskussioner om svensk forskning och dess styrkor, svagheter, utmaningar etc. Inget hemligt avhandlades, men däremot mycket som kan anses ha allmänintresse, och jag tar mig härmed friheten att nämna några av de saker som diskuterades (respektive, i vissa fall, utelämnades med iögonfallande tomrum som följd).
    1. Peter Honeth framhöll VR som regeringens viktigaste samtalspartner och rådgivare i forskningspolitiska frågor. Mille Millnert spann vidare på detta och tillade att VR tänker sig en proaktiv roll där vi inkommer med synpunkter i forskningsfrågor även i fall då vi inte explicit tillfrågats - en inställning som senare under mötet inskärptes av VR:s styrelseordförande Lars Anell. Detta är goda nyheter för den som (likt mig) hoppas kunna ha hjälp av VR som en kanal för att verka för en mer genomtänkt forskningspolitik.

    2. Även om många kloka saker sades både av Honeth och av Millnert så är jag bekymrad över den utgångspunkt för svensk forskningspolitik som de gav uttryck för. Syftet med att från statligt håll satsa stora pengar på svensk forskning är, enligt båda, att den resulterande kunskapsproduktionen skall stärka svensk konkurrenskraft på en allt hårdare global marknad. Inte ett ord sades om det som jag själv anser vara en avgjort viktigare nyttofunktion hos forskningen - nämligen att bidra till att lösa några av de stora globala problemen rörande t.ex. fattigdom, miljö, hälsa och omställning till hållbara energisystem. Med ett snävt fokus på att enbart se till vår egen nations ekonomiska bästa och på andra länder som konkurrenter att tävla emot, så finns risken att vi prioriterar fel forskning. Samma snäva fokus ligger till grund för regeringens senaste idé om ett program i VR:s regi för att locka till oss utländska forskare med stjärnstatus.

    3. En annan utgångspunkt, som visserligen inte uttalades explicit, men som ändå tydligt låg till grund för Honeths och Millnerts anföranden och för det mesta annat som sades på mötet, är den att alla vetenskapliga framsteg är av godo. (Möjligheten att forskningsresultat skulle kunna orsaka skada berördes inte utöver en enda bisats från Millnert om att "en del forskning görs utan tanke på om den skall komma till nytta eller skada".) Den inställningen är, som jag tidigare framhållit här på bloggen, både naiv och farlig. Högst av allt på min forskningspolitiska önskelista står en ambitiös statlig utredning med syfte att sammanställa de spridda kunskaper som finns därute i fråga om vilka risker och möjligheter som är förknippade med olika emergenta teknologier som t.ex. artificiell intelligens; olika slags bio- och nanoteknologi; transhumanistisk modifiering av våra kroppar, nervsystem och genom; etc. När jag för ett par år sedan inom VR försökte driva frågan om en sådan utredning fick jag visst gehör på en del håll, men stoppades av Mille Millnert som menade att frågan visserligen var viktig men inte föll inom VR:s ansvarsområde. Något tillfredsställande svar på vart han ansåg att frågan borde hänskjutas gav han inte. Jag vill nu återkomma till honom med en följdfråga:

      Håller du fast vid att frågan är viktig, eller var du bara artig när du sa att du tyckte det?
    Om du faktiskt tycker att den är viktig, Mille, då vill jag med stöd i punkt 1 ovan angående VR:s proaktiva roll som rådgivare åt regeringen mena att vi bör gå vidare och uppvakta just regeringen om behovet av en utredning. (Om du och styrelsen går med på det lovar jag att vara dig på alla vis behjälplig med föredragningar och liknande.) Om du däremot bara var artig mot mig och i själva verket fann frågan oviktig, kan du då tänka dig att göra mig den lilla tjänsten att i lugn och ro läsa Bill Joys numera klassiska uppsats Why the future doesn't need us, och sedan återkomma till mig i frågan?

tisdag 5 februari 2013

Statistical significance is not a worthless concept

In 2009, I read and enjoyed Stephen Ziliak's and Deirdre McCloskey's important book The Cult of Statistical Significance, and in 2010 my review of it appeared in the Notices of the American Mathematical Society. In the hope of engaging Ziliak and McCloskey in some further discussion, I write the present blog post in English; readers looking for a gentle introduction in Swedish to statistical hypothesis testing and statistical significance may instead consult an earlier blog post of mine.

In Ziliak's and McCloskey's recent contribution to Econ Journal Watch, we find the following passage:
    In several dozen journal reviews and in comments we have received—from, for example, four Nobel laureates, the statistician Dennis Lindley (2012), the mathematician Olle Häggström (2010), the sociologist Steve Fuller (2008), and the historian Theodore Porter (2008)—no one [...] has tried to defend null hypothesis significance testing.
This surprised me, not so much because I had never expected to be cited in the same sentence as the fully fledged relativist provocateur Steve Fuller, but mainly because Häggström (2010)—which contains the passage
    The Cult of Statistical Significance is written in an entertaining and polemical style. Sometimes the authors push their position a bit far, such as when they ask themselves: "If null-hypothesis significance testing is as idiotic as we and its other critics have so long believed, how on earth has it survived?" (p. 240). Granted, the single-minded focus on statistical significance that they label sizeless science is bad practice. Still, to throw out the use of significance tests would be a mistake, considering how often it is a crucial tool for concluding with confidence that what we see really is a pattern, as opposed to just noise. For a data set to provide reasonable evidence of an important deviation from the null hypothesis, we typically need both statistical and subject-matter significance
—is such an extraordinarily odd reference to put forth in support of the statement that "no one has tried to defend null hypothesis significance testing". Ziliak and McCloskey are of course free to be unimpressed by this passage and not consider it to qualify as a defense of statistical significance testing, but note that they write "no one has tried to defend" rather than just "no one has defended". Hence, they do not even grant my passage the status of a valid attempt at defending significance testing. This strikes me as overly harsh.

Let me take this opportunity to expand a bit, by means of a simple example, on my claim that in order to establish "reasonable evidence of an important deviation from the null hypothesis, we typically need both statistical and subject-matter significance". Assume that the producer of the soft drink Percy-Cola has carried out a study in which subjects have been blindly exposed to one mug of Percy-Cola and one mug of Crazy-Cola (in randomized order), and asked to indicate which of them tastes better. Assume furthermore that 75% of subjects prefer the mug containing Percy-Cola, while only 25% prefer the one with Crazy-Cola. How impressed should we be by this?

This depends on how large the study is. Compare the two cases
    (a) out of a total of 4 subjects, 3 preferred Percy-Cola,

    (b) out of a total of 1000 subjects, 750 preferred Percy-Cola.

If we follow Ziliak's and McCloskey's advice to ignore statistical significance and focus instead purely on subject-matter (i.e., in this case, gastronomical) significance, then the two cases are indistinguishable, because in both cases the data indicates that 75% of subjects prefer Percy-Cola, which in subject-matter terms is quite a substantial deviation from the 50% we would expect in case neither of the liquids tasted any better than the other. Still, there is good reason to be more convinced of the superiority of Percy-Cola in case (b) than in case (a). The core reason for this is that under the null hypothesis that both drinks taste equally good (or bad), the probability of getting an outcome at least as favorable to Percy-Cola as the one we actually got turns out to be 5/16 ≈ 0.31 in case (a), while in case (b) the probability turns out to be about 6.7⋅10-59. These numbers (0.31 and 6.7⋅10-59, respectively) are precisely what is known in the theory of significance testing as the p-values for rejecting the null hypothesis. 0.31 is a really lousy p-value, meaning that in view of the data in (a) it is still fully plausible to suppose that the drinks are equally good (or even that Crazy-Cola is a bit better). On the other hand, 6.7⋅10-59 is an extremely good p-value, so in case (b) we may safely conclude that Percy-Cola really does taste better (in the sense of being preferred by a majority of the population from which subjects have been sampled). In other words, case (b) exhibits much better statistical significance than case (a).

Statistical significance is a useful way of quantifying how convinced we should be that an observed effect is real and not just a statistical fluctuation. Ziliak and McCloskey argue at length in their book that statistical significance has often been misused in many fields, and in this they are right. But they are wrong when they suggest that the concept is worthless and should be discarded.

Edit, March 4, 2015: Somewhat belatedly, and thanks to the kind remark by Mark Dehaven in the comments section below, I have realized that my sentence "Statistical significance is a useful way of quantifying how convinced we should be that an observed effect is real and not just a statistical fluctuation" in the last paragraph does not accurately reflect my view - neither my view now, nor the one I had two years ago. It is hard for me to understand now how I could have written such a thing, but my best guess is that it must have been written in a haste. Statistical significance and p-values do not quantify "how convinced we should be", because there may be so much else, beyond the data set presently at hand, that ought to influence how convinced or not we should be. Instead of the unfortunate sentence, I'd prefer to say that "Statistical significance and p-values provide, as a first approximation, an indication of how strongly the data set in itself constitutes evidence against the null hypothesis (provided the various implicit and explicit model assumptions correctly represent reality)".

fredag 1 februari 2013

Hur stark är koldioxidens klimatpåverkan?

De senaste veckorna har på nytt en debatt om klimatvetenskapen blossat upp i svenska media.1 Jämfört med hur det såg ut för några år sedan, då skamlösa irrpropagandister som Lars Bern, Jonny Fagerström och hela raddan av Stockholmsinitiativsgubbar bredde ut sig i spalterna (samtidigt som jag och mina vänner i Uppsalainitiativet hade fullt upp att bemöta de värsta dumheterna), så har den aktuella debatten tagit några rejäla kliv framåt. Numera ser man sällan (annat än på konspirationsteoretiskt anstrukna dårbloggar) de rena stolligheterna, såsom förnekandet av vår kunskap om att en global uppvärmning pågår och att vår fossilbränsleförbränning är en huvudorsak.

Den nu aktuella debatten har en helt annan, och ojämförligt mer vederhäftig, karaktär. Den inleddes med en artikel på DN Debatt den 21/1 av fyra svenska klimatforskare och KVA-ledamöter med Lennart Bengtsson i spetsen, vilket följdes av svar från Christian Azar den 22/1 och från en grupp lundensiska klimatforskare (inklusive Uppsalainitiativets Marianne Hall) anförda av Markku Rummukainen den 25/1, och slutligen en replik från Bengtsson et al den 28/1. Som Lars Karlsson konstaterar i sin sammanfattningUppsalainitiativet så är
    samtliga debatterande [...] överens om att våra utsläpp av växthusgaser har en påtaglig påverkan på klimatet. Frågan är alltså inte om, utan hur mycket - 2 grader, 3 grader, 4 grader? Och man är överrens om att något behöver göras.

    [...]

    Debatten befinner sig alltså långt ifrån var klimatförvillarna skulle önska att vi tror. Den handlar inte om huruvida växthusgaserna har någon betydande klimatpåverkan. Den handlar inte om huruvida det finns någon positiv återkoppling. Den handlar inte om huruvida det är mänskliga eller naturliga orsaker som ligger bakom den nutida uppvärmningen. Den handlar inte om huruvida det är koldioxiden som styr temperaturen eller temperaturen som styr koldioxiden. Och den handlar inte om huruvida det över huvud taget existerar något problem.

Samtliga debattörer synes överens om det mesta, inklusive att IPCC:s senaste sammanfattning (från 2007) av det vetenskapliga läget är en lämplig utgångspunkt för publik diskussion i ämnet. Vad som framför allt väckt debatt är Bengtssons et al påstående att
    en temperaturökning med så mycket som 4°C under detta århundrade är mycket osannolik.
Detta går på tvärs mot IPCC-rapporten, där sagda ökning visserligen tillhör de högre av ett spektrum av olika allvaliga temperaturscenarier, men alls icke döms ut som "mycket osannolik". Såväl Azar som Markku Rummukainen et al kritiserar Bengtsson et al på denna punkt, och förordar en bedömning mer i linje med IPCC:s.

För att förstå denna diskussion behöver vi känna till begreppet klimatkänslighet. Denna definieras som den ökning i global jämviktsmedeltemperatur som en fördubbling av atmosfärens CO2-halt svarar mot.2 Detta är den viktigaste kvantiteten när det gäller att på lång sikt (flera decennier eller mer) förutsäga klimatet.3 Ju större klimatkänslighet, desto större temperaturökning kan vi befara. Dessvärre har det visat sig vara mycket svårt att i en enskild studie slå fast värdet på klimatkänsligheten med någon god precision alls. Till och med om vi tar i beaktande alla de olika studier som finns, så ser sig IPCC nödsakat att nöja sig med ett tämligen brett trolighetsintervall om 2°C till 4,5°C. I DN-repliken förklarar Bengtsson et al grunden för deras kontroversiella påstående ovan, nämligen att "flera studier under senare år pekar mot en mindre klimatkänslighet än vad som antogs i IPCC-rapporten från 2007".4 Innan vi rusar åstad och reviderar vårt trolighetsintervall i ljuset av sådana studier bör vi emellertid först betrakta den ljusa sidan av kunskapsläget, nämligen att det är baserat på många olika slags studier (vilka i sin tur är baserade på olika slags klimatdata), varav många ger hyggligt samstämmiga resultat; se IPCC för en utförlig redogörelse, eller nedanstående figur för en kort sammanfattning.

    Bild och bildtext från Skeptical Science: Distributions and ranges for climate sensitivity from different lines of evidence. The circle indicates the most likely value. The thin colored bars indicate very likely value (more than 90% probability). The thicker colored bars indicate likely values (more than 66% probability). Dashed lines indicate no robust constraint on an upper bound. The IPCC likely range (2 to 4.5°C) is indicated by the vertical light blue bar.

En viktig lärdomen av detta är en eller ett par nya studier av klimatkänsligheten knappast räcker för att radikalt rubba kunskapsläget i frågan, ty även med de nya studierna behöver vi ju alltjämt väga in vad de gamla pekar på. Att på detta vis gå för snabbt fram med att revidera sin uppfattning är tillräckligt vanligt för att (på den ypperliga klimatbloggen Skeptical Science från vilken ovanstående bild är hämtad) nyligen ha fått ett eget namn, nämligen Climate Sensitivity Single Study Syndrome. Det är svårt att från Bengtssons et al (knapphändiga) argumentation komma fram till annat än att de varit lite för heta på gröten och fallit offer för detta syndrom. (Av svaren från Azar och från Rummukainen et al får jag en känsla av att de skulle hålla med mig om detta, åtminstone om de fick linda in det i ett lager av diplomatisk fetvadd.)

Samtidigt som Bengtsson, Azar, Rummukainen och deras medförfattare debatterade i DN slog såväl DN som SvD upp braskande rubriker om att en ny norsk studie visar att klimatkänsligheten är lägre än tidigare beräknat. Nyheten härrör från ett pressmeddelande som dels utgör ett klockrent fall av Climate Sensitivity Single Study-syndromet, och dessutom verkar ha släppts för tidigt innan de anförda resultaten blivit vederbörligt granskade och publicerade i den vetenskapliga litteraturen. Jens Ergon på SVT:s vetenskapsredaktion har gjort en bra sammanfattning av denna "Norgehistoria".5 En ännu bättre sammanfattning ger Markku Rummukainen och Marianne Hall, som avslutar sin text på Lunds universitets klimatprotal med att man
    för det första kan [...] konstatera att om det visade sig att klimatkänsligheten snarare är låg än hög, är det goda nyheter. Klimatfrågan skulle inte bli bortblåst, men möjligheten att begränsa den globala uppvärmningen med till exempelvis maximalt två grader skulle öka. För att detta skall hålla långsiktigt, om den norska studien har rätt, bör atmosfärens koldioxidhalt inte få öka med mer än en fördubbling. Den norska studien är inte den första eller den enda som anger en lägre klimatkänslighet. Sådana resultat ingår i intervallet i IPCC (2007) som ju bygger på flera resultat från olika metoder.

    För det andra, och igen är det goda nyheter om de visar sig hålla, är sannolikheten för att klimatkänsligheten är mycket hög eller hög (det vill säga att den skulle ligga en bra bit över 4,5 grader) eventuellt mindre än vad man tidigare har bedömt. Även senare resultat om en lägre nettoavkylande effekt av partiklar i luften (t ex Bond m fl 2012) skulle dra åt det hållet. Osäkerheten kring värmelagringen i havet är dock en viktig joker i leken (t ex Meehl m fl 2011, Levitus m fl 2012).

    Trots detta är det nödvändigt att låta de senaste studierna, som sammantaget ger något varierande resultat, mogna och låta sig sättas in i kunskapslägets kontext. Även om det skulle visa sig att klimatkänsligheten ligger i den nedre kanten av spannet har vi fortfarande en ordentlig klimatförändring över oss, om inte utsläppen minskar framöver.

Fotnoter

1) Min följande sammanfattning är mestadels hämtad från ett par aktuella bloggposter på Uppsalainitiativet, av Magnus Westerstrand respektive Lars Karlsson, och från deras generösa länksamlingar.

2) Varför en fördubbling, snarare än ökning med en viss fix mängd? Svaret står att finna i att jämviktstemperaturens beroende av koldioxidhalten är approximativt logaritmisk, vilket innebär att en fördubblad CO2-halt ger approximativt samma temperaturökning oavsett startnivå.

3) Här bortser jag från att vi givetvis också behöver känna till vad som händer med våra framtida utsläpp.

4) Vilka studier de syftar på preciseras dock inte.

5) Ytterligare fördjupning ges på den Skeptical Science-sida jag länkar till ovan. Där får vi bland annat följande intressanta analys.
    There is also a significant red flag in the press release for this study:
      "When the researchers at CICERO and the Norwegian Computing Center applied their model and statistics to analyse temperature readings from the air and ocean for the period ending in 2000, they found that climate sensitivity to a doubling of atmospheric CO2 concentration will most likely be 3.7°C, which is somewhat higher than the IPCC prognosis.

      But the researchers were surprised when they entered temperatures and other data from the decade 2000-2010 into the model; climate sensitivity was greatly reduced to a “mere” 1.9°C."

    Including an extra decade's worth of data into the model should not halve their equilibrium climate sensitivity value, because the equilibrium sensitivity of the climate system is a relatively constant number, and in reality has not changed radically over the past decade. This suggests that their model may be overfitting the short-term natural variability.
Vad gäller "senare års kortsiktiga naturliga variation" vill jag för övrigt tipsa om följande mycket instruktiva video, som vi nyligen diskuterat på Uppsalainitiativet.