Toimittajat ovat taas sekoilleet virhemarginaalien kanssa. Kaikesta näkee, etteivät he ymmärrä koko käsitettä.

Esimerkiksi Taloustutkimus Oy ilmoitti, että sen vaaleja edeltävien ennusteiden virhemarginaali on +/- 1,8 prosenttiyksikköä.

Miten on sitten mahdollista, että perussuomalaisten todelliset kannatuslukemat poikkesivat ennusteista jopa 20 prosentilla?

Virheen syy on luultavasti se, että kyselyihin vastanneet valehtelivat. Mutta huti on mahdollinen, vaikka kaikki olisivat puhuneet tottakin. Syynä on se, että sattuma sotkee asioita.

Oletetaan hetki, että Suomessa olisi kaksipuoluejärjestelmä. Hyväosaisten oikeistoporukkaa vetää Jyrki Katainen. Köyhän kansan asialla on Timo Soini.

Oletetaan lisäksi, että heillä molemmilla on täsmälleen sama kannatus. Kansa on jakautunut niin, että tasan 50 prosenttia suomalaisista äänestää Kataista. Loput 50 prosenttia kannattaa Soinia.

Tehtävänä on laatia ennuste, kumpi näistä suhareista voittaa vaalit ja nousee pääministeriksi.

Yksi mahdollisuus on valita äänioikeutettuja satunnaisesti ja soittaa heille.

Koska tänään pitäisi ehtiä tehdä bisnestä, valitsen kuitenkin nopeamman reitin. Laadin prognoosini puhelimen sijaan kolikon avulla. Heitän kruunaa (Kaitainen) ja klaavaa (Soini).

Jokainen koulunsa käynyt tietää, että kolikko jää numeropuoli ylöspäin tasan 50 prosentin todennäköisyydellä. Koska se on sama kuin Kataisen ja Soinin todellinen kannatus, kolikon pitäisi ennustaa tulos tarkasti.

Eikun paiskomaan lanttia. Aloitin kuudellatoista heitolla. Tulokseksi tuli 9 klaavaa ja 7 kruunaa. Toisin sanoen Soini sai ennusteeksi 56 prosenttia ja Katainen 44 prosenttia.

Vaikka menetelmäni pitäisi johtaa täsmälleen oikeaan tulokseen, ennuste menee pahasti pieleen. Se johtuu satunnaisuudesta.

Itse asiassa tarkka tulos – eli 8 kruunaa ja 8 klaavaa – löytyy tällä menetelmällä vain noin kerran viidestä heittosarjasta. Noin 80 prosenttia ajasta ennuste menee pieleen.

On myös täysin mahdollista, että kolikko ennustaisi Kataiselle täystyrmäystä. Soini jäisi vastaavasti nollille. Jos jaksaisin toistaa 16:n heiton sarjoja riittävän kauan, keskimäärin yksi 65 536:sta sarjasta johtaisi tulokseen 16—0.

Jos Taloustutkimus heittäisi lanttia samalla tavalla, ennusteen virhemarginaali olisi +/- 24 prosenttiyksikköä. Mistä luku on repäisty?

Tai mistä Taloustutkimuksen ilmoittama, heidän todellisten kyselyjensä oikea virhemarginaali, eli +/- 1,8 prosenttiyksikköä putkahti?

Siihen liittyy toinen prosenttiluku, jota ennustajat eivät viitsi erikseen kertoa. Se vain sekoittaisi ihmisiä ja toimittajia entisestään. Tuo “salainen” luku on 95 prosenttia.

Vaikka vaalikyselyjä tekevät firmat eivät tätä erikseen mainitse, niiden ilmoittamat ennusteet pysyvät virhemarginaalin rajoissa vain 95-prosenttisesti.

Vähitellen on vain vakiintunut käytännöksi, että 95 prosentin todennäköisyys saa kelvata. Niinpä ennustajat laskevat, millaisen virhemarginaalin he voivat luvata niin, että se toteutuu keskimäärin 19 kertaa kahdestakymmenestä. Kerran kahdestakymmenestä virhe voikin olla jotain ihan muuta.

Vastaavasti 16 kertaa kolikkoa heittämällä virhe pysyy +/- 24 prosenttyksikön rajoissa yhdeksäntoista kertaa kahdestakymmenestä. Kerran kahdestakymmenestä virhe voi olla isompi.

Tästä on siis kyse: satunnaisuus tuottaa virheitä, jotka voivat joskus olla todella rajuja. Nolon poikkeaman mahdollisuus säilyy aina. Sille ei voi kukaan mitään.

On siis mahdollista, että Taloustutkimuksen virhemarginaali paukkui sunnuntain vaaleissa siksi, että nyt sattui kohdalle se yksi kerta kahdestakymmenestä.

Kukaan ei siis ole välttämättä tehnyt mitään väärin tai puhunut potaskaa. Tilastollisen virheen mahdollisuutta ei voi koskaan poistaa kokonaan. Vain sen todennäköisyyttä voi pienentää.

Virheen mahdollisuutta voi kutistaa yksinkertaisesti niin, että haastattelija soittaa mahdollisimman suurelle joukolle satunnaisesti valittuja äänestäjiä. Jos hän haastattelee esimerkiksi 1024 ihmistä, virhemarginaali hupenee 3,1 prosenttiyksikköön.

Mutta edelleen pelissä on kaksi prosenttilukua yhtäaikaisesti: 3,1  ja 95.

Se on sitten vielä toinen juttu, että kyselyjen tuloksia saattaa vääristää järjestelmällinen virhe. Vaikka ennustajat yrittävät poistaa virhelähteitä, niiden vaikutusta on erittäin vaikea hävittää kokonaan.

Virhe voi syntyä esimerkiksi niin, että kyselyyn mukaan otetut ihmiset ovat niitä, joilla on aikaa ja halua vastailla ventovieraiden haastattelijoiden tyhmiin puheluihin. He eivät edusta koko kansaa. Siksi heidän mielipiteidensä perusteella laadittu ennuste menee helposti metsään.

Lähde: The Dark Arts of Mathematical Deception, Charles Seife 2010