Kauppalehden pääkirjoitus toisti alkuviikosta (12.9.2016) huolta, että perustulokokeilu on menossa päin prinkkalaa:

“Kokeiluun kelpuutettava 2000 hengen joukko on kuitenkin suppea. Tiukka rajaus heikentää tutkimustuloksen luotettavuutta.”

Kokeilun pitäisi siis puksuttaa vuosina 2017–2018. Uhrit on tarkoitus valita satunnaisotannalla peruspäivärahaa tai työmarkkinatukea nauttivista työttömistä. Heille napsahtaisi 560 euroa kuukaudessa perustuloa. Lisäksi tilille ropisevat asumistuet sun muut.

Se lienee jokaiselle selvää, että testiryhmä on vinosti valikoitu. Ei se edusta kuin pientä osaa suomalaisista.

Mutta sitten on kokonaan toinen juttu, onko kahdentuhannen otos riittävän suuri. Lehti jatkaa näin:

“Palkansaajien tutkimuslaitoksen mukaan perustulokokeilun voi hyväntahtoisesti nähdä pilottina, jossa saadaan vaikutelmia ja viitteitä tämän tyyppisestä järjestelystä. Se ei anna kuitenkaan tilastollisesti merkitseviä tuloksia, joiden perusteella voitaisiin päättää perustulon laajemmasta käyttöönotosta.”

Tämä on tuttua kitinää, jollaiseen törmään vähän väliä asiakkaideni projekteissa.

Jokainen loppututkinnon hankkinut on tietysti hinkannut hanuriaan tilastotieteen peruskurssilla. Opiskelijoille on jäänyt hämärästi mieleen käsite “tilastollisesti merkittävä merkitsevä”, jota ani harva osaa määritellä.

Otannan laajuudesta saivartelevatkin aina ne paskantärkeät asiantuntijat, jotka haluavat torpata jonkin hankkeen.

“Tätä asiaa ei kannata mitata, koska tulokset eivät ole tilastollisesti merkitseviä.”

Se on melkein yhtä tehokas moukari kuin napauttaa, että “enhän minä ole mitään mieltä, mutta kun asiakas sanoi niin”.

Mutta mikä sitten on tilastollisesti merkitsevää?

Kirjoitin puolitoista vuotta sitten mittaamisguru Douglas W. Hubbardin ajatuksista jutussa Mitä mittaaminen oikeasti tarkoittaa?

Mittaamisen tarkoitus on vähentää epävarmuutta.

Tilastollinen merkitsevyys ei siis ole sama asia kuin se, toiko mittaus uutta tietoa. Se ei kerro sitäkään, ovatko tulokset taloudellisesti hyödyllisiä vai eivät.

Kirjassaan Hubbard kuvailee hartaasti, miten jo muutaman mittauksen otokset vähentävät epävarmuutta rajusti.

Nollan otos ei tietenkään auta mitään. Mutta kaikkein tärkein hetki on se, kun otos hyppää nollasta näytteestä yhteen.

(Toisaalta jos näytteitä on 30 – ja luottamusväli on 90 % – siitä virheen puolittamiseen tarvittava näytteiden määrä on nelinkertaistettava. Jos virhe olisi puristettava neljäsosaan, näytteitä olisi muhennettava jo peräti 480 kappaletta.)

Saman asian voi sanoa toisinkin: tutkija pääsee hyvin nopeasti pisteeseen, jonka jälkeen lisänäytteet eivät vaikuta käytännön päätöksiin.

Esimerkiksi tunnettu käytettävyystutkija Jacob Nielsen on todennut osuvasti, että jo yksi ainoa testikäyttäjä tuottaa lähes kolmanneksen havainnoista, joita tutkija voi ylipäätään saada.

Nielsenin mukaan kolme hiukan erilaista viiden koehenkilön käytöstä mittaavaa tutkimusta on paljon tehokkaampi yhdistelmä kuin yksi kaikille samanlainen viidentoista osallistujan tutkimus.

Nyt tietysti joku älähtää, että on hiukan eri asia tutkia mutkikasta hässäkkää, jota myös työttömän ihmisen elämäksi kutsutaan. Sitähän hämmentää lukematon erilaisia kannustimia.

Mutta mikä sitten olisi perustulokokeilulle sopiva mittaustarkkuus?

Tutkimustulosten pitäisi ohjata fiksuihin päätöksiin jusseja, jotka puhuvat lämpimikseen “kaiken maailman dosenteista”.

Hiukan epäilen, ettei jokin satunnainen puolen prosentin virhe käännä poliittisen eliittimme suuntaa tuuman vertaa.

Varo pedantteja työntekijöitäsi, joille mikään mittaus ei koskaan ole riittävän tarkka. Se on vain yksi verhottu tapa vastustaa muutoksia.