Luku 1 Johdanto

Korrespondenssianalyysi on deskriptiivinen data-analyysin menetelmä, joka soveltuu erityisesti luokitteluasteikon muuttujien yhteyksien analyysiin. Yksinkertainen esimerkki on kahden luokittelumuuttujan taulukko. Yksinkertainen korrespondenssianalyysi esittää taulukon rivien ja sarakkeiden riippuvuuden graafisesti, kaksiulotteisena karttana. Kahden muuttujan analyysin perusideat soveltuvat myös useamman muuttujan yhteyksien kuvaamiseen.

Taulukoita on kaikkialla, mutta niiden graafinen analyysi ei ole kovin yleistä.

1.1 Tutkielman tavoite ja toteutus

Tämän tutkielman tavoite on esittää korrespondenssianalyysin periaatteet data-analyysin sovellusten avulla. Tutustuin aiheeseen Michael Greenacren luennoilla Helsingissä keväällä 2017. Aivan huomaamatta tein harjoitustehtävinä karttoja, joita en oikein ymmärtänyt.

Pyrin esittelemään menetelmän niin, että data-analyysistä kiinnostunut lukija oivaltaa karttojen tulkinnan perusperiaatteet. Tilastotieteessä on aina ollut osana käytännöllinen, soveltajille suunnattu menetelmien esittely. En kirjoita kuitenkaan oppikirjaa, vaan tutkielman, jossa esittelen aineiston analyysin avulla menetelmää. Analyysien r-koodi on vapaasti saatavilla verkossa, kuten tämän tutkielman käsikirjoitus.

En etsi datasta vastauksia joihinkin substanssikysymyksiin vaan havainnollistan menetelmän mahdollisuuksia datan analyysissä. Tavoitteena on myös oman ymmärryksen lisääminen.

Tutkielman toteutus on rakennettu kolmelle perusajatukselle.

Yksinkertainen kahden luokittelumuuttujan korrespondenssianalyysi antaa graafisen analyysin ”…perussäännöt tulkinnalle. Kaikki muut korrespondenssianalyysin muodot ovat saman algoritmin soveltamista toisen tyyppisiin datamatriiseihin, ja tulkintaa sovelletaan vastaavasti (with the consequent adaptation of the interpretation)”(Greenacre ja Hastie (1987) s. 437). Tutkielman laajin osa on yksinkertaisen korrespondenssianalyysin tulosten ja peruskäsitteiden esittelyä.

Toiseksi käytän laajaa ja laadukasta kansainvälisen haastattelututkimuksen aineistoa. Korrespondenssianalyysi sopii survey-aineistojen analyysiin mainiosti, ja samaa dataa on käytetty alan oppikirjoissa ja artikkeleissa esimerkkiaineistona. Laaja ja mutkikas aineisto antaa oikean kuvan data-analyysistä ja samalla ohjaa analyysin kulkua. Data yllättää aina. Menetelmän on taivuttava tarvittaessa uusiin suuntiin. Tutkielman data-analyysissä jouduin moneen kertaan miettimään mihin suuntaan kannattaisi edetä. Datan analyysi tuo esiin sen ominaisuuksia, vaikka mitään sisällöllistä tutkimusongelmaa ei ole määritelty.

Kolmanneksi keskityn graafiseen analyysiin, kuvien tulkintaan. Korrespondenssianalyysin idea on esittää mutkikkaat riippuvuudet ja yhteydet kuvana. Samalla tavoite on tiivistää moniulotteisen datan informaatiosta mahdollisimman paljon kaksiulotteiselle kartalle. Informaatiota menetetään, ja tulkinnan varmistaminen numeerisista tuloksista estää virhepäätelmät. Kartan lukeminen ei ole aivan helppoa, mutta perussäännöt ovat melko selkeät. Graafinen data-analyysi on tasapainoilua datan analyysin ja tulosten esittämisen välillä. Tässä painottuu data-analyysi, ei vaativa viimeisteltyjen graafisten esitysten suunnittelu ja toteutus. Graafinen data-analyysi ei aina ole helppoa ja nopeaa.

1.2 Korrespondenssianalyysin historiaa

Korrespondenssianalyysi on 80-luvun alusta vähitellen vakiinnuttanut asemansa yhtenä ei-parametrisen kuvailevan data-analyysin menetelmänä. Kansainvälinen tutkijaverkosto CARME (Correspondence analysis and related methods network) järjesti ensimmäisen konferenssin 1991 (http://www.carme-n.org).

Korrespondenssianalyysi esitellään oppikirjoissa muiden menetelmien rinnalla. Hyviä esimerkkejä ovat ekologisen datan monimuuttujamenetelmien (M. Greenacre ja Primicerio 2013), kaksoiskuvien (Greenacre 2010) ja “koostumusdatan” (compositional data) (Greenacre 2018) kirjat. Suomessa korrespondenssianalyysi esitellään ainakin kahdessa oppikirjassa (Mustonen (1995) , Vehkalahti (2008)).

Korrespondenssianalyysi ja koulukunta syntyi ja vakiintui Ranskassa Jean - Paul Benzecrin (1932-2019) ympärille 60-luvulla. Ranskassa 70-luku oli “Analyse des Donnees” -liikkeen kultainen kausi. Kansaivälisesti se oli kuitenkin “loistavan eristyksen” aikaa. Vasta 80-luvulla menetelmä ylitti kielimuurin, ehkä osittain menetelmää soveltaneen sosiologi Pierre Bourdieun kansainvälisesti tunnettujen tutkimusten ansiosta. Benzecrin oppilaista Greenacre on oppikirjoillaan vaikuttanut paljon menetelmän vakiinnuttamiseen osaksi tilastotieteen perustekniikoita. Näiden kirjojen kansissa ei turhaan lue “…in practice”.

Toisena muurina on pidetty ranskalaisen koulukunnan tiukkaa “bourbakilaista” matemaattista esitystapaa. LeRoux ja Rouanet (2004) esittelevät tämän lähestymistavan englanniksi. Lyhyt historiallinen katsaus ja menetelmä soveltamisen perusajatusten esittely valaisevat ranskaa taitamattomalle data-analyysin koulukunnan ideoita. Kirjassa esitellään myös perusteellisesti muutama empiirinen tutkimus.

Eristys on päättynyt, ja tarina on kiinnostava osa tieteenhistoriaa.

1.3 Tutkielman rakenne

Datan esittelyn jälkeen esitellään korrespondenssianalyysin peruskäsitteet yksikertaisen esimerkin avulla luvussa 3.

Luvuissa 4 - 5 analyysiin lisätään täydentäviä pisteitä tulkinnan tueksi ja muodostetaan luokittelumuuttujien yhteisvaikutusmuuttujia (ikä ja sukupuoli).

Kolmen yhteisvaikutusmuuttujan (maa, sukupuoli ja ikäluokka) analyysi tehdään osajoukon korrespondenssianalyysillä luvussa 6.

Luvussa 7 esitellään lyhyesti kaksi tapaa tutkia useamman muuttujan yhteyksiä. Taulukoita yhdistämällä voidaan analysoida kahden muuttujaryhmän välisiä yhteyksiä. Monimuuttujakorrespondenssianalyysia (MCA) sovelletaan isoon aineistoon ja tällaisten aineistojen yleiseen ongelmaan, puuttuviin tietoihin. Menetelmällä tutkitaan yhden muuttujajoukon sisäisiä yhteyksiä.

Luvussa 8 sisältää yhteenvedon. Varsinaisten kahdeksan luvun lisäksi tutkielmassa on kolme liitettä.

Liite 1 esittelee tiiviisti menetelmän teorian. Korrespondenssianalyysin numeerisia tuloksia havainnollistetaan kuvalla, ja monimuuttujakorrespondenssianalyysin (MCA) käsitteitä esitellään hieman enemmän. MCA:n teoriaa ei käsitellä laajemmin, mutta tulkinnan ongelmat esitellään lyhyesti.

Tutkielma on tehty R-tilasto-ohjelmalla, ja korrespondenssianalyyseissä on käytetty ca-pakettia( Nenadic ja Greenacre (2007) ).

Tutkielman koodi on julkaistu Github-palvelussa (https://github.com/hirjus/capaper), samoin tutkielman käsikirjoitus (https://hirjus.github.io/capaper/ ) ja alustava data-analyysi.

Tekninen ympäristö on kuvattu tarkemmin liitteessä 2, myös sen ongelmat.

Liitteessä 3 on listattu tutkielman R-koodi.

1.4 Tärkeimmät lähteet

Tutkielman tärkein lähde on (M. J. Greenacre 2017) (jatkossa CAiP), ja muitakin saman tekijän artikkeleita on käytetty paljon. Kevään 2017 kurssimateriaali (M. Greenacre 2017) ja laskuharjoitusten koodi on ollut hyödyllinen pikaopas peruskäsitteisiin ja r-toteutuksen ratkaisuihin.

Carme-verkoston kolmas artikkelikokoelma (M. Greenacre ja Blasius 2006) on ajantasainen perusteos. Perusteelliset artikkelit kattavat myös korrespondenssianalyysin tärkeimmät aiheet.

Data on ensin luettava ohjelman ymmärtämään muotoon, ja erilaiset muunnokset kannattaa tehdä heti kun data luetaan. McNamara ja Horton (2018) kertovat, miten luokittelumuuttujia pitää R-koodissa käsitellä.