Luku 4 Täydentävät pisteet

Edellisessä luvussa kuviin listättiin informaatiota värisävyinä (kontribuutiot) ja rivi- ja sarakepisteiden kokoa muuntelemalla (massat). Täydentävät pisteet (supplementary points,CAiP s. 89-) ovat rivejä tai sarakkeita, jotka lisätään karttaan. Mikä tahansa rivi tai sarake voidaan lisätä kuvaan, jos se on järkevästi vertailukelpoinen kartan määrittäneiden profiilien kanssa.

Tällainen piste on kartan laskennassa passiivinen, sillä on sijainti kartalla mutta ei massaa eikä vaikutusta inertiaan. Passiivisilla pisteillä ei ole vaikutusta (kontribuutiota) kartan pääakseleihin.

Täydentävillä pisteillä on kolme yleistä käyttötarkoitusta. Kartalle voidaan lisätä profiili, joka on jollain lailla sisällöllisesti erilainen kuin muut. Esimerkkiaineistossa kartalle voisi lisätä joitain Euroopan ulkopuolisia maita. Vaikka nämä riviprofiilit eivät vaikuta kartan akseleiden määräytymiseen, ne voidaan esittää kuuden maan määrittämässä “avaruudessa”. Projektion laatu (suhteelliset kontribuutiot) voidaan myös esittää.

Toinen käyttötapaus on pienen massan profiili. Tällaisella pisteellä voi olla iso vaikutus ratkaisuun, mutta passiivisena pisteenä se sijoitetaan muiden pisteiden määrittämälle kartalle. Jo sisällöllisistä syistä pienen massan pisteiden esitystä kannattaa harkita, ne sijaitsevat kaukana origosta ja huonontavat kuvan laatua.

Kolmas mahdollisuus on jakaa pistejoukkoja osajoukkoihin ja esittää niiden summaprofiili täydentävänä pisteenä. Summaprofiili on osiensa painotettu (barysentrinen) keskiarvo. Kun se esitetään passiivisena pisteenä, havaintoja ei oteta ratkaisuun kahta kertaa. Profiilien yhdistämiseen liittyy korrespondenssianalyysin tärkein ominaisuus, jakaumaekvivalenssi (distributional equivalence). Se on ollut menetelmän kehittämisen tärkein tavoiteltu ominaisuus. Profiileiltaan samanlaiset rivit voidaan yhdistää, analyysin tulokset eivät muutu. Khii2-etäisyysmitta on ainoa etäisyysmitta, joka toteuttaa tämän periaatteen.

LeRoux ja Rouanet (2004) esittelevät menetelmän matemaattiset perusteet ja jakaumaekvivalenssin perusteellisesti. Havainnollinen esitys löytyy Greenacren oppikirjasta (CAiP).

Täydentävien profiilien lisääminen vaatii jo yksinkertaisia matriisioperaatioita. Korrespondenssianalyysi on käytännössä matriisien muokkausta tutkimusongelman tarpeisiin.

4.1 Saksan ja Belgian alueet

Saksan ja Belgian aineistossa on mukana aluejako: entiset Itä- ja Länsi-Saksa (dE,dW), Flanderi (bF), Vallonia (bW) ja Bryssel (bB).

Taulukko 4.1: Q1b vastaukset, Saksan ja Belgian alueet
S s ? e E Total
bF 5.04 23.81 25.89 30.83 14.43 100.00
bW 10.82 21.02 18.57 24.08 25.51 100.00
bB 17.03 20.94 16.63 23.87 21.53 100.00
BG 12.81 42.89 22.26 20.63 1.41 100.00
dW 11.40 26.82 11.83 32.13 17.82 100.00
dE 5.85 11.33 10.97 29.80 42.05 100.00
DK 5.04 17.15 10.95 16.71 50.14 100.00
FI 4.23 16.94 13.42 38.11 27.30 100.00
HU 21.97 28.89 22.57 19.06 7.52 100.00
All 9.95 23.76 16.79 26.10 23.41 100.00

Aineistoon lisätään passiiviisina riveinä Saksan ja Belgian maaprofiilit (DE, BE). Maiden massoja ei skaalata yhtä suuriksi, otoskoot vaikuttavat ratkaisuun.

Q1b: Saksan ja  Belgian aluejako

Kuva 4.1: Q1b: Saksan ja Belgian aluejako

Saksan ja Belgian täydentävät pisteet ovat osiensa barysentrisiä keskiarvoja, etäisyys on sitä pienempi mitä suurempi on osuus. Saksan piste sijaitsee siksi lähempänä Länsi-Saksan pistettä. Jos karttaa vertaa kuvaan 3.3 ei eroja juuri ole. Saksan ja Belgian osien sijoittuminen on kiinnostava. Itäinen Saksa on selvästi liberaalilla puolella, ensimmäisellä dimensiolla lähinnä Tanskaa. Läntinen Saksa on ensimmäisellä dimensiolla konservatiivisella puolella Belgian maapisteen tasolla. Belgian alueista Vallonia (bW) on liberaalilla puolella mutta kaikkein eniten oikealla. Bryssel ja Flanderi ovat konservatiivisella puolella, toinen Länsi-Saksaa liberaalimpi ja toinen konservatiivisempi. Belgian osat hajoavat toiseen suuntaan kuin Saksan, liberaalein Flanderi on myös kaikkein maltillisin ja Bryssel vastaavasti tiukempien mielipiteiden puolella. Sarakepisteiden suhteelliset sijainnit toisiinsa nähden eivät oleellisesti muutu.

Bryssel ja Vallonia näyttävä olevan hyvin lievästi U-muotoisen maapisteiden parven sisällä. Tämä kaariefekti tai Guttman-efekti on kartoissa yleinen. Se on tavallaan ratkaisun geometriasta. Rivipisteiden pilvi on sarakkeiden ideaalipisteiden virittämän verteksin sisällä, ja ainoa reitti verteksin kulmasta toiseen kulkee tasolla kaarevasti (CAiP, s. 127). Voi myös sanoa, että kaariefektin taustalla on järjestysasteikon muuttujan korrelaatio ((LeRoux ja Rouanet 2004), s. 220). Kaaren sisäpisteet ovat usein polarisoituneita ensimmäisen dimension “ääripäävastausten” välillä. Tässä vaikutus on heikko, taulukossa 4.1 ei mitään selvää polarisaatiota näy.

Q1b: Saksan ja  Belgian aluejako

Kuva 4.2: Q1b: Saksan ja Belgian aluejako

Kontribuutiokartasta täydentävät pisteet on jätetty pois, ne eivät vaikuta ratkaisuun. Saksan ja Belgian osien massat ovat tietenkin pienempiä.

Sarakkeiden kontribuutiot ovat samantapaiset kuin alkuperäisessä kartassa 3.6. Rivipisteiden kontribuutioista osa on selvästi pienempiä, erityisesti Länsi-Saksa kaksi Belgian aluetta (bB, bF). Kuvan perusteella ei voi sanoa johtuuko tämä pelkästään massojen pienentymisestä.

Unkarin ja Bulgarian kontribuutiot muuttuvat eri suuntiin, Unkarin pienenee ja Bulgarian kasvaa.

4.2 Korrespondenssianalyysin numeeriset tulokset

Korrespondenssianalyysin numeeriset tulokset ovat tärkeitä tulkinnan varmistamiselle ja antavat tarkemman kuvan ratkaisusta. Nämä tulokset ovat erilaisia kokonaisinertian dekomponointeja. Kokonaisinertia (total inertia) profiilien ja keskiarvoprofiilin khii2-etäisyyksien massoilla painotettu summa (kaava (3.6)). Se kuvaa profiilipisteiden hajontaa ideaalipisteiden verteksin sisällä. Maksimi-inertia saavutetaan kun profiilit ovat verteksien kärkipisteissä, jokaisessa profiilissa on vain yksi luokittelumuuttujan arvo. Inertia on sama kuin ratkaisun dimensio, tässä esimerkissä 4 (sarakkeiden lukumäärä - 1). Numeeristen tulosten esittelyn tärkein lähde on CAiP, luku 11 ja liite B.

R-paketti “ca” listaa numeeriset tulokset suppeasti (print) ja laajemmin (summary). Alla on laajempi tulostus tutkielman esimerkin tilanteesta.

Ensimmäisenä on listattu kokonaisinertia pääakseleittain. Tässä suhteelliset luvut on esitetty prosentteina. Muut luvut on luettavuuden vuoksi skaalattu, joko kerrottu tuhannella tai esitetty “permills” (summa on 1000).

## 
## Principal inertias (eigenvalues):
## 
##  dim    value      %   cum%   scree plot               
##  1      0.154101  73.4  73.4  ******************       
##  2      0.032489  15.5  88.9  ****                     
##  3      0.014294   6.8  95.7  **                       
##  4      0.008944   4.3 100.0  *                        
##         -------- -----                                 
##  Total: 0.209828 100.0                                 
## 
## 
## Rows:
##       name   mass  qlt  inr    k=1 cor  ctr    k=2 cor  ctr  
## 1  |    bF |  124  650   69 |  157 212   20 | -226 438  195 |
## 2  |    bW |   60  388    3 |  -36 137    0 |   48 252    4 |
## 3  |    bB |   63  481   17 |   85 127    3 |  142 354   39 |
## 4  |    BG |  113  878  215 |  590 874  255 |   43   5    6 |
## 5  |    dW |  143  345   33 |  100 208    9 |  -81 138   29 |
## 6  |    dE |   67  966   82 | -495 960  107 |  -41   7    3 |
## 7  |    DK |  170  971  327 | -591 869  387 |  202 102  214 |
## 8  |    FI |  136  957   79 | -206 352   38 | -271 605  307 |
## 9  |    HU |  122  927  177 |  477 751  181 |  231 176  201 |
## 10 | (*)BE | <NA>  512 <NA> |   92 338 <NA> |  -66 173 <NA> |
## 11 | (*)DE | <NA>  418 <NA> |  -90 265 <NA> |  -68 153 <NA> |
## 
## Columns:
##     name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1 |    S |   99  816  167 |  421 505 115 |  331 311 335 |
## 2 |    s |  238  781  143 |  309 759 147 |   52  22  20 |
## 3 |      |  168  594   88 |  255 589  71 |  -22   4   2 |
## 4 |    e |  261  871   98 |  -12   2   0 | -262 870 550 |
## 5 |    E |  234  999  505 | -663 971 667 |  113  28  93 |

Rivi- ja sarakeprofiileista esitetään samat tiedot. Ensimmäisessä kolmen sarakkeen joukossa kerrotaan pisteen massa, laatu (qlt) ja inertiakontribuutio.

Inertiakontribuutio (inr) on suhteellinen osuus kokonaisinertiasta. Aktiivisia rivejä on 9, joten tasaisesti jaettu inertia olisi noin 110. Tanska, Bulgaria ja Unkari “selittävät” suurimman osan inertiasta. Belgian ja Saksan alueiden kontribuutiot ovat pieniä. Nämä inertiaosuudet ovat osuuksia kokonaisinertiasta alkuperäisessä neljässä ulottuvuudessa.

Laatu kertoo, miten hyvin piste on esitetty kartalla, miten suuri osa sen inertiasta on esitetty kartalla. Pisteen inertia on sen massalla painotettu poikkeama aineiston keskiarvosta, ja jos tämä poikkeama saadaan kartassa näkymään piste on esitetty hyvin.

Kaksiulotteinen kartta, kuten tässä, on yleisin valinta, laatu kerrotaan valitulle dimensioiden määrälle. Laatu ei riipu massasta, vaan pisteen ja kartan akseleiden välisistä kulmista (kts. teorialiite). Saksan osien ero laadussa on iso, Itä-Saksalla se on erittäin hyvä ja Länsi-Saksalla huono. Belgian alueista Vallonia on huonoimmin esitetty, ja vain Flanderin laatu on kohtuullisen hyvä. Kovin hyvä ei ole täydentävien maapisteidenkään laatu.

Kaksi seuraavaa kolmen sarakkeen ryhmää kertovat tulokset valituille dimensioille eli ratkaisulle. Molempien dimensioiden (“k=1”, “k=2”) pääkoordinaattien (x 1000) lisäksi raportoidaan dimension suhteellinen kontribuutio pisteen inertiaan (“cor”). Nämä tunnusluvut summautuvat laaduksi (qlt), ja ne voidaan tulkita korrelaation neliöiksi (kts. teorialiite).

Erityisesti Belgian alueiden projektion laatu on huonompi ensimmäisellä dimensiolla. Itä-Saksa ja Bulgaria taas ovat hyvin esitettyjä vain ensimmäisellä dimensiolla eivätkä juuri ollenkaan korreloi toisen dimension kanssa.

Pisteen absoluuttinen kontribuutio kertoo sen osuuden dimension inertiasta (summa 1000). E-sarake “selittää” ensimmäisen dimension inertiasta noin 66 prosenttia, ja dimensio saman verran kokonaisinertiasta. Absoluuttinen kontribuutio riippuu massasta ja siitä paljonko piste poikkeaa koko aineiston keskiarvopisteestä.

Numeerisista tuloksista voidaan varmistaa akseleiden tulkinta sarakkeiden avulla. Sarakkeet ovat hyvin esitettyjä tasossa, ainoastaan neutraali vaihtoehto on heikommin kuvattu, mutta sillä ei ollut roolia tulkinnassa.

E-sarakkeen vaikutuksen suunta ensimmäisellä dimensiolla näkyy pääkoordinaatin etumerkistä (k1 = -663), ja sen kontrastina ovat S- ja s- sarakkeet positiiviseen suuntaan. Toinen dimensio on kontrasti S- ja e-sarakkeiden välillä ja ne selittävät akselin inertian. Kaikki tämä voitiin päätellä kuvasta, ja numeeriset tulokset vahvistavat tulkinnan. Sarake S on ainoa, jonka kontribuutio on merkittävä molemmille dimensioille.

Jos pisteen kontribuutio akselille on iso, akselin suhteellinen kontribuutio (cor) pisteen inertiaan on suuri. Kääntäen tämä ei päde, piste voi olla akselilla hyvin esitetty mutta kontribuutio on silti pieni.

4.3 Esimerkki kolmiulotteisesta kartasta

Belgian ja Länsi-Saksan pisteet on esitetty huonosti kaksiulotteisella kartalla. Kolmiulotteinen ratkaisu näyttää miten ne sijoittuvat kolmannen akselin suunnassa. Tässä tarkastelu on vain diagnostiikkaa. Toisenlainen esimerkki on tutkimus Ranskan politiikan dimensiosta (“French political space”) 1990-luvun lopulla (LeRoux ja Rouanet 2004, 365). Siinä Ranskan poliittiset puolueet sijoitetaan kolmelle sisällöllisesti perustellulle dimensiolle.

Kolmannen dimension hajonnan voi esittää kahtena karttana.

Ensimmäisen ja kolmannen dimension kuvassa (Kuva 4.3) näkyy pisteparven hajonta tärkeimmän dimension ympärillä. Sarakepisteiden järjestys säilyy samana, samoin maapisteiden oikealta vasemmalle. Kaikki pisteet paitsi Vallonia hajoavat kolmannen akselin suuntaan. Belgian kahden pisteen (bB ja bF) eron havaitsee helposti, samoin Unkarin ja Bulgarian.

Q1b: Saksan ja  Belgian aluejako

Kuva 4.3: Q1b: Saksan ja Belgian aluejako

Q1b: Saksan ja  Belgian aluejako

Kuva 4.4: Q1b: Saksan ja Belgian aluejako

Toisen ja kolmannen dimension kartalla (Kuva 4.4) on esitetty noin viidesosa kokonaisinertiasta. Tässäkin kuvassa Brysselin (bB) ja Unkarin pisteet ovat kontrastina Flanderin, Bulgarian ja Tanskan pisteille.

Diagnostisessa tarkastelussa on helpompaa käyttää dynaamisia kolmiulotteisia kuvia. R-ympäristössä saa grafiikkaikkunaan tulostettua kolmiulotteisen kuvan, jota voi käännellä ja katsoa eri kulmista. Näin saa paljon helpommin käsityksen kolmannen dimension hajonnasta.

Tässä on tyydyttävä kahteen kuvakaappaukseen (ks. alla kuvat 4.5 ja 4.6).

Saksan ja  Belgian aluejako - 3d-kuva1

Kuva 4.5: Saksan ja Belgian aluejako - 3d-kuva1

Saksan ja  Belgian aluejako - 3d-kuva2

Kuva 4.6: Saksan ja Belgian aluejako - 3d-kuva2

Miten kaksiulotteisessa kartassa huonosti esitettyjen pisteiden analyysiä voisi jatkaa? Siihen nämä kartat eivät suoraan anna mitään vastausta. Vaihtoehtoisia tapoja esitellään seuraavissa luvuissa.