Luku 5 Yhteisvaikutusmuuttujat

Yksinkertaisin tapa tutkia taustamuuttujien yhteisvaikutuksia on yhdistää kaksi muuttujaa uudeksi luokittelumuuttujaksi (“interactive coding”). Miehet ja naiset on seuraavaksi luokiteltu kuuteen ikäluokkaan (1=15-25, 2 =26-35, 3=36-45, 4=46-55, 5=56-65, 6= 66 tai vanhempi).

Poikkileikkausaineistossa vastaajan ikä kertoo myös ikäluokan (kohortin). Vastaajat ovat kokeneet kaksi suurta mullistusten vuotta elämänsä eri vaiheissa. Kaksi nuorinta ikäluokkaa on ollut 1990 alle 14-vuotiaita ja vanhin ikäluokka yli 44-vuotiaita. Finanssikriisin vuonna 2008 toiseksi nuorin ikäluokka on ollut 22-31 vuotiaita, ja kaksi vanhinta yli 51-vuotiaita. Pelkän ikävaikutuksen analyysi edellyttäisi vähintään kahden aineiston yhdistämistä.

Kolmen muuttujan yhteisvaikutusmuuttajaan yhdistän vastaajan maan. myös maa. Käytännössä kolmen luokittelumuuttujan yhdistäminen tekee taulukosta jo huteron, joissain soluissa havaintojen määrä pienenee. Kaikissa soluissa on sentään viisi havaintoa tai enemmän. Pienten massojen profiilien ja harvinaisten kategorioiden vaikutukset on kuitenkin arvioitava, ne voivat joskus, mutta onneksi harvoin, määrittää sitä liikaa.

5.1 Ikä ja sukupuoli

Ikäjakauma painottuu kaikissa maissa jonkin verran vanhempiin ikäluokkiin. Nuorempien ikäluokkien osuus on (alle 26-vuotiaat ja alle 26-35 - vuotiaat) varsinkin Bulgariassa (BG) ja Unkarissa (HU) pieni.

Ikäluokilla on luonnollinen järjestys, niiden pisteet voidaan yhdistää nuorimmasta vanhimpaan.

Q1b: ikäluokka ja sukupuoli

Kuva 5.1: Q1b: ikäluokka ja sukupuoli

Ratkaisu on melko yksiulotteinen, ensimmäinen dimensio kuvaa 87 prosenttia kokonaisinertiasta. Dimensioiden tulkinta on suurin piirtein sama kuin edellisissä kartoissa, mutta S-sarake on kiusallisesti s-sarakkeen vasemmalla puolella. Numeerisista tuloksista näkee (ks. tuloste alla), että sarakkeiden s ja E osuus kokonaisinertiasta (sarake inr) on 768. Niiden kontribuutio x-akselille on yhteensä vielä suurempi (849). Muut sarakkeet taas kontribuoivat y-akselin inertiaan, mutta sen osuus kokonaisinertiasta on vain 9 prosenttia. Kun sarakkeet kuitenkin ovat aika hyvin esitettyjä (qlt), voidaan x- akseli tulkinta hieman karkeammin samaa mieltä - eri mieltä - tasolla samaksi liberaalien ja konservatiivisten asenteiden ulottuvuudeksi. Toinen dimensio kuvaa tiukempaa samanmielisyyttä (S), kontrastina neutraali (?) ja maltillinen erimielisyys (s).

## 
## Principal inertias (eigenvalues):
## 
##  dim    value      %   cum%   scree plot               
##  1      0.037448  87.0  87.0  **********************   
##  2      0.003977   9.2  96.2  **                       
##  3      0.001041   2.4  98.6  *                        
##  4      0.000590   1.4 100.0                           
##         -------- -----                                 
##  Total: 0.043055 100.0                                 
## 
## 
## Rows:
##      name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1  |   f1 |   60  990   36 | -125 614  25 |  -98 376 145 |
## 2  |   f2 |   83  997  163 | -289 983 185 |   35  14  25 |
## 3  |   f3 |   91  984   47 | -146 958  52 |   24  26  13 |
## 4  |   f4 |  101 1000   97 | -186 836  93 |   82 164 172 |
## 5  |   f5 |   98  879    4 |  -35 658   3 |   20 221  10 |
## 6  |   f6 |  100  951  176 |  256 866 175 |   80  85 162 |
## 7  |   m1 |   57  659   32 |   42  72   3 | -120 587 205 |
## 8  |   m2 |   66  977   57 | -187 946  62 |  -34  30  19 |
## 9  |   m3 |   78  457    5 |  -31 318   2 |  -20 139   8 |
## 10 |   m4 |   89  674   14 |   58 482   8 |  -37 192  30 |
## 11 |   m5 |   89  988   90 |  189 818  85 |  -86 170 166 |
## 12 |   m6 |   89  978  277 |  360 963 307 |   45  15  45 |
## 
## Columns:
##     name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1 |    S |   99  915  128 |  196 695 102 |  110 220 304 |
## 2 |    s |  238  969  304 |  230 961 336 |   21   8  27 |
## 3 |      |  168  777   46 |   62 330  17 |  -73 447 223 |
## 4 |    e |  261  897   58 |  -68 473  32 |  -64 424 268 |
## 5 |    E |  234  997  464 | -286 962 513 |   55  35 177 |

Rivien massat ovat melko samankokoisia, mutta kolmen ryhmän (f2, f6 ja m6) osuus kokonaisinertiasta on 616 ja niiden kontribuutio ensimmäiselle dimensiolle on 567. Vain 36-45-vuotiaiden miesten (m3) piste on huonosti esitetty (qlt = 457). Tulkinta on hankalaa miesten ja naisten nuorimman ryhmän osalta, vaikka efekti kartalla on iso. Molempien osuus kokonaisinertiasta on pieni (inr). Nuoret naiset (f1) on kuvattu kartalla erittäin hyvin. Nuorten miesten (m1) esityksen laatu on heikompi, ja kaikista suurin kontribuutio on vain y-akselille. Kun muut ikäryhmät (paitsi f3) ovat ikäjärjestyksessä vasemmalta oikealle, voi nuorimpien ja vanhimpien ikäryhmien sijainnin tulkita osittain toisen dimension (varma mielipide - epävarma mielipide) avulla.

Selvästi kaikissa ikäluokissa miehet ovat konservatiivisempia kuin naiset. Nuorin ikäluokka on vähemmän varma mielipiteistään kuin vanhin. Yksi mahdollinen selitys kartan tulkinnan ongelmille on se, että maiden väliset erot mielipiteissä ovat paljon suurempia kuin sukupuolten väliset maiden sisällä (ISSP 1994 aineisto, CAiP, s.126).

5.2 Ikä, sukupuoli ja maa

Ikäluokan, sukupuolen ja maan yhteisvaikutusmuuttuja lisää kuvapisteiden määrää. Kuvasta 5.2 saa jotenkin selvää, kun sen suurentaa mutta pisteitä on selvästi liikaa. Joitain muuttujien nimiä voisi lyhentää, kuva-alaa voisi rajata joihinkin osiin mutta osajoukon korrespondenssianalyysi tarjoaa pätevimmän vaihtoehdon.

Q1b: ikäluokka ja sukupuoli maittain

Kuva 5.2: Q1b: ikäluokka ja sukupuoli maittain

Sarakkeiden järjestys vasemmalta oikealle ja ylhäältä alas on sama kuin edellisissä kartoissa. Dimensioiden tulkinta on sama, osuus inertiasta pienenee x-akselilla noin 6 prosenttiyksikköä. Pisteiden järjestys liberaalista konservatiiviseen alkaa Tanskan ja Suomen pisteistä, sitten tulevat Saksan ja Belgian pisteet ja konservatiivisimpia ovat oikeassa laidassa Unkari ja Bulgaria. Toisella akselilla maltillisia ja neutraaleja ovat karkeasti Suomen pisteet ja lähes kaikki Saksan ja Belgian pisteet. Eri maiden osajoukkojen suhteita on hankalampi hahmottaa, erityisesti kartan oikealla laidalla.

Numeeristen tulosten taulukko on pitkä (ks. alle), mutta kartan informaatio pitää varmistaa. Numeeriset tulokset eivät ole pelkkää diagnostiikkaa ja kartan esittämien riippuvuuksien varmistamista. Niistä näkee myös tarkemmin mahdolliset kiinnostavat piirteet datassa. Regressiomallien tulosten raporteissa diagnostiikka on usein liitteenä, mutta eksploratiivisessa data-analyysissä se ohjaa analyysiä eteenpäin.

Tässä voi nähdä myös todennäköisyysteoriaan perustuvan tilastollisen mallintamisen vahvan puolen, aineiston rakenne ja muuttujien yhteydet saadaan parhaassa tapauksessa esitettyä paljon tiiviimmin.

## 
## Principal inertias (eigenvalues):
## 
##  dim    value      %   cum%   scree plot               
##  1      0.184895  70.3  70.3  ******************       
##  2      0.038751  14.7  85.0  ****                     
##  3      0.024006   9.1  94.1  **                       
##  4      0.015502   5.9 100.0  *                        
##         -------- -----                                 
##  Total: 0.263154 100.0                                 
## 
## 
## Rows:
##      name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1  | BEf1 |   14  678    9 |  -83  43   1 | -320 635  38 |
## 2  | BEf2 |   24  914   11 | -278 650  10 | -177 264  20 |
## 3  | BEf3 |   21  320    3 |  -62  96   0 |  -95 224   5 |
## 4  | BEf4 |   24  164    3 |  -50  92   0 |  -44  71   1 |
## 5  | BEf5 |   23  332    5 |  133 304   2 |  -40  28   1 |
## 6  | BEf6 |   23  832   17 |  371 710  17 |  153 121  14 |
## 7  | BEm1 |   11  429    9 |  284 367   5 | -117  62   4 |
## 8  | BEm2 |   17  372    5 | -113 169   1 | -125 203   7 |
## 9  | BEm3 |   20  108    1 |   17  29   0 |  -29  79   0 |
## 10 | BEm4 |   22  966    5 |  225 812   6 |  -98 154   5 |
## 11 | BEm5 |   22  728    8 |  255 686   8 |  -63  42   2 |
## 12 | BEm6 |   26  788   15 |  348 788  17 |   -5   0   0 |
## 13 | BGf1 |    5  531   11 |  547 531   8 |   -9   0   0 |
## 14 | BGf2 |    8  860   14 |  640 853  17 |   59   7   1 |
## 15 | BGf3 |   12  815   21 |  617 804  24 |   75  12   2 |
## 16 | BGf4 |   10  932   12 |  519 927  15 |  -39   5   0 |
## 17 | BGf5 |   14  880   23 |  609 870  28 |   66  10   2 |
## 18 | BGf6 |   18  921   32 |  627 846  39 |  186  74  16 |
## 19 | BGm1 |    5  940    7 |  596 878   9 |  159  62   3 |
## 20 | BGm2 |    6  830    9 |  557 788  11 | -130  43   3 |
## 21 | BGm3 |    8  709   19 |  655 698  19 |   83  11   1 |
## 22 | BGm4 |    8  771   11 |  540 754  12 |  -81  17   1 |
## 23 | BGm5 |   10  979   11 |  524 977  15 |   21   2   0 |
## 24 | BGm6 |    9  692   27 |  701 647  24 |  184  45   8 |
## 25 | DEf1 |   13  425    3 |  -41  29   0 | -149 395   7 |
## 26 | DEf2 |   15  938   10 | -415 919  14 |  -60  19   1 |
## 27 | DEf3 |   19  846   13 | -333 582  11 | -224 264  24 |
## 28 | DEf4 |   23  985   13 | -390 982  19 |  -18   2   0 |
## 29 | DEf5 |   17  839    7 | -297 772   8 |  -87  67   3 |
## 30 | DEf6 |   23  116    8 |  -56  32   0 |   90  84   5 |
## 31 | DEm1 |   13  912    4 |  124 180   1 | -250 732  20 |
## 32 | DEm2 |   13  766    4 |   38  16   0 | -259 749  22 |
## 33 | DEm3 |   15  737    4 |  -64  63   0 | -210 674  17 |
## 34 | DEm4 |   21  137    5 |   -1   0   0 |  -89 137   4 |
## 35 | DEm5 |   19  603    5 |   76  75   1 | -202 529  20 |
## 36 | DEm6 |   22  849   12 |  244 427   7 |  242 422  34 |
## 37 | DKf1 |   10  991   15 | -567 839  18 |  241 152  15 |
## 38 | DKf2 |   14  991   49 | -888 831  58 |  389 160  53 |
## 39 | DKf3 |   17  963   53 | -816 793  60 |  377 170  61 |
## 40 | DKf4 |   18  977   57 | -826 820  66 |  362 157  61 |
## 41 | DKf5 |   16  998   38 | -753 894  48 |  258 105  27 |
## 42 | DKf6 |   12  808    9 | -340 579   8 |  214 229  14 |
## 43 | DKm1 |   15  981    7 | -329 898   9 |  100  83   4 |
## 44 | DKm2 |   13  989   43 | -895 900  55 |  282  89  26 |
## 45 | DKm3 |   13  982   28 | -728 950  38 |  134  32   6 |
## 46 | DKm4 |   15  941   19 | -534 855  24 |  170  86  11 |
## 47 | DKm5 |   13  643    9 | -281 435   6 |  194 208  13 |
## 48 | DKm6 |   15  355    5 |   89  85   1 |  158 270   9 |
## 49 | FIf1 |   12  980   11 | -417 693  11 | -269 287  21 |
## 50 | FIf2 |   12  927   26 | -730 907  34 | -110  21   4 |
## 51 | FIf3 |   12  984   13 | -423 590  11 | -346 394  36 |
## 52 | FIf4 |   14  991   14 | -398 644  12 | -292 347  32 |
## 53 | FIf5 |   17  952    8 | -240 502   5 | -227 450  23 |
## 54 | FIf6 |   11  835    7 |  151 134   1 | -347 701  35 |
## 55 | FIm1 |    7  787    5 | -115  78   1 | -347 710  22 |
## 56 | FIm2 |    9  977   14 | -598 832  17 | -250 146  14 |
## 57 | FIm3 |    9  998    6 | -345 629   6 | -265 369  16 |
## 58 | FIm4 |   13  837    6 |   19   3   0 | -316 834  33 |
## 59 | FIm5 |   12  734    7 |  220 289   3 | -273 446  23 |
## 60 | FIm6 |    9  911    6 |  336 637   6 | -220 274  12 |
## 61 | HUf1 |    7  723    9 |  499 698   9 |   93  25   1 |
## 62 | HUf2 |   11  689   11 |  438 685  11 |  -35   4   0 |
## 63 | HUf3 |   12  808   18 |  484 586  15 |  298 222  27 |
## 64 | HUf4 |   11  768   18 |  491 564  15 |  296 204  25 |
## 65 | HUf5 |   12  850   13 |  474 753  14 |  170  97   9 |
## 66 | HUf6 |   13  671   34 |  637 581  28 |  251  90  21 |
## 67 | HUm1 |    6  935    5 |  426 766   6 |  201 170   6 |
## 68 | HUm2 |    9  381   11 |  344 381   6 |   -2   0   0 |
## 69 | HUm3 |   13  957   12 |  441 803  13 |  193 154  12 |
## 70 | HUm4 |   10  999   10 |  468 830  12 |  211 169  11 |
## 71 | HUm5 |   13  942   12 |  472 891  15 |  113  51   4 |
## 72 | HUm6 |    8  726   15 |  517 529  11 |  315 197  20 |
## 
## Columns:
##     name   mass  qlt  inr    k=1 cor ctr    k=2 cor ctr  
## 1 |    S |   99  653  155 |  450 492 109 |  258 162 171 |
## 2 |    s |  238  741  174 |  364 687 170 |  102  54  63 |
## 3 |      |  168  535   96 |  284 534  73 |  -11   1   1 |
## 4 |    e |  261  941  103 |  -45  20   3 | -310 921 646 |
## 5 |    E |  234 1000  471 | -714 962 645 |  141  37 119 |

Tuloksista nähdään, että sarakkeet on kohtalaisen hyvin esitetty, heikoimmin neutraali vaihtoehto (qlt = 535). Kun sen suhteellinen kontribuutio (cor) on vain 1 toisella dimensiolla jää loppuosa x-akselille. Maltillisuuden dimensiota määrittää e-sarake (ctr = 646), ja vain sitä. Ensimmäistä dimensiota määrittää vahvimmin E-sarake (ctr = 645) liberaaliin ja samaa mieltä olevien sarakkeet (s, S) konservatiiviseen suuntaan.

Kun aineistossa on 72 riviä, on inertian suhteellisen kontribuution keskiarvo noin 14. Tämän ylittäviä kontribuutiota on Bulgarian naisilla (BGf2, BGf3, BGf5 ja BGf6), kaikilla konservatiiviseen suuntaan. Sama pätee Unkarin naisille, muuten naisten ikäluokat kontribuoivat yleensä liberaaliin suuntaan. Suomen pisteiden absoluuttiset kontribuutiot ovat lähes pelkästään toiselle dimensiolle maltilliseen suuntaan. Tanska taas kontribuoi vahvasti jyrkempien mielipiteiden suuntaan.

5.3 Stabiilisuus

Tarkastelen tässä vain ratkaisustabiiliutta (solution stability). Siinä data on annettu, ja ratkaisun numeerisista tuloksista nähdään miten pisteet määrittävät akselit. Ratkaisu on stabiili niiden pisteiden suhteen, jotka eivät vaikuta siihen.

Ulkoinen stabiilius on laajempi käsite, siinä huomioidaan esimerkiksi datan suhde johonkin perusjoukkoon (CAiP, s. 225).

Korrespondenssianalyysiä ja erityisesti khii2- etäisyysmittaa on arvosteltu siitä, että se on liian herkkä harvinaisille luokittelumuuttujan arvoille. Yhteenvetoartikkelissaan M. Greenacre (2006) tarttuu ”vaikuttavien poikkeavien havaintojen myyttiin”, ja pitää sitä lähes aina perusteettomana.

Harvinaiset kategoriat ovat usein kartalla kaukana origosta, mutta jokaisella pisteellä on massa ja näillä poikkeavilla havainnoilla (outlier) se on pieni. Niinpä niiden vaikutuskin on vaatimaton.

Harvinaisten kategorioiden vaikutus voi olla suuri, joten numeerisista tuloksista on tarkistettava, onko hyvin pienen massan pisteillä suuri kontribuutio ratkaisuun. Käytännössä näin voi käydä esimerkiksi silloin, kun jonkun harvinaisen luokittelumuuttujan arvon havainnot ovat keskittyneet muutamaan profiiliin, joissa niiden osuus on suuri (CAiP, s 298). Luvussa 7 nähdään, miten melko vähäinen määrä puuttuvia vastauksia kasaantuu samaan vastaajien osajoukkoon ja mitä seurauksia sillä on.

Stabiiliutta voi helposti kokeilla määrittelemällä joitain pisteitä täydentäviksi pisteiksi.

En löytänyt kartan 5.2 numeerisista tuloksista pienen massan pisteitä, joilla on merkittävä kontribuutio akseleihin.