Tilastoja Kalevalan ja Kantelettaren tekstistä

4.3.2010

Harri Perälä, <harri.perala@iki.fi>

Sisältö

Johdanto

Seuraavassa esitetään joukko tilastoja, jotka on laskettu Kalevalan ja (hieman lyhennetyn) Kantelettaren tekstistä. Laskennassa on käytetty Kalevalaisen Runokielen Seuran (Karusen) Trokeemankeli-tietokoneohjelmaa. Saman ohjelman aikaisempaa versiota on tätä ennen käytetty Kalevalan ja Helkavirsien virhesäkeiden ja runosäkeen muunnelmien analysoinnissa [1][2]. Tässä kirjoituksessa esitetään entistä laajempi valikoima erilaisia kieleen ja runomittaan liittyviä lukuarvoja ja otetaan käsiteltäväksi myös Kanteletar.

Aineisto ja menetelmät

Kumpaakin teosta edusti laskennassa tekstitiedosto, josta on poistettu otsikot, tyhjät rivit ja muu ylimääräinen siten, että jokaisella rivillä on yksi runosäe. Käytetyt tiedostot ovat ladattavissa verkosta [3]. Kalevalaa edustava tiedosto (kalevala_vain_sakeet.txt, muutettu 22.6.2003) on koottu Suomalaisen Kirjallisuuden Seuran verkkosivuilla julkaistusta tekstistä. Kanteletarta edustava tiedosto (kanteletar_karsittu.txt, muutettu 31.1.2010) perustuu Project Gutenbergin julkaisemaan tekstiin [5]. Tiedostosta on jätetty pois seuraavat Kantelettaren osat, joissa on runsaasti ei-kalevalamittaisia säkeitä: ensimmäisen kirjan runot 122, 178, 198 ja 207–238 sekä kolmannen kirjan runo 27. Poistojen määrä on noin 1 100 säettä.

Lähdetiedostojen tekniset virheet lienevät niin vähäisiä, että ne eivät vaikuta suuresti useimpiin laskettuihin tilastoihin. Kalevalaa edustavan tiedoston rivien määrä on sama kuin teoksen eri lähteissä ilmoitettu pituus, 22 795 säettä [4], mutta tulosten tarkastuksessa kävi ilmi, että tiedostossa on ainakin yksi ylimääräinen ja yksi puuttuva rivinvaihto, jotka kumoavat toisensa. Parissa virheelliseksi merkityssä säkeessä tekstistä puuttui kirjaimia (esimerkiksi ”tulitikku hampahiss”). Kanteletarta edustavassa tekstissä on joitain laajempia virheitä, sillä ainakin toisen kirjan 91. runo ja ensimmäisen kirjan 148. runon alku näyttävät puuttuvan. Virhemerkittyjen säkeiden tarkastuksessa ei löytynyt rivinvaihtoihin liittyviä ongelmia, mutta parista säkeestä (”Sitte lähtivät ajhon”, ”Paksun leivän paistajnsa”) puuttunee kirjaimia.

Tilastojen laskennassa käytettiin Karusen Trokeemankeli -ohjelman offline-versiota (versionumero 0.4) [6]. Kummastakin tekstistä tulostettiin rivikohtainen analyysi, josta laskettiin lopulliset tilastotiedot tätä tarkoitusta varten kirjoitetulla skriptillä. Muutama perustieto saatiin suoraan ohjelman yhteenvetotoiminnolla. Laskennassa käytetyt Python-kieliset skriptit ovat ladattavissa seuraavista linkeistä:

Tulosten luotettavuutta arvioitiin käymällä läpi säkeitä, jotka ohjelma oli tulkinnut virheellisiksi. Kalevalan tuloksista tarkastettiin kaikki virhemerkityt säkeet, mutta enemmän virhemerkintöjä tuottaneen Kantelettaren tuloksista poimittiin tarkastettavaksi sata virhemerkittyä säettä eri puolilta teosta. 

Tulokset

Taulukossa 1 on esitetty eräitä perustietoja.

Taulukko 1. Tietyt kriteerit täyttävien rivien osuus.
Kalevala Kanteletar
1 Rivejä kaikkiaan 22795 21015
2 Murtosäe 11307 (49,6 %) 10414 (49,6 %)
3 Merkitty virheelliseksi 247 (1,1 %) 757 (3,6 %)
4 Pelkkä varoitusmerkintä 47 (0,2 %) 86 (0,4 %)
5 9-tavuinen 807 (3,5 %) 989 (4,7 %)
6 10-tavuinen 31 (0,1 %) 25 (0,1 %)
7 Vahva alkusointu 12820 (56,2 %) 12853 (61,2 %)
8 Pelkkä heikko alkusointu (myös eri vokaali) 6086 (26,7 %) 4619 (22,0 %)
9 Pelkkä heikko alkusointu (vain konsonantit) 5105 (22,4 %) 3901 (18,6 %)
10 Päättyy samaan tavuun kuin edellinen säe 4370 (19,2 %) 4449 (21,2 %)
11 Oletustavutusta muokattu 178 (0,8 %) 450 (2,1 %)

Kommentteja:
Rivi 1: Huomaa, että Kantelettaren rivimäärä tarkoittaa laskennassa käytetyn, lyhennetyn tekstitiedoston rivimäärää.
Rivi 3: Sisältää rivit, joille ohjelma totesi vähintään yhden virheen. Virheistä ja varoituksista on alla tarkempi erittely.
Rivi 4: Sisältää säkeet, joille ohjelma merkitsi varoituksen, mutta ei yhtään virhettä.
Rivi 7: Säkeen katsotaan tässä sisältävän vahvan alkusoinnun, jos kaksi sanaa alkaa samalla konsonantin ja vokaalin yhdistelmällä, esimerkiksi ”vaka” ja ”vanha” (tarkempi määritelmä: tyyppi ”A” ohjelman dokumentaatiossa [6]), tai kaksi sanaa alkaa samalla vokaalilla, esimerkiksi ”aivoni” ja ”ajattelevi” (tyyppi ”B” dokumentaatiossa).
Rivi 8: Tällä rivillä heikoksi alkusoinnuksi hyväksytään säe, jossa kaksi sanaa alkaa samalla konsonantilla, esimerkiksi ”teki” ja ”tiedolla” (tyyppi ”C”), tai kaksi sanaa alkaa eri vokaalilla, esimerkiksi ”ennen” ja ”isoni” (tyyppi ”D”).
Rivi 9: Ainoastaan samalla konsonantilla alkaminen eli tyyppi ”C” on laskettu heikoksi alkusoinnuksi.
Rivi 10: Esimerkiksi jälkimmäinen säe säeparissa ”mieleni minun teke-vi / aivoni ajattele-vi”.
Rivi 11: Tavutuksen muokkaus ei tarkoita tavutuksen manuaalista muokkausta, vaan liittyy ohjelman tavutusalgoritmiin. Jos säe on tässä ryhmässä, se on ohjelman kannalta vaikeasti tavutettava.

Kaikki virheet ja varoitukset on eritelty taulukossa 2. Käytetyssä ohjelman versiossa varoitukseksi luokiteltuja kommentteja oli vain yksi.

Taulukko 2. Virheiden ja varoitusten määrät.
Kalevala Kanteletar
Virheet
Lyhyt alkutavu 2. jalan nousussa 109 325
Pitkä alkutavu 2. jalan laskussa 73 87
Lyhyt alkutavu 3. jalan nousussa 12 125
Pitkä alkutavu 3. jalan laskussa 39 91
Lyhyt alkutavu 4. jalan nousussa 1 18
Säe päättyy yksitavuiseen sanaan 0 0
Nelitavuinen sana muodostaa toisen ja kolmannen runojalan eli ei kesuuraa tasasäkeessä 8 8
Pitkä vokaali säkeen viimeisessä tavussa 0 6
Säe on 9-tavuinen ja kolmessa ensimmäisessä tavussa on pitkä vokaali (hyvin raskas alku) 0 0
Yli 10 tavua 1 0
Alle 8 tavua 5 126
Varoitukset
Säe on 9-tavuinen ja kolme ensimmäistä tavua ovat pitkiä (melko raskas alku) 47 91
Yhteensä 295 877

Kalevalamittaisia säkeitä voidaan luokitella sen mukaan, montako sanaa säkeessä on ja montako tavua kussakin sanassa on. Säetyyppejä voidaan merkitä tavumääriä edustavilla numerosarjoilla (esimerkiksi ”partahille parskumatta” = 44) [7, s. 26]. Kymmenen yleisintä tyyppiä on esitetty taulukossa 3.

Taulukko 3. Yleisimmät säetyypit sanojen tavumäärän kannalta.
Kalevala Kanteletar
1. ”224” (22,9 %) ”224”  (21,3 %)
2. ”233” (16,7 %) ”233” (15,2 %)
3. ”44” (13,2 %) ”44” (12,3 %)
4. ”35” (7,9 %) ”35” (6,2 %)
5. ”2222” (4,1 %) ”2222” (5,6 %)
6. ”332” (3,9 %) ”323” (4,5 %)
7. ”323” (3,8 %) ”332” (4,4 %)
8. ”1124” (2,3 %) ”1124” (2,5 %)
9. ”26” (2,3 %) ”1232” (2,4 %)
10. ”2213” (2,0 %) ”26” (2,3 %)

Eri tyyppien määrään ja jakaumaan liittyviä lukuja on koottu taulukkoon 4. Niin sanottu MITVA-luku on Trokeemankeli-ohjelman mitallista vaihtelua kuvaava luku, joka selvitetään ottamalla syötteestä 20 säkeen katkelmia, laskemalla niissä esiintyen säetyyppien lukumäärä, ottamalla näistä luvuista keskiarvo ja pyöristämällä se lähimpään tasalukuun. Säetyypin ”alatyypiksi” kutsutaan tässä tyyppiä, jossa on otettu huomioon myös tavujen pituudet. Näistä tarkemmista tyypeistä käytetään alla merkintää, jossa P = pitkä alkutavu, p = muu pitkä tavu, L = lyhyt alkutavu, l = muu lyhyt tavu, siis esimerkiksi ”ei miestä sanalliseksi” = PPlLplpl.

Taulukko 4. Muita säetyyppeihin liittyviä lukuja.
Kalevala Kanteletar
Eri säetyyppejä kaikkiaan 110 145
Viittä yleisintä tyyppiä olevien säkeiden osuus 64,9 % 60,6 %
Kymmentä yleisintä tyyppiä olevien säkeiden osuus 79,3 % 76,7 %
Eri säetyyppejä 20 säettä kohden (”MITVA”) 10 10
Tyypin ”224” alatyyppien kokonaismäärä 100 129

Viisi yleisintä ”224”-tyyppisen säkeen alatyyppiä on esitetty taulukossa 5.

Taulukko 5. Tyypin ”224” yleisimmät alatyypit tavujen pituuden kannalta.
Kalevala Kanteletar
1. ”PpPpPlpl” (6,0 %) ”PpPpPlpl” (6,4 %)
2. ”PlPlPlpl” (5,5 %) ”PlPlPlpl” (5,9 %)
3. ”LpPpPlpl” (5,4 %) ”PlPpPlpl” (5,5 %)
4. ”PlPpPlpl” (5,2 %) ”LpPpPlpl” (4,4 %)
5. ”PpPlPlpl” (4,3 %) ”PlPpPlll” (3,8 %)

Taulukossa 6 nähdään pitkien tavujen yleisyys eri asemissa. Yhdeksän- ja kymmentavuiset säkeet käsiteltiin siten, että ensimmäisen jalan nousuksi laskettiin vain toiseksi viimeinen tavu, toisin sanoen yksi tai kaksi ensimmäistä tavua sivuutettiin. Jos säe todettiin alle 8-tavuiseksi (lukumäärät taulukossa 2), sitä ei lainkaan huomioitu näitä osuuksia laskettaessa. 

Taulukko 6. Pitkien tavujen yleisyys eri asemissa.
Kalevala Kanteletar
1. jalan nousu 65,1 % 65,1 %
1. jalan lasku 42,5 % 43,8 %
2. jalan nousu 78,4 % 78,5 %
2. jalan lasku 30,9 % 31,5 %
3. jalan nousu 77,8 % 75,1 %
3. jalan lasku 19,6 % 22,4 %
4. jalan nousu 60,5 % 59,7 %
4. jalan lasku 31,8 % 28,2 %

Vastaavat pitkävokaalisten tavujen osuudet on esitetty taulukossa 7. Yli ja alle kahdeksantavuiset säkeet käsiteltiin kuten edellä.

Taulukko 7. Pitkän vokaalin yleisyys eri asemissa.
Kalevala Kanteletar
1. jalan nousu 10,11 % 8,75 %
1. jalan lasku 0,52 % 0,90 %
2. jalan nousu 9,33 % 9,00 %
2. jalan lasku 0,01 % 0,11 %
3. jalan nousu 7,21 % 7,22 %
3. jalan lasku 0,04 % 0,08 %
4. jalan nousu 3,12 % 3,86 %
4. jalan lasku 0,00 % 0,03 %

Suomen kielen tavut jaettiin kahteentoista tyyppiin, joiden osuudet kaikista tekstin tavuista laskettiin. Tulokset on esitetty taulukossa 8. Merkintä ”kons.” tarkoittaa yhtä tai useampaa konsonanttia.

Taulukko 8. Eri tavutyypit yleisyysjärjestyksessä.
Kalevala Kanteletar
Muoto Osuus Muoto Osuus
1. kons. + lyhyt vok. (”ka”) 44,9 % kons. + lyhyt vok. (”ka”) 45,2 %
2. kons. + lyhyt vok. + kons. (”kak”)  28,9 % kons. + lyhyt vok. + kons. (”kak”)  29,3 %
3. kons. + dift. (”kai”)  8,9 % kons. + dift. (”kai”) 8,5 %
4. lyhyt vok. + kons. (”ak”)  4,6 % lyhyt vok. + kons. (”ak”)  4,6 %
5. lyhyt vok. (”a”) 4,3 % lyhyt vok. (”a”) 4,2 %
6. kons. + dift. + kons. (”kaik”) 3,5 % kons. + dift. + kons. (”kaik”) 3,2 %
7. kons. + pitkä vok. (”kaa”) 2,3 % kons. + pitkä vok. (”kaa”) 2,3 %
8. kons. + pitkä vok. + kons. (”kaak”) 1,3 % kons. + pitkä vok. + kons. (”kaak”) 1,3 %
9. dift. (”ai”) 1,0 % dift. (”ai”) 1,1 %
10. dift. + kons. (”aik”) 0,2 % dift. + kons. (”aik”) 0,2 %
11. pitkä vok. (”aa”) 0,1 % pitkä vok. (”aa”) 0,1 %
12. pitkä vok. + kons. (”aak”) 0,1 % pitkä vok. + kons. (”aak”) 0,1 %

Tarkastelu

Kun Kalevalan virheellisiksi tulkitut säkeet (lukumäärä taulukossa 1) luokiteltiin samoilla periaatteilla kuin Rintalan aiemmassa kuvauksessa [1], saatiin tulokseksi, että aitoja virheitä oli 53 %, niin sanottuja ts-säkeitä 40 % ja muista syistä väärin luokiteltuja säkeitä 6 %. Todellisten virhesäkeiden lukumäärä oli 132 eli noin 0,58 % kokonaismäärästä. Rintalan esityksessä on lueteltu 143 virhesäettä, joista kuusi voitaisiin vaihtoehtoisesti tulkita virheettömiksi. Tuloksia ei ole verrattu tarkemmin toisiinsa, mutta ero lukujen välillä saattaa johtua ainakin osittain siitä, että aiemmassa kuvauksessa on käytetty Trokeemankeli-ohjelman versiota, jonka tavutus on varovaisempaa kuin tässä laskennassa käytetyssä versiossa. Tästä seuraa, että nykyinen versio arvaa useammin hankalammankin tavutuksen, mutta saattaa toisinaan tulkita virhesäkeen virheettömäksi, mikä oli aiemmalla versiolla hyvin epätodennäköistä. Kantelettaren tulosten (osittaisen) tarkistuksen mukaan virheelliseksi merkityistä säkeistä oli virheitä 69 %, ts-säkeitä 9 % ja muita väärin luokiteltuja 22 %.

Heikoksi alkusoinnuksi (taulukko 1) saatetaan kalevalamitan yhteydessä kutsua ainoastaan sanojen alkamista samalla konsonantilla (jota ei seuraa sama vokaali) [8, s. 65], mutta siihen saatetaan laskea myös sanojen alkaminen eri vokaaleilla [7, s. 63] (lähteessä vaaditaan lisäksi sanojen olevan peräkkäisiä, mitä taulukon 1 luvuissa ei ole vaadittu). Pelkän heikon alkusoinnun sisältävien säkeiden osuus on tämän vuoksi laskettu kahdella eri tavalla.

”Loppusointujen” eli samaan tavuun päättyvien peräkkäisten säkeiden (taulukko 1) laskemisella voitaisiin mahdollisesti arvioida kerron yleisyyttä. Kerron käyttöä ei voida suoraan tunnistaa, mutta jos runsas kerron käyttö kasvattaa myös loppusointujen määrää, loppusointuja laskemalla voitaisiin verrata kerron käyttöä kahdessa tekstissä. Kalevalan ja Kantelettaren välillä ei näytä olevan juuri eroa.

Kantelettaren 126 säkeestä, jotka on tulkittu alle kahdeksantavuisiksi (taulukko 2) osa on selvästi ei-kalevalamittaisia (”Toiset ringissä tanssaa”), mutta suuri osa on mahdollista tulkita kahdeksantavuisiksi (”Ve(’)en virrasta vetäisin”, ”Mistäs tunnet Kla(’)us Kurjen”).

Yleisten säetyyppien lisäksi laskennassa tutkittiin kokeilumielessä myös yksityiskohtaisempia ”alatyyppejä” (taulukot 4 ja 5). Yleisimmän säetyypin ”224” alatyyppien määräksi saatiin Kalevalassa 100 ja Kantelettaressa 129, mutta nämä luvut eivät yksinään kerro kovinkaan paljon. Virheettömässä tyypin ”224” säkeessä ensimmäisen tavun on oltava alkutavu, kolmannen ja viidennen tavun on oltava pitkiä alkutavuja, ja muiden tavujen on oltava jälkitavuja. Eri vaihtoehtojen määrä on 26 = 64. Koska kuitenkin myös tavulaajuussääntöjä rikkovat säkeet on laskettu, vaihtoehtojen kokonaismäärä onkin 28 = 256. Laskemalla ainoastaan tavulaajuussääntöjä noudattavat säkeet voitaisiin selvittää, esiintyvätkö kaikki mahdolliset alatyypit aineistossa.

Sekä taulukon 6 että taulukon 8 perusteella voidaan todeta, että pitkiä tavuja on sekä Kalevalassa että Kantelettaressa noin puolet kaikista tavuista. Pitkän tavun nähdään selvästi olevan yleisempi runojalan nousussa, mutta tulokset eivät suoraan kerro, missä määrin tämä johtuu runomitan vaatimuksista. Kuvaa voitaisiin tarkentaa laskemalla erikseen, miten usein pitkät tavut osuvat nousuihin sanan sisällä.

Lähteet

[1] Rintala, Aulis. Kalevalan mitalliset poikkeamat. <http://karuse.info/index.php?option=com_content&view=article&id=92&Itemid=21>
[2] Rintala, Aulis. Metriset mutantit eli kalevalasäkeen runsaat sata muunnelmaa. <http://karuse.info/index.php?option=com_content&view=article&id=147&Itemid=31>
[3] Perälä, Harri. Kalevalamittaisia tekstiaineistoja. <http://www.sci.fi/~alboin/trokeemankeli/kalevalamitta-aineistoja.htm>
[4] Kaikki Kalevalat. Kalevalan kulttuurihistoria -sivusto. <http://www.kalevalaseura.fi/kaku/sivu.php?n=p5a1&s=p5a1s1&h=hp5a1&f=fp5s>
[5] Kanteletar: Suomen kansan wanhoja lauluja ja wirsiä. Project Gutenberg. <http://www.gutenberg.org/etext/7078>
[6] Perälä, Harri. Trokeemankeli 0.4. Käyttöohje. <http://www.sci.fi/~alboin/trokeemankeli/download/0.4/kayttoohje.htm>
[7] Rintala, Aulis. Kalevalamitan opas urbaanille runoniekalle. Uno-Soft, 1999.
[8]Kuusi, Matti, Keith Bosley, Michael Branch (ed. and trans.). Finnish Folk Poetry : Epic. Finnish Literature Society, 1977.