4.3.2010
Harri Perälä, <harri.perala@iki.fi>
Seuraavassa esitetään joukko tilastoja, jotka on laskettu Kalevalan ja (hieman lyhennetyn)
Kantelettaren
tekstistä. Laskennassa on käytetty Kalevalaisen Runokielen Seuran (Karusen)
Trokeemankeli-tietokoneohjelmaa. Saman ohjelman aikaisempaa versiota
on tätä ennen käytetty Kalevalan ja Helkavirsien virhesäkeiden ja runosäkeen muunnelmien
analysoinnissa [1][2]. Tässä kirjoituksessa esitetään entistä laajempi valikoima erilaisia kieleen ja runomittaan liittyviä
lukuarvoja ja otetaan käsiteltäväksi myös Kanteletar.
Kumpaakin teosta edusti laskennassa tekstitiedosto, josta on poistettu otsikot, tyhjät rivit ja muu ylimääräinen siten, että jokaisella rivillä on yksi runosäe. Käytetyt tiedostot ovat ladattavissa verkosta [3]. Kalevalaa edustava tiedosto (kalevala_vain_sakeet.txt, muutettu 22.6.2003) on koottu Suomalaisen Kirjallisuuden Seuran verkkosivuilla julkaistusta tekstistä. Kanteletarta edustava tiedosto (kanteletar_karsittu.txt, muutettu 31.1.2010) perustuu Project Gutenbergin julkaisemaan tekstiin [5]. Tiedostosta on jätetty pois seuraavat Kantelettaren osat, joissa on runsaasti ei-kalevalamittaisia säkeitä: ensimmäisen kirjan runot 122, 178, 198 ja 207–238 sekä kolmannen kirjan runo 27. Poistojen määrä on noin 1 100 säettä.
Lähdetiedostojen tekniset virheet lienevät niin vähäisiä, että ne eivät vaikuta suuresti useimpiin laskettuihin tilastoihin. Kalevalaa edustavan tiedoston rivien määrä on sama kuin teoksen eri lähteissä ilmoitettu pituus, 22 795 säettä [4], mutta tulosten tarkastuksessa kävi ilmi, että tiedostossa on ainakin yksi ylimääräinen ja yksi puuttuva rivinvaihto, jotka kumoavat toisensa. Parissa virheelliseksi merkityssä säkeessä tekstistä puuttui kirjaimia (esimerkiksi ”tulitikku hampahiss”). Kanteletarta edustavassa tekstissä on joitain laajempia virheitä, sillä ainakin toisen kirjan 91. runo ja ensimmäisen kirjan 148. runon alku näyttävät puuttuvan. Virhemerkittyjen säkeiden tarkastuksessa ei löytynyt rivinvaihtoihin liittyviä ongelmia, mutta parista säkeestä (”Sitte lähtivät ajhon”, ”Paksun leivän paistajnsa”) puuttunee kirjaimia.
Tilastojen laskennassa käytettiin Karusen Trokeemankeli -ohjelman offline-versiota (versionumero 0.4) [6]. Kummastakin tekstistä tulostettiin rivikohtainen analyysi, josta laskettiin lopulliset tilastotiedot tätä tarkoitusta varten kirjoitetulla skriptillä. Muutama perustieto saatiin suoraan ohjelman yhteenvetotoiminnolla. Laskennassa käytetyt Python-kieliset skriptit ovat ladattavissa seuraavista linkeistä:
Tulosten luotettavuutta arvioitiin käymällä läpi säkeitä, jotka ohjelma oli tulkinnut virheellisiksi. Kalevalan tuloksista tarkastettiin kaikki virhemerkityt säkeet, mutta enemmän virhemerkintöjä tuottaneen Kantelettaren tuloksista poimittiin tarkastettavaksi sata virhemerkittyä säettä eri puolilta teosta.
Taulukossa 1 on esitetty eräitä
perustietoja.
Kalevala | Kanteletar | ||
---|---|---|---|
1 | Rivejä kaikkiaan | 22795 | 21015 |
2 | Murtosäe | 11307 (49,6 %) | 10414 (49,6 %) |
3 | Merkitty virheelliseksi | 247 (1,1 %) | 757 (3,6 %) |
4 | Pelkkä varoitusmerkintä | 47 (0,2 %) | 86 (0,4 %) |
5 | 9-tavuinen | 807 (3,5 %) | 989 (4,7 %) |
6 | 10-tavuinen | 31 (0,1 %) | 25 (0,1 %) |
7 | Vahva alkusointu | 12820 (56,2 %) | 12853 (61,2 %) |
8 | Pelkkä heikko alkusointu (myös eri vokaali) | 6086 (26,7 %) | 4619 (22,0 %) |
9 | Pelkkä heikko alkusointu (vain konsonantit) | 5105 (22,4 %) | 3901 (18,6 %) |
10 | Päättyy samaan tavuun kuin edellinen säe | 4370 (19,2 %) | 4449 (21,2 %) |
11 | Oletustavutusta muokattu | 178 (0,8 %) | 450 (2,1 %) |
Kommentteja:
Rivi 1: Huomaa, että Kantelettaren rivimäärä tarkoittaa
laskennassa käytetyn, lyhennetyn tekstitiedoston rivimäärää.
Rivi 3: Sisältää rivit, joille ohjelma totesi vähintään yhden
virheen. Virheistä ja varoituksista on alla tarkempi erittely.
Rivi 4: Sisältää säkeet, joille ohjelma merkitsi varoituksen, mutta ei yhtään
virhettä.
Rivi 7: Säkeen katsotaan tässä sisältävän vahvan alkusoinnun, jos kaksi
sanaa alkaa samalla konsonantin ja vokaalin yhdistelmällä, esimerkiksi
”vaka” ja ”vanha” (tarkempi määritelmä: tyyppi ”A” ohjelman
dokumentaatiossa [6]), tai kaksi
sanaa alkaa samalla vokaalilla,
esimerkiksi ”aivoni” ja ”ajattelevi” (tyyppi ”B” dokumentaatiossa).
Rivi 8: Tällä rivillä heikoksi alkusoinnuksi
hyväksytään säe, jossa kaksi sanaa alkaa samalla konsonantilla,
esimerkiksi ”teki” ja ”tiedolla” (tyyppi ”C”), tai kaksi sanaa alkaa
eri vokaalilla, esimerkiksi ”ennen” ja ”isoni” (tyyppi ”D”).
Rivi 9: Ainoastaan samalla konsonantilla alkaminen eli tyyppi ”C” on laskettu heikoksi
alkusoinnuksi.
Rivi 10: Esimerkiksi jälkimmäinen säe säeparissa ”mieleni minun
teke-vi / aivoni ajattele-vi”.
Rivi 11: Tavutuksen
muokkaus ei tarkoita tavutuksen manuaalista muokkausta, vaan
liittyy ohjelman tavutusalgoritmiin. Jos säe on tässä ryhmässä, se on
ohjelman kannalta vaikeasti tavutettava.
Kaikki virheet ja varoitukset on eritelty taulukossa 2. Käytetyssä ohjelman versiossa varoitukseksi luokiteltuja kommentteja oli vain yksi.
Kalevala | Kanteletar | |
---|---|---|
Virheet | ||
Lyhyt alkutavu 2. jalan nousussa | 109 | 325 |
Pitkä alkutavu 2. jalan laskussa | 73 | 87 |
Lyhyt alkutavu 3. jalan nousussa | 12 | 125 |
Pitkä alkutavu 3. jalan laskussa | 39 | 91 |
Lyhyt alkutavu 4. jalan nousussa | 1 | 18 |
Säe päättyy yksitavuiseen sanaan | 0 | 0 |
Nelitavuinen sana muodostaa toisen ja kolmannen runojalan eli ei kesuuraa tasasäkeessä | 8 | 8 |
Pitkä vokaali säkeen viimeisessä tavussa | 0 | 6 |
Säe on 9-tavuinen ja kolmessa ensimmäisessä tavussa on pitkä vokaali (hyvin raskas alku) | 0 | 0 |
Yli 10 tavua | 1 | 0 |
Alle 8 tavua | 5 | 126 |
Varoitukset | ||
Säe on 9-tavuinen ja kolme ensimmäistä tavua ovat pitkiä (melko raskas alku) | 47 | 91 |
Yhteensä | 295 | 877 |
Kalevalamittaisia säkeitä voidaan luokitella sen mukaan, montako sanaa säkeessä on ja montako tavua kussakin sanassa on. Säetyyppejä voidaan merkitä tavumääriä edustavilla numerosarjoilla (esimerkiksi ”partahille parskumatta” = 44) [7, s. 26]. Kymmenen yleisintä tyyppiä on esitetty taulukossa 3.
Kalevala | Kanteletar | |
---|---|---|
1. | ”224” (22,9 %) | ”224” (21,3 %) |
2. | ”233” (16,7 %) | ”233” (15,2 %) |
3. | ”44” (13,2 %) | ”44” (12,3 %) |
4. | ”35” (7,9 %) | ”35” (6,2 %) |
5. | ”2222” (4,1 %) | ”2222” (5,6 %) |
6. | ”332” (3,9 %) | ”323” (4,5 %) |
7. | ”323” (3,8 %) | ”332” (4,4 %) |
8. | ”1124” (2,3 %) | ”1124” (2,5 %) |
9. | ”26” (2,3 %) | ”1232” (2,4 %) |
10. | ”2213” (2,0 %) | ”26” (2,3 %) |
Eri tyyppien määrään ja jakaumaan liittyviä lukuja on koottu taulukkoon 4. Niin sanottu MITVA-luku on Trokeemankeli-ohjelman mitallista vaihtelua kuvaava luku, joka selvitetään ottamalla syötteestä 20 säkeen katkelmia, laskemalla niissä esiintyen säetyyppien lukumäärä, ottamalla näistä luvuista keskiarvo ja pyöristämällä se lähimpään tasalukuun. Säetyypin ”alatyypiksi” kutsutaan tässä tyyppiä, jossa on otettu huomioon myös tavujen pituudet. Näistä tarkemmista tyypeistä käytetään alla merkintää, jossa P = pitkä alkutavu, p = muu pitkä tavu, L = lyhyt alkutavu, l = muu lyhyt tavu, siis esimerkiksi ”ei miestä sanalliseksi” = PPlLplpl.
Kalevala | Kanteletar | |
---|---|---|
Eri säetyyppejä kaikkiaan | 110 | 145 |
Viittä yleisintä tyyppiä olevien säkeiden osuus | 64,9 % | 60,6 % |
Kymmentä yleisintä tyyppiä olevien säkeiden osuus | 79,3 % | 76,7 % |
Eri säetyyppejä 20 säettä kohden (”MITVA”) | 10 | 10 |
Tyypin ”224” alatyyppien kokonaismäärä | 100 | 129 |
Viisi yleisintä ”224”-tyyppisen säkeen alatyyppiä on esitetty taulukossa 5.
Kalevala | Kanteletar | |
---|---|---|
1. | ”PpPpPlpl” (6,0 %) | ”PpPpPlpl” (6,4 %) |
2. | ”PlPlPlpl” (5,5 %) | ”PlPlPlpl” (5,9 %) |
3. | ”LpPpPlpl” (5,4 %) | ”PlPpPlpl” (5,5 %) |
4. | ”PlPpPlpl” (5,2 %) | ”LpPpPlpl” (4,4 %) |
5. | ”PpPlPlpl” (4,3 %) | ”PlPpPlll” (3,8 %) |
Taulukossa 6 nähdään pitkien tavujen yleisyys eri asemissa. Yhdeksän- ja kymmentavuiset säkeet käsiteltiin siten, että ensimmäisen jalan nousuksi laskettiin vain toiseksi viimeinen tavu, toisin sanoen yksi tai kaksi ensimmäistä tavua sivuutettiin. Jos säe todettiin alle 8-tavuiseksi (lukumäärät taulukossa 2), sitä ei lainkaan huomioitu näitä osuuksia laskettaessa.
Kalevala | Kanteletar | |
---|---|---|
1. jalan nousu | 65,1 % | 65,1 % |
1. jalan lasku | 42,5 % | 43,8 % |
2. jalan nousu | 78,4 % | 78,5 % |
2. jalan lasku | 30,9 % | 31,5 % |
3. jalan nousu | 77,8 % | 75,1 % |
3. jalan lasku | 19,6 % | 22,4 % |
4. jalan nousu | 60,5 % | 59,7 % |
4. jalan lasku | 31,8 % | 28,2 % |
Vastaavat pitkävokaalisten tavujen osuudet on esitetty taulukossa 7. Yli ja alle kahdeksantavuiset säkeet käsiteltiin kuten edellä.
Kalevala | Kanteletar | |
---|---|---|
1. jalan nousu | 10,11 % | 8,75 % |
1. jalan lasku | 0,52 % | 0,90 % |
2. jalan nousu | 9,33 % | 9,00 % |
2. jalan lasku | 0,01 % | 0,11 % |
3. jalan nousu | 7,21 % | 7,22 % |
3. jalan lasku | 0,04 % | 0,08 % |
4. jalan nousu | 3,12 % | 3,86 % |
4. jalan lasku | 0,00 % | 0,03 % |
Suomen kielen tavut jaettiin kahteentoista tyyppiin, joiden osuudet kaikista tekstin tavuista laskettiin. Tulokset on esitetty taulukossa 8. Merkintä ”kons.” tarkoittaa yhtä tai useampaa konsonanttia.
Kalevala | Kanteletar | |||
---|---|---|---|---|
Muoto | Osuus | Muoto | Osuus | |
1. | kons. + lyhyt vok. (”ka”) | 44,9 % | kons. + lyhyt vok. (”ka”) | 45,2 % |
2. | kons. + lyhyt vok. + kons. (”kak”) | 28,9 % | kons. + lyhyt vok. + kons. (”kak”) | 29,3 % |
3. | kons. + dift. (”kai”) | 8,9 % | kons. + dift. (”kai”) | 8,5 % |
4. | lyhyt vok. + kons. (”ak”) | 4,6 % | lyhyt vok. + kons. (”ak”) | 4,6 % |
5. | lyhyt vok. (”a”) | 4,3 % | lyhyt vok. (”a”) | 4,2 % |
6. | kons. + dift. + kons. (”kaik”) | 3,5 % | kons. + dift. + kons. (”kaik”) | 3,2 % |
7. | kons. + pitkä vok. (”kaa”) | 2,3 % | kons. + pitkä vok. (”kaa”) | 2,3 % |
8. | kons. + pitkä vok. + kons. (”kaak”) | 1,3 % | kons. + pitkä vok. + kons. (”kaak”) | 1,3 % |
9. | dift. (”ai”) | 1,0 % | dift. (”ai”) | 1,1 % |
10. | dift. + kons. (”aik”) | 0,2 % | dift. + kons. (”aik”) | 0,2 % |
11. | pitkä vok. (”aa”) | 0,1 % | pitkä vok. (”aa”) | 0,1 % |
12. | pitkä vok. + kons. (”aak”) | 0,1 % | pitkä vok. + kons. (”aak”) | 0,1 % |
Kun Kalevalan virheellisiksi tulkitut säkeet (lukumäärä taulukossa 1) luokiteltiin samoilla periaatteilla kuin Rintalan aiemmassa kuvauksessa [1], saatiin tulokseksi, että aitoja virheitä oli 53 %, niin sanottuja ts-säkeitä 40 % ja muista syistä väärin luokiteltuja säkeitä 6 %. Todellisten virhesäkeiden lukumäärä oli 132 eli noin 0,58 % kokonaismäärästä. Rintalan esityksessä on lueteltu 143 virhesäettä, joista kuusi voitaisiin vaihtoehtoisesti tulkita virheettömiksi. Tuloksia ei ole verrattu tarkemmin toisiinsa, mutta ero lukujen välillä saattaa johtua ainakin osittain siitä, että aiemmassa kuvauksessa on käytetty Trokeemankeli-ohjelman versiota, jonka tavutus on varovaisempaa kuin tässä laskennassa käytetyssä versiossa. Tästä seuraa, että nykyinen versio arvaa useammin hankalammankin tavutuksen, mutta saattaa toisinaan tulkita virhesäkeen virheettömäksi, mikä oli aiemmalla versiolla hyvin epätodennäköistä. Kantelettaren tulosten (osittaisen) tarkistuksen mukaan virheelliseksi merkityistä säkeistä oli virheitä 69 %, ts-säkeitä 9 % ja muita väärin luokiteltuja 22 %.
Heikoksi alkusoinnuksi (taulukko 1) saatetaan kalevalamitan yhteydessä kutsua ainoastaan sanojen alkamista samalla konsonantilla (jota ei seuraa sama vokaali) [8, s. 65], mutta siihen saatetaan laskea myös sanojen alkaminen eri vokaaleilla [7, s. 63] (lähteessä vaaditaan lisäksi sanojen olevan peräkkäisiä, mitä taulukon 1 luvuissa ei ole vaadittu). Pelkän heikon alkusoinnun sisältävien säkeiden osuus on tämän vuoksi laskettu kahdella eri tavalla.
”Loppusointujen” eli samaan tavuun päättyvien peräkkäisten säkeiden (taulukko 1) laskemisella voitaisiin mahdollisesti arvioida kerron yleisyyttä. Kerron käyttöä ei voida suoraan tunnistaa, mutta jos runsas kerron käyttö kasvattaa myös loppusointujen määrää, loppusointuja laskemalla voitaisiin verrata kerron käyttöä kahdessa tekstissä. Kalevalan ja Kantelettaren välillä ei näytä olevan juuri eroa.
Kantelettaren 126 säkeestä, jotka on tulkittu alle kahdeksantavuisiksi (taulukko 2) osa on selvästi ei-kalevalamittaisia (”Toiset ringissä tanssaa”), mutta suuri osa on mahdollista tulkita kahdeksantavuisiksi (”Ve(’)en virrasta vetäisin”, ”Mistäs tunnet Kla(’)us Kurjen”).
Yleisten säetyyppien lisäksi laskennassa tutkittiin kokeilumielessä myös yksityiskohtaisempia ”alatyyppejä” (taulukot 4 ja 5). Yleisimmän säetyypin ”224” alatyyppien määräksi saatiin Kalevalassa 100 ja Kantelettaressa 129, mutta nämä luvut eivät yksinään kerro kovinkaan paljon. Virheettömässä tyypin ”224” säkeessä ensimmäisen tavun on oltava alkutavu, kolmannen ja viidennen tavun on oltava pitkiä alkutavuja, ja muiden tavujen on oltava jälkitavuja. Eri vaihtoehtojen määrä on 26 = 64. Koska kuitenkin myös tavulaajuussääntöjä rikkovat säkeet on laskettu, vaihtoehtojen kokonaismäärä onkin 28 = 256. Laskemalla ainoastaan tavulaajuussääntöjä noudattavat säkeet voitaisiin selvittää, esiintyvätkö kaikki mahdolliset alatyypit aineistossa.
Sekä taulukon 6 että taulukon 8 perusteella voidaan todeta, että pitkiä tavuja on sekä Kalevalassa että Kantelettaressa noin puolet kaikista tavuista. Pitkän tavun nähdään selvästi olevan yleisempi runojalan nousussa, mutta tulokset eivät suoraan kerro, missä määrin tämä johtuu runomitan vaatimuksista. Kuvaa voitaisiin tarkentaa laskemalla erikseen, miten usein pitkät tavut osuvat nousuihin sanan sisällä.
[1] | Rintala, Aulis. Kalevalan mitalliset poikkeamat. <http://karuse.info/index.php?option=com_content&view=article&id=92&Itemid=21> |
[2] | Rintala, Aulis. Metriset mutantit eli kalevalasäkeen runsaat sata muunnelmaa. <http://karuse.info/index.php?option=com_content&view=article&id=147&Itemid=31> |
[3] | Perälä, Harri. Kalevalamittaisia tekstiaineistoja. <http://www.sci.fi/~alboin/trokeemankeli/kalevalamitta-aineistoja.htm> |
[4] | Kaikki Kalevalat. Kalevalan kulttuurihistoria -sivusto. <http://www.kalevalaseura.fi/kaku/sivu.php?n=p5a1&s=p5a1s1&h=hp5a1&f=fp5s> |
[5] | Kanteletar: Suomen kansan wanhoja lauluja ja wirsiä. Project Gutenberg. <http://www.gutenberg.org/etext/7078> |
[6] | Perälä, Harri. Trokeemankeli 0.4. Käyttöohje. <http://www.sci.fi/~alboin/trokeemankeli/download/0.4/kayttoohje.htm> |
[7] | Rintala, Aulis. Kalevalamitan opas urbaanille runoniekalle. Uno-Soft, 1999. |
[8] | Kuusi, Matti, Keith Bosley, Michael Branch (ed. and trans.). Finnish Folk Poetry : Epic. Finnish Literature Society, 1977. |