Eesti keele ühendkorpus 2017

NB: korpuse uusim versioon on Eesti keele ühendkorpus 2019 ehk Estonian National Corpus 2019.

Siin on kirjeldatud korpuse eelmist versiooni, Eesti keele ühendkorpus 2017 ehk Estonian National Corpus 2017.

Korpuse kogumaht on ligi 1 miljard tekstisõna, aga kui hakata täpsemalt sisse vaatama, siis see sisaldab ka muudes keeltes tekste. Ainult eestikeelseid (<doc lang=”Estonian”>) on umbes 600 miljonit.

Korpuse on EstNLTK ja vabamorfi abil morfoloogiliselt märgendanud Lexical Computing. Kasutatud on vaikimisi lausetaseme ühestamist, mis on andnud rohkem vigu kui vältimatult tarvis. Nt sõna “mais” on läbivalt märgendatud kui mitmuse seesütlev sõnast “maa”, mille asemel korrektsem oleks peaaegu alati maikuu, pluss mõni üksik teravili. Seega, kui vormiinfo on oluline, võiks kaaluda EstNLTK abil uuestimärgendamist koos dokumenditaseme ühestamisega. Vigu see ei kaota, aga vähendada võib.

Uuestimärgendamisel on ka see eelis, et nii saab korpus loetud EstNLTK andmestruktuuridesse. Olemasoleva märgenduse otse lugemine praegu ei õnnestu, sest korpus kasutab eelmistega võrreldes muutunud vormingut ja 2018 sügise seisuga on selle lugemine EstNLTK tegijatel rubriigis “kunagi peaks kindlasti ära tegema”.

Vorming näeb välja selline:

<doc id="1070432" src="web17" title="Haigekassa lükkab ümber Pealtnägija saates kõlanud süüdistused | Eesti Haigekassa" length="5k-10k" crawl_date="2017-09-27 03:05" lang_old="Estonian" lang_diff="0.28" ip="185.147.120.115" url="http://haigekassa.ee/en/node/2578" enc_meta="utf-8" enc_chared="utf_8" lang="Estonian" lang_scores="Estonian: 3913.12, Russian: 0.00, English: 711.05, Finnish: 1022.45, Ukrainian: 0.00, Belarusian: 0.00, Serbian: 0.00, Bulgarian: 0.00, Macedonian: 0.00">
<p heading="yes" langdiff="0.81">
<s>
Haigekassa   S.sg.n haigekassa-s  sg_n  haige kassa   haige_kassa   0    
lükkab V.b   lükkama-v    b    lükka  lükka  b    
ümber  K    ümber-k     ümber  ümber  0    
Pealtnägija   S.sg.g pealtnägija-s  sg_g  pealt nägija  pealt_nägija  0    
saates S.sg.in saade-s sg_in  saade  saade  s    
kõlanud V.nud  kõlama-v    nud   kõla  kõla  nud   
süüdistused   S.pl.n süüdistus-s   pl_n  süüdistus    süüdistus    d    
</s>
</p>
<p langdiff="0.47">
<s>
Saade  H.pl.g Saa-h  pl_g  Saa   Saa   de   
Pealtnägija   S.sg.n pealtnägija-s  sg_n  pealt nägija  pealt_nägija  0    
pöördus V.s   pöörduma-v   s    pöördu pöördu s    
haigekassa   S.sg.g haigekassa-s  sg_g  haige kassa   haige_kassa   0    
poole  K    poole-k     poole  poole  0    
seoses K    seoses-k        seoses seoses 0    
Eesti  H.sg.g Eesti-h sg_g  Eesti  Eesti  0    
Hemofiiliaühingu    S.sg.g hemofiiliaühing-s    sg_g  hemofiilia ühing    hemofiilia_ühing    0    
esitatud    V.tud  esitama-v    tud   esita  esita  tud   
kahtlustega   S.pl.kom    kahtlus-s    pl_kom kahtlus kahtlus tega  
<g/>
.    Z    .-z       .    .        

Dokumendi alguses on tema metainfo, mis tõenäoliselt võiks olla üsna iseseletuv. Seejärel tulevad lõigud p ja laused s, nende sees igal real sõna koos oma analüüsiga. Veerud on järgmised, koos näidetega:

 • tekstisõna: “veepudeliga”, “toimus”
 • posgram ehk sõnaliik ja vormikood: “S.sg.kom”, “V.s”
 • lempos ehk lemma ja sõnaliik: “veepudel-s”, “toimuma-v”
 • vormikood: “sg_kom”, “s”
 • eraldatud tüved: “vee pudel”, “toimu”
 • liitsõna tüvi: “vee_pudel”, “toimu”
 • muutelõpp: “ga”, “s”

<g/> nagu glue tähistab kohta, kus tokeniseerimisel on kirjavahemärgi ette tühik lisatud.

Tasub tähele panna, et perioodika alamkorpuses esineb ka <info> element, nii et <doc> on ajalehenumber ja <info> üksikartikkel. Nii satuvad mõned andmed, mis üldiselt on <doc>is, ajalehtede puhul <info>sse, nt:

<doc id="3850" src="NC" filename="aja_EPL_2007_06_01.ma" balanced="no" texttype="periodicals">
<info id="224313" author="Kalle Kulbok, kuningriiklane" newspaperNumber="Eesti Päevaleht 01.06.2007" heading="Kolumnistid" article="KALLE KULBOK : kuluhüvitise uus kord on põhiseaduse vastane">

2 thoughts on “Eesti keele ühendkorpus 2017

Comments are closed.

Arvi Tavast