NB: korpuse uusim versioon on Eesti keele ühendkorpus 2019 ehk Estonian National Corpus 2019.
Siin on kirjeldatud korpuse eelmist versiooni, Eesti keele ühendkorpus 2017 ehk Estonian National Corpus 2017.
Korpuse kogumaht on ligi 1 miljard tekstisõna, aga kui hakata täpsemalt sisse vaatama, siis see sisaldab ka muudes keeltes tekste. Ainult eestikeelseid (<doc lang=”Estonian”>) on umbes 600 miljonit.
Korpuse on EstNLTK ja vabamorfi abil morfoloogiliselt märgendanud Lexical Computing. Kasutatud on vaikimisi lausetaseme ühestamist, mis on andnud rohkem vigu kui vältimatult tarvis. Nt sõna “mais” on läbivalt märgendatud kui mitmuse seesütlev sõnast “maa”, mille asemel korrektsem oleks peaaegu alati maikuu, pluss mõni üksik teravili. Seega, kui vormiinfo on oluline, võiks kaaluda EstNLTK abil uuestimärgendamist koos dokumenditaseme ühestamisega. Vigu see ei kaota, aga vähendada võib.
Uuestimärgendamisel on ka see eelis, et nii saab korpus loetud EstNLTK andmestruktuuridesse. Olemasoleva märgenduse otse lugemine praegu ei õnnestu, sest korpus kasutab eelmistega võrreldes muutunud vormingut ja 2018 sügise seisuga on selle lugemine EstNLTK tegijatel rubriigis “kunagi peaks kindlasti ära tegema”.
Vorming näeb välja selline:
<doc id="1070432" src="web17" title="Haigekassa lükkab ümber Pealtnägija saates kõlanud süüdistused | Eesti Haigekassa" length="5k-10k" crawl_date="2017-09-27 03:05" lang_old="Estonian" lang_diff="0.28" ip="185.147.120.115" url="http://haigekassa.ee/en/node/2578" enc_meta="utf-8" enc_chared="utf_8" lang="Estonian" lang_scores="Estonian: 3913.12, Russian: 0.00, English: 711.05, Finnish: 1022.45, Ukrainian: 0.00, Belarusian: 0.00, Serbian: 0.00, Bulgarian: 0.00, Macedonian: 0.00">
<p heading="yes" langdiff="0.81">
<s>
Haigekassa S.sg.n haigekassa-s sg_n haige kassa haige_kassa 0
lükkab V.b lükkama-v b lükka lükka b
ümber K ümber-k ümber ümber 0
Pealtnägija S.sg.g pealtnägija-s sg_g pealt nägija pealt_nägija 0
saates S.sg.in saade-s sg_in saade saade s
kõlanud V.nud kõlama-v nud kõla kõla nud
süüdistused S.pl.n süüdistus-s pl_n süüdistus süüdistus d
</s>
</p>
<p langdiff="0.47">
<s>
Saade H.pl.g Saa-h pl_g Saa Saa de
Pealtnägija S.sg.n pealtnägija-s sg_n pealt nägija pealt_nägija 0
pöördus V.s pöörduma-v s pöördu pöördu s
haigekassa S.sg.g haigekassa-s sg_g haige kassa haige_kassa 0
poole K poole-k poole poole 0
seoses K seoses-k seoses seoses 0
Eesti H.sg.g Eesti-h sg_g Eesti Eesti 0
Hemofiiliaühingu S.sg.g hemofiiliaühing-s sg_g hemofiilia ühing hemofiilia_ühing 0
esitatud V.tud esitama-v tud esita esita tud
kahtlustega S.pl.kom kahtlus-s pl_kom kahtlus kahtlus tega
<g/>
. Z .-z . .
Dokumendi alguses on tema metainfo, mis tõenäoliselt võiks olla üsna iseseletuv. Seejärel tulevad lõigud p ja laused s, nende sees igal real sõna koos oma analüüsiga. Veerud on järgmised, koos näidetega:
- tekstisõna: “veepudeliga”, “toimus”
- posgram ehk sõnaliik ja vormikood: “S.sg.kom”, “V.s”
- lempos ehk lemma ja sõnaliik: “veepudel-s”, “toimuma-v”
- vormikood: “sg_kom”, “s”
- eraldatud tüved: “vee pudel”, “toimu”
- liitsõna tüvi: “vee_pudel”, “toimu”
- muutelõpp: “ga”, “s”
<g/> nagu glue tähistab kohta, kus tokeniseerimisel on kirjavahemärgi ette tühik lisatud.
Tasub tähele panna, et perioodika alamkorpuses esineb ka <info> element, nii et <doc> on ajalehenumber ja <info> üksikartikkel. Nii satuvad mõned andmed, mis üldiselt on <doc>is, ajalehtede puhul <info>sse, nt:
<doc id="3850" src="NC" filename="aja_EPL_2007_06_01.ma" balanced="no" texttype="periodicals">
<info id="224313" author="Kalle Kulbok, kuningriiklane" newspaperNumber="Eesti Päevaleht 01.06.2007" heading="Kolumnistid" article="KALLE KULBOK : kuluhüvitise uus kord on põhiseaduse vastane">