Kuidas sõnastikusüsteem saab keelekorraldusele kaasa aidata

ÕS 2018 tutvustusega koos toimunud konverentsil rääkisin, kuidas sõnastikusüsteem saab keelekorraldust toetada.

Seni on iga sõnakogu koostatud eraldi, saades tulemuseks omavahel sidumata ja kohati vasturääkivat infot pakkuvad teosed. EKI uue sõnastikusüsteemi Ekilex arendusega tahame seda muuta. Eraldi sõnakogude asemel on andmebaasis info liigid, näiteks seletava sõnastiku asemel sõnade seletused või eesti-vene sõnastiku asemel eesti sõnade vene vasted. Ka ÕSi tulevik on pakkuda sõnade kohta keelekorralduslikku infot, ilma sealjuures teisi sõnastikke dubleerimata.

Salvestuse tootjal oli heliga probleeme ja heli on ka minu osas vahepeal päris pikalt puudu. Selles osas räägingi, kuidas eraldiseisvatest sõnakogudest (igaühel oma andmemudel, märksõnastik, tähendusjaotused jne) saavad infoliigid keskses ja ühtlustatud struktuuriga andmebaasis. Lugeja jaoks peaks see väljenduma selgemas ja kooskõlalisemas infos sõnade kohta.

Ettekande algusosa organisatsioonitüüpide kohta olen kirjutanud eraldi.

Sagedusloend

Mõnikord läheb ikka vaja sõnade sagedusloendit. Mul hiljuti just niimoodi juhtus, mistõttu lugesin Eesti keele ühendkorpus 2017 põhjal kokku lemmade sagedused. Panen tulemuse ka siia üles, äkki kellelgi läheb veel vaja, siis ei pea sama uuesti tegema.

Lugesin lemma ja sõnaliigi kombinatsioone nii, nagu nad seal korpuses märgendatud on. See märgendus ei ole ideaalne, mis ilmselt mõjutab eriti vormihomonüümiaga sõnade asukohta sagedusloendis, aga suur pilt peaks küll enamvähem usutav olema. Üksiksõnade keelsust ma ei kontrollinud kuidagi, üksnes filtreerisin dokumenditasemel lang=”Estonian”.

Tulemus on 115.5 MB csv-fail kahe veeruga, lemma-sõnaliik ja absoluutsagedus 600 miljoni tekstisõna hulgas. Sõnaliikide koodid leiate nt EstNLTK dokumentatsioonist.

Erinevaid sõnatüüpe on 6637121, millest ligi kaks kolmandikku ehk 4160924 esineb kogu korpuses ainult ühe korra. Nende hulgas on täiesti legitiimseid sõnu nagu “konjunktuuriküsitlus” või “ekspordipartnerriik”, aga peamiselt koosneb sagedusloendi tagumine ots pärisnimedest, veebiaadressidest, võõrkeelsetest sõnadest, näpukatest, märgendusvigadest jne, Seetõttu tundus mõistlik tekitada ka oluliselt väiksem fail (17,7 MB) sõnadest, mis esinevad korpuses vähemalt viis korda. Selliseid on umbes miljon.

Loendi algus näeb välja selline (lisasin siin reanumbrid lihtsama jälgimise huvides):

1	olema-v	27833907
2	ja-j	18448429
3	see-p	12753094
4	mina-p	8021600
5	et-j	7976525
6	ei-v	7011141
7	tema-p	5944028
8	kui-d	5708611
9	mis-p	5552597
10	ka-d	5175649
11	saama-v	4490006
12	ning-j	3481612
13	aga-j	3034451
14	oma-p	2759364
15	aasta-s	2758520
16	või-j	2593644
17	sina-p	2448283
18	pidama-v	2400376
19	tegema-v	2385359
20	kes-p	2287497
21	nii-d	2227424
22	Eesti-h	2069520
23	ise-p	2037612
24	võima-v	2021749
25	tulema-v	2014093
26	kõik-p	1914466
27	siis-d	1824888
28	teine-o	1656755
29	üks-p	1581771
30	inimene-s	1532808
31	siis-j	1502329
32	aeg-s	1498793
33	väga-d	1409343
34	kas-d	1361319
35	minema-v	1320872
36	andma-v	1276486
37	veel-d	1227452
38	võtma-v	1214083
39	juba-d	1194785
40	välja-d	1166872
41	kuid-j	1149756
42	selline-p	1137018
43	uus-a	1115348
44	jääma-v	1095713
45	nagu-d	1075027
46	ütlema-v	1067971
47	teadma-v	1064900
48	suur-a	1035756
49	hakkama-v	1028617
50	hea-a	1026505
51	kus-d	991814

Miljoni sõna või vähemalt viie esinemiskorra piir on täiesti suvaline. Nagu öeldud, leidub legitiimseid sõnu sellest veel palju allpool ja sodi veel palju ülevalpool. Lühema faili lõpp on selline:

1068514	Ta-Ladu-h	5
1068515	tähtsustkas-d	5
1068516	MAX1999-y	5
1068517	tööturusubsiidium-s	5
1068518	aadlitalupoeg-s	5
1068519	Violiino-h	5
1068520	11-01-06-n	5
1068521	GBB-60NSYXE-y	5
1068522	miinimumsoovitus-s	5
1068523	Borõsenko-h	5
1068524	Valeväide-h	5
1068525	aastalõpuprassing-s	5
1068526	Rootsisõja-aegne-a	5
1068527	Metrô-h	5
1068528	Karakin-h	5
1068529	linnaasjandus-s	5
1068530	Tomcy-h	5
1068531	Momin-h	5
1068532	automaataparaat-s	5
1068533	Snoozebaby-h	5
1068534	haritlaslugeja-s	5
1068535	TRIMside-s	5
1068536	Traneksama-h	5
1068537	konspirituaalsus-s	5
1068538	2007-03-25-n	5
1068539	Manjaana-kompetents-s	5
1068540	tagasivõtmisprogramm-s	5
1068541	IGAD-y	5
1068542	jumbo-muffinipann-s	5
1068543	Yüksel-h	5
1068544	Erul-u-y	5
1068545	ENCU-y	5
1068546	ravipass-s	5
1068547	Ficer-h	5
1068548	G.M.Schmidt-h	5
1068549	rüütliriik-s	5
1068550	bivalent-s	5
1068551	loovutuskampaania-s	5
1068552	kosmonaudipension-s	5
1068553	Åsenlöv-h	5
1068554	Ðelda-h	5
1068555	Neijens-h	5
1068556	Petrolandia-h	5
1068557	Maruusjas-h	5
1068558	seguhenna-s	5
1068559	Losurdo-h	5
1068560	salahämar-a	5
1068561	sigimiskord-s	5
1068562	lähtekohamaa-s	5

Sõna definitsiooni üle annab muidugi vaielda. Mina tahtsin tõesti kõiki sõnataolisi nähtusi, aga mõnes teises rakenduses oleks ehk mõistlik vähemalt pärisnimed ja arvud välja filtreerida.

Eesti keele ühendkorpus 2017

NB: korpuse uusim versioon on Eesti keele ühendkorpus 2019 ehk Estonian National Corpus 2019.

Siin on kirjeldatud korpuse eelmist versiooni, Eesti keele ühendkorpus 2017 ehk Estonian National Corpus 2017.

Korpuse kogumaht on ligi 1 miljard tekstisõna, aga kui hakata täpsemalt sisse vaatama, siis see sisaldab ka muudes keeltes tekste. Ainult eestikeelseid (<doc lang=”Estonian”>) on umbes 600 miljonit.

Korpuse on EstNLTK ja vabamorfi abil morfoloogiliselt märgendanud Lexical Computing. Kasutatud on vaikimisi lausetaseme ühestamist, mis on andnud rohkem vigu kui vältimatult tarvis. Nt sõna “mais” on läbivalt märgendatud kui mitmuse seesütlev sõnast “maa”, mille asemel korrektsem oleks peaaegu alati maikuu, pluss mõni üksik teravili. Seega, kui vormiinfo on oluline, võiks kaaluda EstNLTK abil uuestimärgendamist koos dokumenditaseme ühestamisega. Vigu see ei kaota, aga vähendada võib.

Uuestimärgendamisel on ka see eelis, et nii saab korpus loetud EstNLTK andmestruktuuridesse. Olemasoleva märgenduse otse lugemine praegu ei õnnestu, sest korpus kasutab eelmistega võrreldes muutunud vormingut ja 2018 sügise seisuga on selle lugemine EstNLTK tegijatel rubriigis “kunagi peaks kindlasti ära tegema”.

Vorming näeb välja selline:

<doc id="1070432" src="web17" title="Haigekassa lükkab ümber Pealtnägija saates kõlanud süüdistused | Eesti Haigekassa" length="5k-10k" crawl_date="2017-09-27 03:05" lang_old="Estonian" lang_diff="0.28" ip="185.147.120.115" url="http://haigekassa.ee/en/node/2578" enc_meta="utf-8" enc_chared="utf_8" lang="Estonian" lang_scores="Estonian: 3913.12, Russian: 0.00, English: 711.05, Finnish: 1022.45, Ukrainian: 0.00, Belarusian: 0.00, Serbian: 0.00, Bulgarian: 0.00, Macedonian: 0.00">
<p heading="yes" langdiff="0.81">
<s>
Haigekassa      S.sg.n  haigekassa-s    sg_n    haige kassa     haige_kassa     0       
lükkab  V.b     lükkama-v       b       lükka   lükka   b       
ümber   K       ümber-k         ümber   ümber   0       
Pealtnägija     S.sg.g  pealtnägija-s   sg_g    pealt nägija    pealt_nägija    0       
saates  S.sg.in saade-s sg_in   saade   saade   s       
kõlanud V.nud   kõlama-v        nud     kõla    kõla    nud     
süüdistused     S.pl.n  süüdistus-s     pl_n    süüdistus       süüdistus       d       
</s>
</p>
<p langdiff="0.47">
<s>
Saade   H.pl.g  Saa-h   pl_g    Saa     Saa     de      
Pealtnägija     S.sg.n  pealtnägija-s   sg_n    pealt nägija    pealt_nägija    0       
pöördus V.s     pöörduma-v      s       pöördu  pöördu  s       
haigekassa      S.sg.g  haigekassa-s    sg_g    haige kassa     haige_kassa     0       
poole   K       poole-k         poole   poole   0       
seoses  K       seoses-k                seoses  seoses  0       
Eesti   H.sg.g  Eesti-h sg_g    Eesti   Eesti   0       
Hemofiiliaühingu        S.sg.g  hemofiiliaühing-s       sg_g    hemofiilia ühing        hemofiilia_ühing        0       
esitatud        V.tud   esitama-v       tud     esita   esita   tud     
kahtlustega     S.pl.kom        kahtlus-s       pl_kom  kahtlus kahtlus tega    
<g/>
.       Z       .-z             .       .               

Dokumendi alguses on tema metainfo, mis tõenäoliselt võiks olla üsna iseseletuv. Seejärel tulevad lõigud p ja laused s, nende sees igal real sõna koos oma analüüsiga. Veerud on järgmised, koos näidetega:

  • tekstisõna: “veepudeliga”, “toimus”
  • posgram ehk sõnaliik ja vormikood: “S.sg.kom”, “V.s”
  • lempos ehk lemma ja sõnaliik: “veepudel-s”, “toimuma-v”
  • vormikood: “sg_kom”, “s”
  • eraldatud tüved: “vee pudel”, “toimu”
  • liitsõna tüvi: “vee_pudel”, “toimu”
  • muutelõpp: “ga”, “s”

<g/> nagu glue tähistab kohta, kus tokeniseerimisel on kirjavahemärgi ette tühik lisatud.

Tasub tähele panna, et perioodika alamkorpuses esineb ka <info> element, nii et <doc> on ajalehenumber ja <info> üksikartikkel. Nii satuvad mõned andmed, mis üldiselt on <doc>is, ajalehtede puhul <info>sse, nt:

<doc id="3850" src="NC" filename="aja_EPL_2007_06_01.ma" balanced="no" texttype="periodicals">
<info id="224313" author="Kalle Kulbok, kuningriiklane" newspaperNumber="Eesti Päevaleht 01.06.2007" heading="Kolumnistid" article="KALLE KULBOK : kuluhüvitise uus kord on põhiseaduse vastane">

Ekilexi andmemudel

EKI soov Ekilexi arendamisel on teha senistest põhimõtteliselt parem sõnastiku- ja terminibaasisüsteem, mitte jäljendada olemasolevaid ega lisada neile inkrementaalseid täiendusi. See on andnud võimaluse mõelda väljaspool kasti juba alates andmemudelist. Kirjeldan selle mõtlemise praegust seisu, mis jõuab arenduse käigus kindlasti veel muutuda.

Üldised põhimõtted

Ekilex on minu teada maailmas esimene katse teha ühine andmemudel sõnastikele ja terminibaasidele. Baasis pole ei terminoloogide jaoks harjumuspärane onomasioloogia (1:n mõiste ja termini vahel) ega leksikograafide semasioloogia (m:1), vaid mõlemat kattev n:m. Ühel mõistel võib olla mitu terminit JA ühel keelendil võib olla mitu tähendust.

Keelendid (sõnad, terminid) ja tähendused (mõisted) on kõigile sõnakogudele ühised. Nende vahel n:m seose tekitamiseks vajalik vahetabel on sõnakogu-spetsiifiline. Kirje selles vahetabelis on nimetatud ilmikuks ehk lekseemiks ja defineeritud kui “see sõna selles tähenduses selles sõnakogus”. Seega saab konkreetse sõnakogu koostaja panna oma ilmikusse kirja, mida just tema soovib öelda selle sõna ja selle tähenduse seose kohta.

Võimalikud ja algusjärgus lausa sagedased on duplikaatkirjed sõnakogude vahel, nt otsing “termin” annab praegu identsed või lähedased mõisted Estermist, akadeemilise väljendusoskuse terminibaasist ja filosoofia terminibaasist. Kas need tegelikult on identsed või lähedased, on vastavate terminibaaside omanike öelda. Neil on võimalik neid kirjeid ühendada ja neid julgustatakse seda tegema, mh esitades neile duplikaadikandidaatide loendeid. Aga see ei ole kohustuslik, nt legitiimsete sisuerinevuste või koolkondlike eriarvamuste puhul.

Ekilexi lõppeesmärk on “üks sõnastik”, kust kasutaja saab otsida infot sõnade (st mitte sõnastike ega terminibaaside) kohta. Kasutaja ei pea otsingut sisestades teadma, millis(t)es sõnakogu(de)s teda huvitav kirje leidub, aga koos vastusega saab ta need kogud teada küll.

Eraldiseisvad sõnakogud jäävad vähemalt esialgu alles, igaühel oma koostaja. Kas ja kui siis kuidas nad kunagi ühinema hakkavad, on veel lahendamata.

Ekilexi lihtsustatud andmemudel

Olemid

Vorm

Sisaldab keelendi kõiki vorme, ka algvormi (algvorme). Vormile saab märkida, et ta on algvorm. Kui vormil on hääldus ja/või mõni hääldusmärkidega esituskuju, siis ka need on siin. Vormid on ühised kõigile sõnakogudele. Miks: sest sõna morfoloogia ei sõltu sõnakogust. Võimalikud ideoloogilised või ajaloolised erinevused lahendatakse läbirääkimistega koostajate vahel. Kui sõnakogudel on legitiimseid erivajadusi (nt vormide esitus õppesõnastikus vs terminibaasis), siis esitatavate vormide valiku ja esitusviisi saab kirjeldada vaates.

Paradigma

Ühendab vorme, mis kuuluvad samasse paradigmasse. Kasulik juhul, kui keelendil on mitu võimalikku paradigmat. Paradigmad on ühised kõigile sõnakogudele.

Keelend

See, mida traditsiooniliselt peetakse keelendiks, sõnaks, terminiks, märksõnaks, väljendiks vms, ehk asi, mis teoreetiliselt võiks sattuda sõnastiku märksõnaks või terminibaasi terminiks.

Keelendil endal mingit keelelist esitust ei ole, vaid ta saab nad vormidest: keelendit esitab selline vorm (või sellised vormid), mis on vormitabelis märgitud algvormiks.

Keelendil võib olla üks kuni mitu paradigmat, igaühel üks kuni mitu vormi. Muutumatutel sõnadel, fraasidel, võõrkeelsetel väljenditel jms on lihtsalt üks paradigma ühe vormiga.

Homonüümid on eraldi keelendid, ehk palk:palgi ja palk:palga on kaks eri keelendit, kummalgi oma paradigma(d). Ka sõitmise tee ja joomise tee on kaks eri keelendit, neil aga on kokkulangevad paradigmad ja vormid. Miks: sest paradigmade kordumist baasis on lihtsam taluda kui morfoloogiliste ja muude homonüümide erinevat esitust. Samuti leidub paradigmade vahel ka morfoloogilise homonüümi eristusest väiksemaid erinevusi, nt vesi ainena ei loendu, veekoguna loendub, mida saab soovi korral esitada kahe eri paradigmana.

Keelendid on ühised kõigile sõnakogudele. Miks: sest sõnad on keeles samad ja nende olemus ei sõltu sellest, millistesse sõnakogudesse neid on otsustatud lisada.

Probleem: kuni tähendusi pole vähemalt homonüümitasemel eri sõnastike vahel ühendatud, pole pääsu keelendite sisulisest kordumisest. Kui näiteks ühes sõnastikus on sõnal kaks ja teises kolm homonüümi, siis kokku on baasis viis homonüümi, millest tõenäoliselt kaks on liigsed. Kas ka tegelikult on liigsed ja võiks ära ühendada, vajab koostajate teadlikku otsust.

Ilmik

Seos keelendi ja tähenduse vahel ehk “see sõna selles tähenduses selles sõnakogus”. Mudeli keskne olem, mille küljes on enamus sõnakogu infost.

Ühel keelendil võib olla üks kuni mitu ilmikut, ja sõnastiku puhul vastab ilmiku ja tähenduse kombinatsioon märksõna ühele tähendusele. Ka ühel tähendusel võib olla üks kuni mitu ilmikut, ja terminibaasi puhul vastab ilmiku ja keelendi kombinatsioon mõiste ühele terminile.

Ilmik on esimene sõnakoguspetsiifiline olem. Keelendid on sõnakogudele ühised, ja keelendi lisamiseks sõnakogusse seotakse tema sobiva(te) tähendus(t)e ilmik(ud) vastava sõnakoguga.

Ilmikul saab olla kaal, mis näitab seose tugevust selle sõna ja selle tähenduse vahel. Saab kasutada osasünonüümia, osalise vaste või termini usaldusväärsuse esitamiseks.

Ilmikud saavad olla esmased (“mustad”, tavalised) või teisesed (“rohelised”, analüüsi ajal kasutatud tahvlivildika värvi järgi). Roheline ilmik võiks olla defineeritud kui “see sõna esineb KA selles tähenduses” ja tema erinevus tavalisest on, et teda näidatakse ainult tähenduse poolt vaadatuna, st ta ei tekita sõna poolt vaadatuna uut tähendust juurde.

Tähendus

Seob omavahel samatähenduslikke asju: ilmikuid (koos keelenditega) ja seletusi, ja võib kuuluda nulli kuni mitmesse valdkonda. Tähendus ise mingit sisulist infot ei sisalda.

Täissünonüümid ja täpsed vasted (ehk ühe mõiste terminid samas või eri keeltes) on oma ilmikute kaudu seotud sama tähendusega. Ehk täpne samatähenduslikkus on väljendatud kuuluvusena sama tähenduse juurde.

Kuni tähendused on sõnastike vahel ühendamata, esineb baasis eri sõnakogudesse kuuluvaid tähendusi, mis võivad olla sisuliselt ekvivalentsed või peaaegu ekvivalentsed. Pärast ühendamist on ühendatud tähendus seotud mitme sõnakoguga.

Seletus

Tähendusel võib olla null kuni mitu seletust eri keeltes. Seletuse keel ei ole vältimatult seotud keelendi keelega, võimaldades eesti-vene sõnastikku eesti seletustega, eesti-vene sõnastikku vene seletustega vms.

Vabavorm

Struktuur igasuguse seni nimetamata tekstilise info esitamiseks keelendi, ilmiku, tähenduse või seletuse kohta: näited (vajadusel koos tõlgete ja seletustega), märkused, grammatiline kasutusinfo jms. Vabavormi rea kohta on teada, mis sorti vabavorm ta on, ja mis keeles. Vabavormid saavad olla omavahel hierarhilistes seostes, nt kasutusnäitel on tõlge ja seletus.

Seos

Esitab muid seoseid kahe ilmiku vahel peale samatähenduslikkuse (samatähenduslikud ilmikud on niikuinii seotud tähenduse kaudu).

Seosel on suund. Ühesuunaline seos (nt A on B hüponüüm) on esitatud ühe seosega. Sümmeetriline seos (nt A on B antonüüm) on esitatud kahe vastassuunalise, aga muidu ühetüübilise seosega, mille terviklus on tagatud programmaatiliselt. Komplementaarsed seosed (nt A on B hüponüüm ja B on A hüperonüüm) on esitatud kahe vastassuunalise ja eritüübilise seosega. Kaks vastassuunalist seost võivad esineda ka mõne arvväärtuse poolest (nt A esilduvus B suhtes on 0,7 ja B esilduvus A suhtes on 0,6).

Seos on sõnakoguspetsiifiline, st koostajal on võimalik valida, kas seda seost oma sõnakogus esitada või mitte. Ka sisuliselt sümmeetrilisest seosest võib esitada ainult poolt, nt näidata kollokatsiooni oma sõnastikus ainult ühes suunas.

Kuigi täpne samatähenduslikkus käib tähenduse kaudu, saab seoseid (lisaks) kasutada osalise samatähenduslikkuse esitamiseks. Nt distributiivset sarnasust või rööpkorpuse joondamise tulemust saab esitada sünonüümia- või vasteseose kaaluna. Sama tähenduse piires saab vaste-eelistuse seosega näidata tõenäolisemaid tõlkevasteid, nt kuigi okulist, oftalmoloog, oculist ja ophtalmolog on kõik samatähenduslikud, tunduvad paarid okulist-oculist ja oftalmoloog-opthalmolog lugejale ootuspärasemad.

Sõnakogu

Sõnastik või terminibaas. Esitab muuhulgas, milliseid keeli, haldusolekuid ja valdkonnaklassifikaatori väärtusi saab selles sõnakogus kasutada.

Valdkond

Ekilexi valdkonnaklassifikaator saab sisaldada mitut klassifikaatorikomplekti (nt Lenoch, Eurovoc või mõni isetehtud komplekt). Sõnakogu jaoks saab valida klassifikaatoriread või terve valmis klassifikaatorikomplekti, mis on selles sõnakogus kasutusel. Klassifikaatoriread saavad olla omavahel hierarhilises seoses. Klassifikaatorireal saab olla mitu silti, nt lühendid, täiskujud, eri keeled vms. Ühe tähendusega võib olla seotud mitu klassifikaatoririda ühest või mitmest klassifikaatorikomplektist.

Edasise töö suunad

Ekilexi arendus on üsna algusjärgus. Esimesed päris kasutajad kolivad oma koostamisega siia tõenäoliselt alles 2019. aastal. Seetõttu on väga tõenäoline, et kirjeldatud mudel jõuab veel muutuda, isegi olulistes küsimustes.

Tõlkija enesetaju ja selle seos tõlketöö tulemusega

Keeltepäeva tõlkekonverentsil 2011 rääkisin ühe katse ja ühe küsitluse põhjal, millest olenevad tõlkimisel tehtavad valikud. Selgub, et peaaegu üldse ei mõjuta traditsioonilised tegurid nagu haridus või tõlkekogemus. Küll aga sõltuvad valikud sellest, kelleks tõlkija ennast peab: kas tekstiteisendusmehhanismiks või vaba tahtega inimeseks. Kirjeldasin sellest enesetaju erinevusest lähtuvalt kaht nähtust, mida mõlemat tõlkimiseks nimetatakse, aga mis on omavahel nii erinevad, et teise eest õnnestub tõlketurul kolm korda rohkem raha küsida

Arvi Tavast