Uues ÕSis on 54 023 märksõna.
Sõnaveebi aluseks olevas Ekilexi andmebaasis on 152 978 erineva kirjapildiga eesti keelendit.
Praegu suurima eesti korpuse sagedusloendis on 6 637 121 erinevat lemmat.
Muidugi on korpuses rohkesti näpukaid, võõrkeelseid sõnu, pärisnimesid, numbreid, aadresse jne, ehk tegelikult ikka ei ole ÕSis alla 1% kõigist eesti sõnadest, nagu nende arvude põhjal tunduda võiks.
Sagedusloendi algus on samas suhteliselt mõistlik, tekitades kiusatuse järele vaadata – mis siis on kõige sagedasemad sõnad, mida ÕSis pole?
Meetod
Sagedusloendist võtsin ülemise otsa ja viskasin välja nähtused, mida üldiselt ei peeta sõnastikus kajastamist väärivaks:
- näpukad ja õigekirjavead: sagedamate hulgas on nt vöi, garaaz, shokolaad, varjant
- pärisnimed, nt Eesti, Tallinn
- arvud, nt 3, XVII
- lühendid, nt ÜRO, jne
- muukeelsest tekstist pärinevad sõnad, nt for, with (aga jätsin sisse sorry, kuna esineb eestikeelses tekstis)
- ilmsed parsimisvead, nt onclick, displaystyle
- ilmsed tokeniseerimisvead, nt ile, ilt, aseesimeestänan
- ilmsed analüüsivead, nt kokkupuu (PlG kokkupuude), kohapea (SgAd kohapeal)
ÕSist vaatasin kogu teksti, st mitte ainult märksõnu, vaid ka näidetes, seletustes jne esinevaid sõnu. Ühegi välja sisu ei lemmatiseerinud, st eriti seletustes ja näitelausetes võib mõni muidu puuduv sõna käändes kasutatud olla. Näiteks otsingumootor esineb ainult tumeda veebi seletuses kujul otsingumootorid, mitte märksõnana (märksõna on otsimootor).
Fakultatiivosade märkimiseks on ÕSis kasutatud kaht viisi, natuke[ne] ja tele(visiooni)sari. Need mõlemad laiendasin, ehk lugesin ÕSis olevaks kõik neli: natuke, natukene, telesari ja televisioonisari. ÕSis olevaks lugesin ka mittesoovitavaks märgitud keelendid, kuna nende kohta on seal vähemalt see mittesoovitavuse info olemas.
Tulemused
Allpool on 1000 sagedasemat sõna, mis on ÕSist ülalkirjeldatud mõttes puudu.
Neist väga suur osa on võrdevormid, liitsõnad, regulaarsed tuletised ja verbi käändelised vormid, mille puudumine on mõistetav, sest iga keeleoskaja suudab neid vajadusel käigupealt moodustada. Mis on natuke kehvem, arvestades ÕSi normatiivset staatust, on samasuguste, kuid haruldasemate liitsõnade, tuletiste ja vormide esinemine. Sellest kiputakse välja lugema, nagu kasutada tohikski ainult loetletuid. Näiteks rahandusministeeriumi (34146 esinemisjuhtu) ei ole, sama sage rahandusminister on, aga lisaks on palju väiksema või lausa olematu sagedusega rahanduskontroll (ainult 6), rahanduspoliitika, rahandustöötaja, rahandusaasta, rahanduskord, rahanduskriis, rahandusstatistika, rahandussüsteem. See võib kaasa aidata korduma kippuvale keelenõuküsimusele, kas ministeeriumidele ikka tohib üldnimedega viidata. Tuletistest eneseohverdamine (118) on, leidmine (51508) puudub. Adjektiivistaatuse suunas liikuvatest verbivormidest isekopeeruv (20) on, seonduv (28103) puudub.
Vaieldamatud õigekirjavead nagu shokolaad korjasin välja, küll aga jätsin sisse rea nähtusi, mille vigasus (õigemini neid keelava reegli põhjendatus) ei ole täiesti väljaspool kahtlust: blog, net, mõtetu, aitähh, kellegile (viimase on Filosofti analüsaator lemmatiseerinud kujule kelleg). Selliste kirjapiltide sagedus viitab vähemalt vastava reegli ebapiisavale intuitiivsusele.
Eriti jätsin sisse liitsõnad, mille asemele norming nõuab sarnase kujuga fraase: veelkord, niiet, ahjaa, minumeelest. Liitsõnamoodustus on eesti keeles täiesti vaba. Nagu öeldud, suudab igaüks neid käigupealt juurde teha (nt seesama käigupealt, 521 esinemisjuhtu, ÕSist puudu). Ei keela liitsõna moodustamist ka samadest komponentidest koosneva ja/või samatähendusliku fraasi olemasolu.
Lisasin ka lingid äsja (kirjutamise ajal paar tundi tagasi) valminud Sõnaveebile, kus paljud neist sõnadest on olemas. Õigusega, kuuluvad nad ju eesti keele kümnekonna tuhande sagedama sõna hulka, ehk loendi esimene ots lausa põhisõnavarasse.
Ühtlasi on siit ilmne, miks ÕSist puudumine ei ole sama mis keelest või isegi kirjakeelest puudumine. Ükski sõnastik ei saa sisaldada kõiki sõnu, eriti mitte nii paindliku sõnamoodustussüsteemiga keeles kui meie oma.
Loend ise
Lugesid kõik 1000 läbi? Vägev! Klõpsa siis palun sõnade linke ka, et näha, mis Sõnaveeb nende kohta arvab.