1000 sagedamat sõna, mida ÕSis pole

Uues ÕSis on 54 023 märksõna.

Sõnaveebi aluseks olevas Ekilexi andmebaasis on 152 978 erineva kirjapildiga eesti keelendit.

Praegu suurima eesti korpuse sagedusloendis on 6 637 121 erinevat lemmat.

Muidugi on korpuses rohkesti näpukaid, võõrkeelseid sõnu, pärisnimesid, numbreid, aadresse jne, ehk tegelikult ikka ei ole ÕSis alla 1% kõigist eesti sõnadest, nagu nende arvude põhjal tunduda võiks.

Sagedusloendi algus on samas suhteliselt mõistlik, tekitades kiusatuse järele vaadata – mis siis on kõige sagedasemad sõnad, mida ÕSis pole?

Meetod

Sagedusloendist võtsin ülemise otsa ja viskasin välja nähtused, mida üldiselt ei peeta sõnastikus kajastamist väärivaks:

  • näpukad ja õigekirjavead: sagedamate hulgas on nt vöi, garaaz, shokolaad, varjant
  • pärisnimed, nt Eesti, Tallinn
  • arvud, nt 3, XVII
  • lühendid, nt ÜRO, jne
  • muukeelsest tekstist pärinevad sõnad, nt for, with (aga jätsin sisse sorry, kuna esineb eestikeelses tekstis)
  • ilmsed parsimisvead, nt onclick, displaystyle
  • ilmsed tokeniseerimisvead, nt ile, ilt, aseesimeestänan
  • ilmsed analüüsivead, nt kokkupuu (PlG kokkupuude), kohapea (SgAd kohapeal)

ÕSist vaatasin kogu teksti, st mitte ainult märksõnu, vaid ka näidetes, seletustes jne esinevaid sõnu. Ühegi välja sisu ei lemmatiseerinud, st eriti seletustes ja näitelausetes võib mõni muidu puuduv sõna käändes kasutatud olla. Näiteks otsingumootor esineb ainult tumeda veebi seletuses kujul otsingumootorid, mitte märksõnana (märksõna on otsimootor).

Fakultatiivosade märkimiseks on ÕSis kasutatud kaht viisi, natuke[ne] ja tele(visiooni)sari. Need mõlemad laiendasin, ehk lugesin ÕSis olevaks kõik neli: natuke, natukene, telesari ja televisioonisari. ÕSis olevaks lugesin ka mittesoovitavaks märgitud keelendid, kuna nende kohta on seal vähemalt see mittesoovitavuse info olemas.

Tulemused

Allpool on 1000 sagedasemat sõna, mis on ÕSist ülalkirjeldatud mõttes puudu.

Neist väga suur osa on võrdevormid, liitsõnad, regulaarsed tuletised ja verbi käändelised vormid, mille puudumine on mõistetav, sest iga keeleoskaja suudab neid vajadusel käigupealt moodustada. Mis on natuke kehvem, arvestades ÕSi normatiivset staatust, on samasuguste, kuid haruldasemate liitsõnade, tuletiste ja vormide esinemine. Sellest kiputakse välja lugema, nagu kasutada tohikski ainult loetletuid. Näiteks rahandusministeeriumi (34146 esinemisjuhtu) ei ole, sama sage rahandusminister on, aga lisaks on palju väiksema või lausa olematu sagedusega rahanduskontroll (ainult 6), rahanduspoliitika, rahandustöötaja, rahandusaasta, rahanduskord, rahanduskriis, rahandusstatistika, rahandussüsteem. See võib kaasa aidata korduma kippuvale keelenõuküsimusele, kas ministeeriumidele ikka tohib üldnimedega viidata. Tuletistest eneseohverdamine (118) on, leidmine (51508) puudub. Adjektiivistaatuse suunas liikuvatest verbivormidest isekopeeruv (20) on, seonduv (28103) puudub.

Vaieldamatud õigekirjavead nagu shokolaad korjasin välja, küll aga jätsin sisse rea nähtusi, mille vigasus (õigemini neid keelava reegli põhjendatus) ei ole täiesti väljaspool kahtlust: blog, net, mõtetu, aitähh, kellegile (viimase on Filosofti analüsaator lemmatiseerinud kujule kelleg). Selliste kirjapiltide sagedus viitab vähemalt vastava reegli ebapiisavale intuitiivsusele.

Eriti jätsin sisse liitsõnad, mille asemele norming nõuab sarnase kujuga fraase: veelkord, niiet, ahjaa, minumeelest. Liitsõnamoodustus on eesti keeles täiesti vaba. Nagu öeldud, suudab igaüks neid käigupealt juurde teha (nt seesama käigupealt, 521 esinemisjuhtu, ÕSist puudu). Ei keela liitsõna moodustamist ka samadest komponentidest koosneva ja/või samatähendusliku fraasi olemasolu.

Lisasin ka lingid äsja (kirjutamise ajal paar tundi tagasi) valminud Sõnaveebile, kus paljud neist sõnadest on olemas. Õigusega, kuuluvad nad ju eesti keele kümnekonna tuhande sagedama sõna hulka, ehk loendi esimene ots lausa põhisõnavarasse.

Ühtlasi on siit ilmne, miks ÕSist puudumine ei ole sama mis keelest või isegi kirjakeelest puudumine. Ükski sõnastik ei saa sisaldada kõiki sõnu, eriti mitte nii paindliku sõnamoodustussüsteemiga keeles kui meie oma.

Loend ise

Koht sagedustabelisSõnaAbsoluutne sagedus
1202 muudatusettepanek65720
1458 odavam52146
1479 leidmine51508
1630 saavutamine45977
1750 blog42882
1956 täpsem37323
2098 rahandusministeerium34146
2127 läbiviimine33749
2263 jõudmine31046
2334 sõlmimine29568
2335 ilmselgelt29544
2350 postitatu29248
2366 net29080
2406 keerulisem28540
2434 seonduv28103
2537 peatreener26465
2549 uudiskiri26351
2668 edendamine24660
2680 väljatöötamine24507
2702 alustamine24150
2744 pakkuja23516
2776 saabumine23201
2997 lisamine20797
3002 juhtivkomisjon20765
3052 laiemalt20421
3061 taaskord20366
3102 mugavam19995
3149 sügavam19506
3182 nõrgem19168
3189 jõustumine19132
3190 huvitavam19123
3277 menetlemine18390
3284 kelleg18306
3337 toimumine17849
3390 abilinnapea17476
3393 kaotamine17460
3417 laekumine17245
3421 läbimine17195
3425 majanduskomisjon17149
3466 kodulehekülg16967
3503 õigem16709
3505 hüvitamine16694
3541 tõsisem16531
3620 veelkord16067
3630 juhendamine15997
3636 kukkumine15929
3661 keskkonnaministeerium15794
3751 ID-kaart15251
3801 tutvumine14993
3830 õiguskomisjon14805
3837 renoveerimine14787
3881 märkimisväärselt14560
3886 tuntum14529
3929 populaarsem14321
3963 põhiseaduskomisjon14116
3979 lennufirma14045
3985 kavandatav14024
4032 maanteeamet13794
4077 müügitulu13569
4117 niiet13381
4138 vastamine13278
4150 viibimine13207
4182 võitlemine13087
4205 tippkohtumine12992
4215 võimsam12914
4256 maapiirkond12754
4262 testimine12712
4277 jooksmine12572
4296 teadusministeerium12469
4317 maailmameistrivõistlus12385
4326 põnevam12342
4328 valmiv12332
4334 efektiivsem12304
4342 katmine12275
4355 tõhusam12227
4409 investeerimine11987
4417 lähtetekst11952
4462 ühendriik11773
4477 möödumine11722
4519 kohaldatav11580
4529 aegajalt11547
4541 blogis11508
4546 veits11454
4571 kindlam11399
4590 rahuldamine11342
4607 suunamine11285
4627 tervishoiuteenus11192
4639 sootuks11154
4680 koostaja11018
4715 sihtgrupp10893
4728 põllumajandusministeerium10872
4736 traditsiooniliselt10850
4742 keskkonnaamet10831
4750 kolimine10802
4753 meistriliiga10796
4757 õppematerjal10778
4789 tunnistamine10689
4793 arendustegevus10677
4807 rikkam10640
4817 maaülikool10582
4829 list10525
4837 vabaerakond10510
4919 rahvaliit10243
4962 enamvähem10124
4993 aktiivsem10035
5004 hmm10005
5027 kommunikatsiooniministeerium9970
5081 taastuvenergia9826
5094 põhiõigus9797
5103 piirivalveamet9786
5172 kiireim9559
5179 kandideerimine9530
5184 rahulikum9519
5199 lähiaasta9485
5236 korraldatav9358
5331 leitav9105
5381 ahjaa8992
5401 aeglasem8945
5404 vaktsineerimine8939
5407 planeeritav8934
5411 peitja8926
5435 minemine8868
5449 vanavanem8836
5453 sätestatu8832
5456 realiseerimine8825
5477 rakenduma8784
5539 turvalisem8637
5601 halvim8505
5620 pehmem8457
5650 võõrandamine8381
5746 tulemine8195
5756 analüüsimine8177
5765 ratifitseerimine8162
5811 vaesem8072
5841 kasulikum8009
5847 registreerumine7993
5849 väga-väga7991
5869 keerukam7952
5879 sobivam7937
5880 igapäev7936
5898 hetkeseis7885
5910 karmim7856
5917 õpituba7830
5928 kahtlustatav7820
5939 omamine7789
5948 sihuke7775
5954 loodav7768
5956 väljaselgitamine7766
5959 soovituslik7759
5968 taotlusvoor7740
6004 lõunaosa7663
6007 ohtlikum7661
6010 katsetamine7656
6022 korteriomanik7624
6028 parlamendiliige7617
6034 konkurentsivõimeline7609
6035 kaalumine7606
6061 hilinemine7557
6068 eeldatav7540
6084 e-mail7510
6111 puhtam7469
6116 tõlkimine7453
6129 muljetavaldav7419
6137 funktsionaalsus7410
6138 majandusministeerium7408
6154 eelnimetatu7385
6177 üldjoon7339
6194 hinnatase7314
6233 karikavõistlus7238
6236 soovitavalt7234
6237 alustav7233
6246 noorsootöö7218
6258 keskerakondlane7192
6291 tavainimene7129
6319 haridussüsteem7082
6321 teadusminister7079
6333 tulemuslikkus7054
6334 küsimine7053
6346 läbiviidud7038
6348 kooskõlastamine7035
6359 huvigrupp7017
6383 katkestamine6973
6384 põllumajandustootja6973
6403 elektrooniliselt6945
6405 jahedam6941
6406 kaunim6940
6421 muretsemine6914
6447 emotsionaalselt6858
6453 rahvusringhääling6851
6481 koordineerimine6806
6495 hingamistee6785
6517 konkurentsiamet6746
6524 siuke6733
6543 laialdaselt6712
6546 täpsustamine6710
6556 terviseprobleem6691
6591 infopäev6633
6643 töötingimus6560
6670 regionaalhaigla6520
6688 kulgemine6501
6706 tegevusvaldkond6475
6708 riigikaitsekomisjon6473
6718 hinnaklass6452
6754 lähipäev6407
6776 valitsemisala6380
6778 kõnelev6379
6782 järjepidevalt6374
6793 ülemkogu6361
6798 koolijuht6355
6803 sobivaim6350
6808 maa-amet6339
6818 haridusasutus6324
6824 karikasari6312
6828 autotootja6306
6846 täitumine6277
6854 keskendumine6268
6859 õnnelikum6265
6860 lõpphääletus6265
6863 peastaap6261
6864 pühendumine6260
6881 populaarseim6233
6908 MK-etapp6205
6923 edukaim6188
6932 tulumaksuseadus6171
6937 C-vitamiin6165
6941 võistluspäev6159
6951 põhiturniir6149
6954 põllumajanduspoliitika6143
6965 allkirjastamine6124
6976 lihtsamalt6116
6987 D-vitamiin6100
7007 politseiamet6061
7018 ohutum6052
7037 lubamine6037
7046 ühtlustamine6024
7056 lendamine6014
7064 maksusüsteem5992
7083 palestiinlane5979
7087 omavalitsusüksus5970
7089 meeskonnatöö5968
7105 värskem5944
7115 naiskodukaitse5936
7116 tervislikum5934
7124 peakorraldaja5926
7132 kõrvaltoime5915
7154 tavalisem5893
7159 väljaütlemine5885
7227 töötleja5805
7262 määratlemine5765
7278 kohe-kohe5749
7286 kuulsam5743
7301 teravam5733
7304 kommunikatsiooniminister5732
7305 osalustasu5730
7350 tagasihoidlikum5688
7372 niisutav5671
7400 terviseamet5645
7402 kutsumine5644
7403 tõsisemalt5642
7407 eurotsoon5636
7415 linnateater5629
7428 juriidiliselt5613
7467 kutsehariduskeskus5570
7473 eurovisioon5561
7476 aint5560
7489 heitkogus5545
7501 hinnapakkumine5531
7507 paindlikum5526
7520 maandumine5513
7521 kontserdimaja5510
7571 majake5459
7575 heategevuslik5453
7578 koostööprojekt5450
7588 liiklemine5441
7591 esindamine5439
7603 maksustatav5430
7607 niiöelda5424
7656 rahvusraamatukogu5379
7681 tegevusgrupp5349
7684 hoiukodu5345
7733 reformierakondlane5295
7772 alaliit5258
7778 sisemajandus5253
7792 laekuv5239
7793 keskkriminaalpolitsei5236
7794 sotsiaalkindlustusamet5234
7799 investeerimisühing5229
7814 konkureeriv5215
7820 kasvuhoonegaas5209
7821 korteriomand5209
7839 kandidaatriik5181
7864 vägistamine5162
7866 raportöör5161
7880 suurenev5145
7890 kaasettekandja5137
7905 harvem5117
7907 majandustulemus5113
7912 arengufond5110
7926 metsaomanik5102
7943 meeldivam5087
7949 täpsustav5083
7953 halvenemine5079
7957 rangem5074
7959 tõenäolisem5071
7971 lauapall5059
7973 tiitlivõistlus5058
7978 maakodu5055
7986 egas5048
8030 meeskonnaliige5003
8035 lihtsustamine4998
8037 haldaja4997
8053 inspireeriv4982
8086 tõsiseltvõetav4948
8100 kuulsaim4937
8104 ametivõim4933
8108 kütuseaktsiis4929
8118 riigisaladus4919
8133 tagantjärgi4906
8149 väikene4894
8151 arupärija4894
8190 kommenteerimine4864
8196 korruptsioonivastane4859
8205 tööelu4845
8219 regionaalareng4829
8220 otsingumootor4829
8239 väärtuslikum4815
8240 valetamine4815
8281 ravimiamet4783
8287 otsetoetus4779
8295 väärtustamine4773
8314 esinumber4755
8318 kooliõpilane4749
8372 riigipoolne4710
8378 konkreetsem4707
8383 autasustamine4703
8409 regionaalminister4689
8414 piletihind4687
8424 lõbusam4681
8445 rajatav4670
8462 lastefond4656
8480 helistamine4644
8485 koduklubi4642
8498 tervem4635
8503 üldarvestus4628
8530 protsendipunkt4614
8556 inglisekeelne4596
8560 kallinemine4591
8571 üleminekuperiood4581
8587 sagedasem4565
8592 toredam4561
8613 ühisgümnaasium4539
8638 sotsiaalfond4518
8641 süvenemine4517
8642 optimeerimine4517
8651 kuivem4510
8661 samapalju4505
8677 huvitegevus4495
8681 lahendamata4493
8694 ärimudel4485
8709 osalenu4475
8727 per4462
8728 elamumaa4461
8739 kauaoodatud4455
8741 suvekodu4450
8749 koalitsioonilepe4447
8754 sealkandis4444
8766 elektrisüsteem4435
8778 äripind4428
8784 vanusegrupp4426
8801 leebem4415
8813 toiduamet4404
8849 keskkonnainspektsioon4374
8853 üldisemalt4366
8857 nimekuju4365
8860 vabam4363
8863 hinnalangus4362
8888 uhkem4341
8898 värskendav4334
8902 rõõmsam4333
8903 integreerimine4333
8939 tulumaksuvaba4313
8944 soodustamine4311
8945 võimaldamine4311
8953 protseduuriline4307
8960 tõhustamine4302
8963 seadistamine4301
8993 riigivara4286
9009 küsitletu4276
9014 allolev4274
9020 ilmateenistus4271
9034 maaelukomisjon4261
9079 kvaliteetselt4236
9085 magusam4232
9088 tingituna4227
9101 väljendamine4219
9105 kuivatamine4216
9130 finantssektor4199
9147 meisterdamine4187
9148 parendamine4186
9187 jõuluaeg4162
9225 odavaim4138
9244 mõtetu4117
9253 väljavahetamine4111
9258 tõestamine4109
9272 lisaaine4099
9281 E-maa4096
9285 diagnoosimine4093
9295 eluvaldkond4086
9300 baseeruv4083
9312 lõpupoole4074
9313 niiväga4073
9325 aastatagune4063
9327 omavahend4061
9333 märgistamine4059
9339 õpikeskkond4053
9345 eeldatavalt4048
9347 panustamine4047
9368 kokkuvõtvalt4034
9375 soodsamalt4030
9377 haavatav4029
9388 ägedam4019
9395 tervenemine4013
9399 tootmismaht4011
9412 jälgitav4004
9423 ülevaatamine3994
9424 linnaplaneerimine3994
9433 keskväli3989
9435 ilmnemine3988
9442 e-arve3983
9443 suusaliit3981
9444 muinsuskaitseamet3980
9463 krediidipank3970
9466 õppetoetus3968
9470 väljaarendamine3964
9479 imetamine3957
9482 eristamine3957
9483 võlaõigusseadus3956
9491 helistaja3946
9497 plaanitav3942
9503 ülesütlemine3940
9515 maaüksus3932
9517 tervisekontroll3931
9548 laiendus3913
9555 minumeelest3908
9570 tervisehäda3899
9576 kohtuväline3896
9578 plaadifirma3895
9582 majanduskeskkond3894
9583 kuivamine3894
9585 väljatöötatud3894
9587 tervishoiusüsteem3893
9602 potentsiaalselt3877
9614 rattaralli3872
9626 jõudev3867
9628 uuritav3867
9635 harjumine3862
9647 liituv3857
9668 lähedasem3845
9676 deklareerimine3831
9681 valitsussektor3824
9691 kiirendamine3819
9699 hääletustulemus3815
9708 lahedam3812
9716 pressinõukogu3809
9724 avaring3805
9735 tipphetk3800
9740 aitähh3797
9743 stabiilsem3793
9755 lapsetoetus3787
9760 efektiivsemalt3785
9763 loomapood3782
9778 atraktiivsem3776
9780 avaram3775
9782 peretoetus3774
9802 turvafirma3760
9803 linnavõim3760
9804 hukkamine3759
9806 kasumlikkus3758
9810 tõhusamalt3755
9819 võistlemine3751
9842 turvatöötaja3740
9849 keskkonnainvesteering3737
9850 puhkekeskus3737
9860 eelvoor3732
9868 eelarvestrateegia3727
9883 tuldud3715
9894 kahjustamine3708
9917 erafirma3692
9920 selgemalt3690
9934 föderaalreserv3681
9940 isetehtud3679
9957 veekeskus3662
9968 terrorismivastane3660
9971 intensiivsem3659
9974 kommunikatsioonijuht3656
9984 avaleht3653
9987 büroohoone3652
10025 konverentsikeskus3627
10027 sisekaitseakadeemia3625
10029 majandusareng3625
10047 ettevalmistav3615
10053 lahkuv3613
10058 tarneahel3612
10075 põhirõhk3602
10105 ümbersuunamine3586
10140 rattamaraton3572
10142 toetatav3571
10145 tundlikum3569
10146 kaitstav3569
10149 võitlev3566
10150 vaatlemine3565
10151 tegevuskulu3565
10152 palgakasv3564
10155 palkamine3562
10165 tervendav3553
10178 omavalitsusliit3544
10182 värskeim3541
10209 mainimine3526
10212 ehitatav3525
10215 erilisem3524
10218 väärkohtlemine3523
10224 juhtumine3518
10236 manipuleerimine3515
10239 käibemaksuseadus3512
10240 maaeluvõrgustik3512
10244 hääletaja3510
10253 veebikeskkond3508
10275 äriidee3501
10276 kättetoimetamine3501
10277 siseasi3501
10292 kuutasu3495
10295 põllumajandustoode3493
10302 pangaarve3489
10324 ahjuplaat3477
10334 lihatööstus3471
10342 sotsiaalteenus3469
10344 meediakanal3467
10352 igalpool3464
10365 keskfraktsioon3461
10400 turuosaline3442
10401 finantsteenus3442
10403 fondivalitseja3442
10410 eraldatav3439
10421 seadusmuudatus3432
10433 vaidlustamine3426
10455 arendusprojekt3418
10458 õppekoht3416
10460 lihvimine3416
10463 positiivsem3414
10469 kuluv3410
10472 globaliseerumine3409
10478 tootmisprotsess3407
10492 elektriturg3400
10513 kodukorraseadus3391
10515 põhialus3390
10516 autonäitus3390
10522 institutsionaalne3386
10523 ettevõtluskeskkond3384
10527 sideministeerium3383
10534 kliendisõbralikkus3379
10572 ehitusõigus3361
10575 leppimine3361
10578 siinkandis3359
10582 jazz3357
10598 grillimine3349
10599 inimsuhe3349
10600 vaikiv3348
10604 viitamine3346
10609 igakord3344
10613 personalijuht3343
10627 ilmaolu3337
10635 aktiivsemalt3333
10639 heh3331
10646 puhkemine3328
10654 nüüdki3325
10668 sisendkäibemaks3320
10683 läbiviidav3314
10686 kodumäng3313
10694 aktsiisimäär3307
10702 konsulteerimine3305
10710 teadvustamine3302
10719 põhiväärtus3300
10729 söödu3296
10738 tööprotsess3289
10742 viitsimine3288
10750 auhinnafond3283
10751 katteallikas3283
10753 hoolimine3281
10757 vastupidavam3279
10765 tasustamine3277
10801 maleliit3263
10804 suhtleja3262
10812 suuromanik3259
10818 ainukene3255
10819 kalleim3255
10828 sõltumata3252
10853 rahastatav3239
10861 piletilevi3232
10886 võimuliit3223
10897 koolituskeskus3218
10919 takistamine3209
10922 meeskonnakaaslane3208
10924 ebastabiilsus3207
10930 müügileping3205
10933 põhiteema3205
10934 reformimine3205
10949 omastamine3197
10959 osakapital3193
10963 pronkssõdur3191
10974 arengukoostöö3188
10979 sisejulgeolek3185
10992 õueala3181
10993 linnaeelarve3181
10996 MK-sari3179
11010 tugevnemine3172
11016 tihedamalt3170
11017 kauneim3170
11020 tööminister3169
11032 kaasajastamine3161
11046 laululava3154
11051 lasteaiakoht3152
11061 võistlusklass3147
11063 heakskiidetud3146
11064 rannikuala3145
11071 suurfirma3143
11075 otstarbekam3142
11078 ümberkujundamine3140
11085 sõiduvahend3135
11087 supilusikatäis3135
11088 helgem3135
11091 lahjem3134
11100 rahaliit3131
11101 kaerahelves3131
11118 koostöökogu3126
11127 sihtriik3121
11129 võistlev3119
11134 valdkondlik3117
11149 keskkaitsja3109
11152 piimatootja3108
11155 sorry3107
11161 laevakompanii3105
11165 sisehoov3104
11168 avatu3103
11177 ohh3100
11180 teeolu3098
11188 rahvusooper3096
11206 haridusamet3088
11207 pommitamine3088
11208 importimine3088
11210 prognoositav3087
11211 ülekaalulisus3087
11216 riigifirma3085
11217 kõrgtehnoloogiline3084
11218 koolivõrk3084
11223 maksukorraldus3083
11231 kiirustamine3081
11235 märkamine3078
11256 mõjutaja3071
11267 halduskogu3067
11278 keskkonnaalane3062
11284 võidutöö3060
11324 mitte-eestlane3041
11342 meditsiiniseade3036
11369 spetsialiseerumine3027
11370 kodumeeskond3027
11373 välisteenistus3027
11389 MM-sari3023
11390 koolitusprogramm3020
11400 palgatase3017
11401 sügavamalt3017
11410 e-post3015
11420 mitmekesisem3011
11427 sisekliima3009
11439 välissuhe3002
11471 väljasaatmine2990
11472 tegevusplaan2990
11476 elavdamine2988
11478 detailsem2988
11487 rahulikumalt2983
11490 süvenev2982
11494 lennuamet2981
11524 energiasääst2972
11527 lisainformatsioon2969
11543 kurvem2965
11551 aktsiisitõus2961
11559 E-vitamiin2958
11572 kohalolu2954
11575 ühepoolselt2953
11576 kultuuriakadeemia2953
11592 armumine2947
11593 valimiskogu2947
11597 avatum2945
11602 ulatuslikum2943
11603 nahatüüp2943
11607 suhtlemisoskus2941
11609 kaitsekulutus2939
11614 tugevamalt2937
11619 leviala2935
11628 vastuvõttev2930
11653 kerkiv2924
11657 saadaolev2921
11662 murettekitav2917
11674 fikseerimine2914
11685 asetamine2910
11686 ümbrikupalk2910
11691 mahukam2907
11692 toimumiskoht2907
11701 omavalitsusjuht2904
11702 viletsam2904
11712 kuumem2901
11714 bussifirma2899
11728 arvatavalt2891
11732 liituja2889
11750 kinnisvarafirma2881
11751 maailmapank2881
11755 vanakool2879
11762 jutumärk2877
11806 mitteresident2860
11809 kasutusvõimalus2859
11813 ühisprojekt2857
11815 piirnev2857
11823 fotonäitus2855
11829 lisavõimalus2854
11847 vananev2847
11851 välisleping2847
11853 töötegemine2845
11866 soojendamine2841
11874 reisijatevedu2838
11884 teemaalgataja2835
11890 teatriakadeemia2833
11894 hävimine2831
11896 teadlikum2831
11910 õpilasesindus2825
11927 sorteerimine2818
11931 statistiliselt2817
11932 lähteülesanne2816
11944 osavõistlus2814
11957 onju2811
11959 suremine2809
11960 peamaja2809
11977 fotokonkurss2802
11978 töövaidluskomisjon2802
11980 lisateenus2801
11985 komplekteerimine2799
11989 rahvavabariik2797
11990 gümnaasiumiseadus2797
11992 moodsam2796
12002 hoidumine2792
12004 päästekeskus2792
12020 sõidetav2787
12036 sõlmitav2780
12039 leidev2778
12045 jälitustegevus2775
12051 noorsootöötaja2773
12060 rikkaim2772
12063 transpordiamet2771
12075 elektrilevi2768
12080 täiskoht2767
12081 kindlustusfirma2766
12084 kuhugile2765
12095 eksponeerimine2763
12096 läbipaistvam2762
12107 rajaleidja2758
12116 tehnovõrk2755
12118 ment2755
12129 jutustamine2752
12140 jõustamine2750
12147 finantsjuht2748
12158 planeeringuala2744
12182 teaduskeskus2737
12185 sisselogimine2736
12195 samahästi2734
12198 piiriületus2733
12200 ostukeskus2732
12208 sisekontroll2729
12211 haigustekitaja2729
12212 reklaamimine2729
12220 tuntavalt2726
12245 korralduskomitee2719
12248 säravam2718
12252 atraktiivsus2717
12258 maamajandus2715
12261 maaeluminister2714
12275 uinumine2710
12276 majutusasutus2710
12282 aegumine2708
12295 eeltoodud2704
12314 kenam2695
12318 koolituspäev2694
12319 koduväljak2694
12323 rakendumine2694
12334 elektrikatkestus2692
12337 treeninglaager2691
12350 naftahind2686
12351 põhiseaduslikkus2686
12370 võrreldu2681
12384 täpsustusleht2675
12385 investeeringutoetus2674
12387 funktsioneerimine2674
12389 e-kool2674
12390 ühtlasem2673
12402 närimine2670
12415 planeeritu2664
12419 nigu2664
12425 linnaametnik2662
12428 koolihoone2660
12430 juhtmevaba2660
12432 töövõimereform2659
12447 reguleerimisala2653
12448 maakonnakeskus2653
12457 jalgpalliliit2650
12462 populariseerimine2649
12466 veebilehekülg2648
12467 lähiajalugu2648
12527 kaasaarvatud2630
12536 lisanduv2626
12540 uuenemine2625
12544 konkreetsemalt2625
12546 ajagraafik2625
12557 tegevusaasta2621
12564 madalrõhulohk2620
12565 võimsaim2620
12568 tavakasutaja2619
12569 pildimaterjal2619
12578 postitamine2616
12582 parlamendisaadik2615
12583 palju-palju2615
12585 tööleht2614
12592 otsustusõigus2613
12596 julgeolekunõukogu2612
12598 identifitseerimine2612
12610 tööpõhimõte2610
12617 nõudlikum2607
12618 tagav2607
12624 maaleht2606
12625 naiskodukaitsja2606
12644 väljasuremine2601
12645 õllesummer2601
12651 alusleping2600
12655 jõulisem2599
12656 hirmutamine2599
12659 asjalikum2598
12660 loogilisem2598
12686 välispiir2592
12692 okupeerimine2592
12722 vastutusala2583
12725 kosmoseagentuur2582
12727 maitsvam2582
12733 majandusolukord2579
12737 meediaväljaanne2578
12744 arvamuslugu2575
12746 sõbralikum2575
12749 kommunaalkulu2574
12756 abipakett2573
12758 populistlik2573
12760 tavahind2572
12778 remontimine2568
12779 kommunaalamet2568
12792 ekool2565
12807 muudetav2559
12810 ohutusnõue2559
12826 isikuomadus2555
12828 halduskoormus2555
12838 peaministrikandidaat2552
12877 hoiu-laenuühistu2540
12889 edendav2533
12910 laulusõna2526
12918 hankemenetlus2524
12927 lähikuu2522
12931 väärtidu2521
12951 elektrihind2516
12961 avaetapp2512
12962 sideminister2512
12964 julgeolekuteenistus2511
12973 ostu-müük2509
12980 ringhäälingunõukogu2508
12983 ehitussektor2507
12994 kaitsepolitseiamet2505
13014 valimislubadus2500
13016 korralikum2499
13017 täismaht2499
13018 riideese2498
13047 motiveeriv2488
13048 ennetustöö2488
13061 pürgiv2484
13064 teemakohane2483
13066 palganumber2483
13091 transpordikulu2478
13100 valitsusliige2476
13101 haldusõiguserikkumine2476
13102 arhitektuuribüroo2475
13103 taristuminister2475
13112 spirituaalne2473
13115 tarkusehammas2472
13117 motiveerimine2471
13118 logimine2471
13121 edasiarendamine2469
13124 blogimine2469
13133 riigilõivuseadus2467
13137 lähinädal2467
13144 alanemine2465
13167 metsaseadus2461
13180 süüdistamine2458
13187 põllumajandussektor2456
13189 mõnitamine2455
13193 koostöölepe2453
13199 ravimifirma2451
13204 linnapilt2450
13205 punktisumma2450
13212 kaasaegsem2447
13214 lähedalasuv2447
13220 kaasaaitamine2446
13224 mitmekesistamine2445
13227 õiglasem2444
13231 paarike2443
13235 laudtee2441
13241 isetegija2440
13251 ühisveevärk2438
13274 naeratav2430
13275 rakenduskava2430
13276 arvutiekraan2430
13279 välislink2429
13283 laenusaaja2427
13288 rasestumine2426
13290 raviteenus2426
13291 lilleke2426
13299 perearstikeskus2423
13308 rekka2420
13310 esihammas2420
13312 finantsasutus2419
13322 ahh2414
13324 sidusrühm2414
13325 kohtumispaik2413
13336 breket2410
13339 viimistlemine2409
13347 kirjakoht2408
13348 ärileht2407
13351 pallike2407
13355 kaasaegselt2407
13367 sotsiaalmajanduslik2404
13372 jooksevkonto2403
13379 peavool2403
13384 üürihind2402
13387 meremuuseum2401
13397 blogipostitus2397
13405 eredam2396
13407 hansapank2395
13430 modelleerimine2389
13452 inimestevaheline2382
13454 mõjukam2382
13463 hindav2380
13488 elatisraha2372
13499 kogemine2368
13501 kultuurikatel2367
13503 hooandja2366
13504 aktsepteerimine2366
13512 vahetumine2365
13513 jahh2365
13522 solvumine2363
13523 praadimine2363
13532 sammuke2360
13537 linnapeakandidaat2359
13539 naistevastane2358
13543 kokkupanemine2358
13557 suurhall2353
13581 otseinvesteering2346
13584 hõlbustamine2345
13585 sellepeale2345
13586 hääbumine2345
13588 kinnisvarabüroo2344
13591 infotahvel2344
13595 kaitsemeede2343
13596 maailmalõpp2343
13608 kindlustusmakse2341
13613 rahvusarhiiv2340
13615 majutusettevõte2339
13617 pakendamine2339
13631 väikeaktsionär2336
13633 ärikasum2336
13635 finantsjuhtimine2336
13650 nullilähedane2333
13652 kaasatus2333
13682 magav2326
13688 süsteemselt2326
13690 huvitatu2326
13691 ettevaatlikum2325
13703 pilkupüüdev2320
13704 renoveerimistöö2320
13709 konverentsisaal2319
13720 loomulikum2318
13729 sujuvam2315
13736 tarneaeg2314
13771 julgeolekuasutus2303
13774 arusaadavam2301
13798 mitterahaline2293
13805 veepudel2291
13838 küüslauguküüs2287
13843 kukutamine2285
13844 kuvamine2285
13846 müratase2284
13848 imepisike2283


Lugesid kõik 1000 läbi? Vägev! Klõpsa siis palun sõnade linke ka, et näha, mis Sõnaveeb nende kohta arvab.

Sagedusloend

Mõnikord läheb ikka vaja sõnade sagedusloendit. Mul hiljuti just niimoodi juhtus, mistõttu lugesin Eesti keele ühendkorpus 2017 põhjal kokku lemmade sagedused. Panen tulemuse ka siia üles, äkki kellelgi läheb veel vaja, siis ei pea sama uuesti tegema.

Lugesin lemma ja sõnaliigi kombinatsioone nii, nagu nad seal korpuses märgendatud on. See märgendus ei ole ideaalne, mis ilmselt mõjutab eriti vormihomonüümiaga sõnade asukohta sagedusloendis, aga suur pilt peaks küll enamvähem usutav olema. Üksiksõnade keelsust ma ei kontrollinud kuidagi, üksnes filtreerisin dokumenditasemel lang=”Estonian”.

Tulemus on 115.5 MB csv-fail kahe veeruga, lemma-sõnaliik ja absoluutsagedus 600 miljoni tekstisõna hulgas. Sõnaliikide koodid leiate nt EstNLTK dokumentatsioonist.

Erinevaid sõnatüüpe on 6637121, millest ligi kaks kolmandikku ehk 4160924 esineb kogu korpuses ainult ühe korra. Nende hulgas on täiesti legitiimseid sõnu nagu “konjunktuuriküsitlus” või “ekspordipartnerriik”, aga peamiselt koosneb sagedusloendi tagumine ots pärisnimedest, veebiaadressidest, võõrkeelsetest sõnadest, näpukatest, märgendusvigadest jne, Seetõttu tundus mõistlik tekitada ka oluliselt väiksem fail (17,7 MB) sõnadest, mis esinevad korpuses vähemalt viis korda. Selliseid on umbes miljon.

Loendi algus näeb välja selline (lisasin siin reanumbrid lihtsama jälgimise huvides):

1	olema-v	27833907
2	ja-j	18448429
3	see-p	12753094
4	mina-p	8021600
5	et-j	7976525
6	ei-v	7011141
7	tema-p	5944028
8	kui-d	5708611
9	mis-p	5552597
10	ka-d	5175649
11	saama-v	4490006
12	ning-j	3481612
13	aga-j	3034451
14	oma-p	2759364
15	aasta-s	2758520
16	või-j	2593644
17	sina-p	2448283
18	pidama-v	2400376
19	tegema-v	2385359
20	kes-p	2287497
21	nii-d	2227424
22	Eesti-h	2069520
23	ise-p	2037612
24	võima-v	2021749
25	tulema-v	2014093
26	kõik-p	1914466
27	siis-d	1824888
28	teine-o	1656755
29	üks-p	1581771
30	inimene-s	1532808
31	siis-j	1502329
32	aeg-s	1498793
33	väga-d	1409343
34	kas-d	1361319
35	minema-v	1320872
36	andma-v	1276486
37	veel-d	1227452
38	võtma-v	1214083
39	juba-d	1194785
40	välja-d	1166872
41	kuid-j	1149756
42	selline-p	1137018
43	uus-a	1115348
44	jääma-v	1095713
45	nagu-d	1075027
46	ütlema-v	1067971
47	teadma-v	1064900
48	suur-a	1035756
49	hakkama-v	1028617
50	hea-a	1026505
51	kus-d	991814

Miljoni sõna või vähemalt viie esinemiskorra piir on täiesti suvaline. Nagu öeldud, leidub legitiimseid sõnu sellest veel palju allpool ja sodi veel palju ülevalpool. Lühema faili lõpp on selline:

1068514	Ta-Ladu-h	5
1068515	tähtsustkas-d	5
1068516	MAX1999-y	5
1068517	tööturusubsiidium-s	5
1068518	aadlitalupoeg-s	5
1068519	Violiino-h	5
1068520	11-01-06-n	5
1068521	GBB-60NSYXE-y	5
1068522	miinimumsoovitus-s	5
1068523	Borõsenko-h	5
1068524	Valeväide-h	5
1068525	aastalõpuprassing-s	5
1068526	Rootsisõja-aegne-a	5
1068527	Metrô-h	5
1068528	Karakin-h	5
1068529	linnaasjandus-s	5
1068530	Tomcy-h	5
1068531	Momin-h	5
1068532	automaataparaat-s	5
1068533	Snoozebaby-h	5
1068534	haritlaslugeja-s	5
1068535	TRIMside-s	5
1068536	Traneksama-h	5
1068537	konspirituaalsus-s	5
1068538	2007-03-25-n	5
1068539	Manjaana-kompetents-s	5
1068540	tagasivõtmisprogramm-s	5
1068541	IGAD-y	5
1068542	jumbo-muffinipann-s	5
1068543	Yüksel-h	5
1068544	Erul-u-y	5
1068545	ENCU-y	5
1068546	ravipass-s	5
1068547	Ficer-h	5
1068548	G.M.Schmidt-h	5
1068549	rüütliriik-s	5
1068550	bivalent-s	5
1068551	loovutuskampaania-s	5
1068552	kosmonaudipension-s	5
1068553	Åsenlöv-h	5
1068554	Ðelda-h	5
1068555	Neijens-h	5
1068556	Petrolandia-h	5
1068557	Maruusjas-h	5
1068558	seguhenna-s	5
1068559	Losurdo-h	5
1068560	salahämar-a	5
1068561	sigimiskord-s	5
1068562	lähtekohamaa-s	5

Sõna definitsiooni üle annab muidugi vaielda. Mina tahtsin tõesti kõiki sõnataolisi nähtusi, aga mõnes teises rakenduses oleks ehk mõistlik vähemalt pärisnimed ja arvud välja filtreerida.

Eesti keele ühendkorpus 2017

NB: korpuse uusim versioon on Eesti keele ühendkorpus 2019 ehk Estonian National Corpus 2019.

Siin on kirjeldatud korpuse eelmist versiooni, Eesti keele ühendkorpus 2017 ehk Estonian National Corpus 2017.

Korpuse kogumaht on ligi 1 miljard tekstisõna, aga kui hakata täpsemalt sisse vaatama, siis see sisaldab ka muudes keeltes tekste. Ainult eestikeelseid (<doc lang=”Estonian”>) on umbes 600 miljonit.

Korpuse on EstNLTK ja vabamorfi abil morfoloogiliselt märgendanud Lexical Computing. Kasutatud on vaikimisi lausetaseme ühestamist, mis on andnud rohkem vigu kui vältimatult tarvis. Nt sõna “mais” on läbivalt märgendatud kui mitmuse seesütlev sõnast “maa”, mille asemel korrektsem oleks peaaegu alati maikuu, pluss mõni üksik teravili. Seega, kui vormiinfo on oluline, võiks kaaluda EstNLTK abil uuestimärgendamist koos dokumenditaseme ühestamisega. Vigu see ei kaota, aga vähendada võib.

Uuestimärgendamisel on ka see eelis, et nii saab korpus loetud EstNLTK andmestruktuuridesse. Olemasoleva märgenduse otse lugemine praegu ei õnnestu, sest korpus kasutab eelmistega võrreldes muutunud vormingut ja 2018 sügise seisuga on selle lugemine EstNLTK tegijatel rubriigis “kunagi peaks kindlasti ära tegema”.

Vorming näeb välja selline:

<doc id="1070432" src="web17" title="Haigekassa lükkab ümber Pealtnägija saates kõlanud süüdistused | Eesti Haigekassa" length="5k-10k" crawl_date="2017-09-27 03:05" lang_old="Estonian" lang_diff="0.28" ip="185.147.120.115" url="http://haigekassa.ee/en/node/2578" enc_meta="utf-8" enc_chared="utf_8" lang="Estonian" lang_scores="Estonian: 3913.12, Russian: 0.00, English: 711.05, Finnish: 1022.45, Ukrainian: 0.00, Belarusian: 0.00, Serbian: 0.00, Bulgarian: 0.00, Macedonian: 0.00">
<p heading="yes" langdiff="0.81">
<s>
Haigekassa      S.sg.n  haigekassa-s    sg_n    haige kassa     haige_kassa     0       
lükkab  V.b     lükkama-v       b       lükka   lükka   b       
ümber   K       ümber-k         ümber   ümber   0       
Pealtnägija     S.sg.g  pealtnägija-s   sg_g    pealt nägija    pealt_nägija    0       
saates  S.sg.in saade-s sg_in   saade   saade   s       
kõlanud V.nud   kõlama-v        nud     kõla    kõla    nud     
süüdistused     S.pl.n  süüdistus-s     pl_n    süüdistus       süüdistus       d       
</s>
</p>
<p langdiff="0.47">
<s>
Saade   H.pl.g  Saa-h   pl_g    Saa     Saa     de      
Pealtnägija     S.sg.n  pealtnägija-s   sg_n    pealt nägija    pealt_nägija    0       
pöördus V.s     pöörduma-v      s       pöördu  pöördu  s       
haigekassa      S.sg.g  haigekassa-s    sg_g    haige kassa     haige_kassa     0       
poole   K       poole-k         poole   poole   0       
seoses  K       seoses-k                seoses  seoses  0       
Eesti   H.sg.g  Eesti-h sg_g    Eesti   Eesti   0       
Hemofiiliaühingu        S.sg.g  hemofiiliaühing-s       sg_g    hemofiilia ühing        hemofiilia_ühing        0       
esitatud        V.tud   esitama-v       tud     esita   esita   tud     
kahtlustega     S.pl.kom        kahtlus-s       pl_kom  kahtlus kahtlus tega    
<g/>
.       Z       .-z             .       .               

Dokumendi alguses on tema metainfo, mis tõenäoliselt võiks olla üsna iseseletuv. Seejärel tulevad lõigud p ja laused s, nende sees igal real sõna koos oma analüüsiga. Veerud on järgmised, koos näidetega:

  • tekstisõna: “veepudeliga”, “toimus”
  • posgram ehk sõnaliik ja vormikood: “S.sg.kom”, “V.s”
  • lempos ehk lemma ja sõnaliik: “veepudel-s”, “toimuma-v”
  • vormikood: “sg_kom”, “s”
  • eraldatud tüved: “vee pudel”, “toimu”
  • liitsõna tüvi: “vee_pudel”, “toimu”
  • muutelõpp: “ga”, “s”

<g/> nagu glue tähistab kohta, kus tokeniseerimisel on kirjavahemärgi ette tühik lisatud.

Tasub tähele panna, et perioodika alamkorpuses esineb ka <info> element, nii et <doc> on ajalehenumber ja <info> üksikartikkel. Nii satuvad mõned andmed, mis üldiselt on <doc>is, ajalehtede puhul <info>sse, nt:

<doc id="3850" src="NC" filename="aja_EPL_2007_06_01.ma" balanced="no" texttype="periodicals">
<info id="224313" author="Kalle Kulbok, kuningriiklane" newspaperNumber="Eesti Päevaleht 01.06.2007" heading="Kolumnistid" article="KALLE KULBOK : kuluhüvitise uus kord on põhiseaduse vastane">

Arvi Tavast