Sagedusloend

Mõnikord läheb ikka vaja sõnade sagedusloendit. Mul hiljuti just niimoodi juhtus, mistõttu lugesin Eesti keele ühendkorpus 2017 põhjal kokku lemmade sagedused. Panen tulemuse ka siia üles, äkki kellelgi läheb veel vaja, siis ei pea sama uuesti tegema.

Lugesin lemma ja sõnaliigi kombinatsioone nii, nagu nad seal korpuses märgendatud on. See märgendus ei ole ideaalne, mis ilmselt mõjutab eriti vormihomonüümiaga sõnade asukohta sagedusloendis, aga suur pilt peaks küll enamvähem usutav olema. Üksiksõnade keelsust ma ei kontrollinud kuidagi, üksnes filtreerisin dokumenditasemel lang=”Estonian”.

Tulemus on 115.5 MB csv-fail kahe veeruga, lemma-sõnaliik ja absoluutsagedus 600 miljoni tekstisõna hulgas. Sõnaliikide koodid leiate nt EstNLTK dokumentatsioonist.

Erinevaid sõnatüüpe on 6637121, millest ligi kaks kolmandikku ehk 4160924 esineb kogu korpuses ainult ühe korra. Nende hulgas on täiesti legitiimseid sõnu nagu “konjunktuuriküsitlus” või “ekspordipartnerriik”, aga peamiselt koosneb sagedusloendi tagumine ots pärisnimedest, veebiaadressidest, võõrkeelsetest sõnadest, näpukatest, märgendusvigadest jne, Seetõttu tundus mõistlik tekitada ka oluliselt väiksem fail (17,7 MB) sõnadest, mis esinevad korpuses vähemalt viis korda. Selliseid on umbes miljon.

Loendi algus näeb välja selline (lisasin siin reanumbrid lihtsama jälgimise huvides):

1	olema-v	27833907
2	ja-j	18448429
3	see-p	12753094
4	mina-p	8021600
5	et-j	7976525
6	ei-v	7011141
7	tema-p	5944028
8	kui-d	5708611
9	mis-p	5552597
10	ka-d	5175649
11	saama-v	4490006
12	ning-j	3481612
13	aga-j	3034451
14	oma-p	2759364
15	aasta-s	2758520
16	või-j	2593644
17	sina-p	2448283
18	pidama-v	2400376
19	tegema-v	2385359
20	kes-p	2287497
21	nii-d	2227424
22	Eesti-h	2069520
23	ise-p	2037612
24	võima-v	2021749
25	tulema-v	2014093
26	kõik-p	1914466
27	siis-d	1824888
28	teine-o	1656755
29	üks-p	1581771
30	inimene-s	1532808
31	siis-j	1502329
32	aeg-s	1498793
33	väga-d	1409343
34	kas-d	1361319
35	minema-v	1320872
36	andma-v	1276486
37	veel-d	1227452
38	võtma-v	1214083
39	juba-d	1194785
40	välja-d	1166872
41	kuid-j	1149756
42	selline-p	1137018
43	uus-a	1115348
44	jääma-v	1095713
45	nagu-d	1075027
46	ütlema-v	1067971
47	teadma-v	1064900
48	suur-a	1035756
49	hakkama-v	1028617
50	hea-a	1026505
51	kus-d	991814

Miljoni sõna või vähemalt viie esinemiskorra piir on täiesti suvaline. Nagu öeldud, leidub legitiimseid sõnu sellest veel palju allpool ja sodi veel palju ülevalpool. Lühema faili lõpp on selline:

1068514	Ta-Ladu-h	5
1068515	tähtsustkas-d	5
1068516	MAX1999-y	5
1068517	tööturusubsiidium-s	5
1068518	aadlitalupoeg-s	5
1068519	Violiino-h	5
1068520	11-01-06-n	5
1068521	GBB-60NSYXE-y	5
1068522	miinimumsoovitus-s	5
1068523	Borõsenko-h	5
1068524	Valeväide-h	5
1068525	aastalõpuprassing-s	5
1068526	Rootsisõja-aegne-a	5
1068527	Metrô-h	5
1068528	Karakin-h	5
1068529	linnaasjandus-s	5
1068530	Tomcy-h	5
1068531	Momin-h	5
1068532	automaataparaat-s	5
1068533	Snoozebaby-h	5
1068534	haritlaslugeja-s	5
1068535	TRIMside-s	5
1068536	Traneksama-h	5
1068537	konspirituaalsus-s	5
1068538	2007-03-25-n	5
1068539	Manjaana-kompetents-s	5
1068540	tagasivõtmisprogramm-s	5
1068541	IGAD-y	5
1068542	jumbo-muffinipann-s	5
1068543	Yüksel-h	5
1068544	Erul-u-y	5
1068545	ENCU-y	5
1068546	ravipass-s	5
1068547	Ficer-h	5
1068548	G.M.Schmidt-h	5
1068549	rüütliriik-s	5
1068550	bivalent-s	5
1068551	loovutuskampaania-s	5
1068552	kosmonaudipension-s	5
1068553	Åsenlöv-h	5
1068554	Ðelda-h	5
1068555	Neijens-h	5
1068556	Petrolandia-h	5
1068557	Maruusjas-h	5
1068558	seguhenna-s	5
1068559	Losurdo-h	5
1068560	salahämar-a	5
1068561	sigimiskord-s	5
1068562	lähtekohamaa-s	5

Sõna definitsiooni üle annab muidugi vaielda. Mina tahtsin tõesti kõiki sõnataolisi nähtusi, aga mõnes teises rakenduses oleks ehk mõistlik vähemalt pärisnimed ja arvud välja filtreerida.

Arvi Tavast