Konfrontace s jinými lexikálními zdroji
Když A. Kamiš (1974) ve své jungmannovské studii vypočítává, jakými aspekty slovníku je možné i žádoucí se zabývat, jmenuje také cíl „odhalovat vývojovou dynamiku české slovní zásoby“. Jeho představa se ubírá cestou srovnání Jungmannova díla s pozdějšími slovníky. Tímto způsobem zamýšlí sledovat především míru, v jaké se dobové neologismy úspěšně začlenily do aktivně užívané vrstvy českého lexika. V druhém plánu pak nechává otázky, jak se na tomto integračním procesu podílelo uplatňování Dobrovského slovotvorné normy a přijímání slovníku jako usměrňující či přímo kodifikační autority. Způsobem, který mu dobové prostředky dovolovaly, uskutečnil Kamiš i první komparační sondu, a to na vzorku hesel od písmene T. Pro srovnání zvolil Slovník spisovného jazyka českého (zkratkou SSJČ), který má velmi podobný rozsah jako Jungmannův slovník (viz dále) a jenž byl v době vzniku připomínané studie zároveň pramenem nejnovějším. O postupu, který byl při porovnání obou zdrojů uplatněn, nic bližšího známo není, předkládány jsou pouze výsledky. Autor uvádí, že v SSJČ nenajdeme z násloví T asi 1860 hesel (tj. 48,7 %) Jungmannova slovníku. Poměrně velký rozdíl mezi oběma slovníky si Kamiš vysvětluje tím, že SSJČ neobsahuje mnoho vlastních jmen, slovenská slova, staré lexikum ani dobové novotvary. Není pochyb o tom, že jsou dosažené výsledky značně limitovány kvantitativními parametry sondy i nejasností ohledně použité metodiky. Dnes je však situace nesrovnatelně příznivější. Nespornou výhodou uplatnění počítačů v běžné lingvistické praxi je posílení exaktní složky ve výsledcích jazykovědného výzkumu. Na rozdíl od dob minulých se mohou učiněné závěry a soudy opírat o nebývalé množství jazykových dat, což ovšem klade zvýšené nároky na výběr adekvátních metod pro jejich zpracování, stejně jako na správnou interpretaci dosažených výsledků.
Z pochopitelných příčin přeje počítačové zpracování dat spíše zájemcům o současný jazyk, starší lingvistické zdroje získávají svou všestranně využitelnou elektronickou podobu mnohem pomaleji, v menším měřítku a s vynaložením většího úsilí. Přesto dnes existuje i pro češtinu dostatečné množství jazykových dat v počítačově čitelném tvaru na to, aby se obsah Jungmannova slovníku mohl stát předmětem kvantitativně i kvalitativně hodnověrné srovnávací analýzy, na niž více než 30 let netrpělivě čeká. Následující řádky tak představují první pokus o počítačovou komparaci slovní zásoby Jungmannova slovníku s jinými lexikálními zdroji, které v maximální možné pokrývají vývoj českého lexika od jeho počátků až po současnost. Velké časové rozpětí porovnávaných pramenů je nespornou předností uskutečněné analýzy, zároveň je však také jejím omezujícím činitelem. Celkový objem zpracovávaných dat (více než 800 tisíc slovních jednotek) nutí explorátora rezignovat na některá specifika srovnávaných entit a přijmout tak v mnoha případech kompromisní řešení.
Největší překážkou se ukázala být formální stránka konfrontovaných hesel, neboť právě ona bezprostředně reflektuje proměny pravopisných soustav, mnohasetletý fonologicko-morfologický vývoj češtiny i rozvoj lexikografické metodologie. Citelně zde schází diachronně orientovaný morfologický analyzátor, který by umožnil automaticky sjednotit vývojově podmíněnou variantnost lexémů odlišujících se právě jen v rovině formy. Pro účely prvotní analýzy tak byla provedena pouze jednorázová transliterace hesláře Jungmannova slovníku do podoby novodobé pravopisné soustavy (g > j, j > í apod.). Podoby deverbativních substantiv na -ní uváděné jen zkratkou nebyly rozepsány, stejně jako zůstala beze změn základní podoba verbálních hesel, která s výjimkou sloves na -ěti a -iti má podobu 1. os. sg. ind. préz. (např. hledám místo hledati). Slovní zásoba ostatních zdrojů, kterými jsou (v chronologickém pořadí) Heslář Staročeského slovníku, Kartotéka Lexikálního archivu ÚJČ, Kottův česko-německý slovník zvláště grammaticko-fraseologický, Příruční slovník jazyka českého, Slovník spisovného jazyka českého, Slovník spisovné češtiny pro školu a veřejnost a Frekvenční slovník češtiny, nebyla nijak upravována a sjednocována.
Přihlíženo tak nebylo např. k rozdílům mezi infinitivy na -ti a -t (resp. -ci a -ct), proměnám v pravopisu cizích slov včetně redukce geminát (např. thema × téma × tema, grammatika × gramatika aj.), kolísání vokalické kvantity (např. výžírka × vyžírka), velikosti iniciály hesla (Jungmann vše verzálkami, Kott vždy první písmeno velké apod.), rozrůznění funkce spojovníku (např. Dvou-stopý a Dualism-us u Kotta), nesystematickému a nejednoznačnému formátování (pod)hesel (vč. nerozepsaných podob), specifikám pravopisných systémů (kořist × kořisť, -ism × -ismus × -izmus aj.) atp. Výlučně z praktických důvodů byly víceslovné jednotky rozděleny, resp. jejich komponenty osamostatněny, tak aby se předešlo problémům jak s pořadím jednotlivých složek (např. botanická, chemická ad. terminologie), tak i s proměnlivými hranicemi slov (příslovečné spřežky, adaptace cizích slov apod.). Jakékoli kvalifikátory bezprostředně předcházející samotné heslo (nejčastěji † a *) byly odstraněny.
Následující tabulka poskytuje praktické výsledky provedené konfrontace, zároveň však také podává informace o jednotlivých srovnávaných zdrojích. První sloupec uvádí zkratku pramene (viz legenda pod tabulkou), speciální pozornost si zasluhují poslední dva řádky, které reprezentují vždy operaci s předcházejícími zdroji, a sice jejich průnik, resp. sjednocení. Základní referenční entitou je vždy heslář Jungmannova slovníku, srovnávanou proměnnou potom příslušný pramen či jeho multihodnota. Ve druhém sloupci je uveden počet slov každého pramene, kde samostatnou jednotku představuje vždy jedno (pod)heslo (tj. jedinečný řetězec), příp. jeho osamostatněný komponent (u víceslovných hesel), a to v rámci jednoho zdroje bez opakování. Třetí sloupec prezentuje míru lexikální shody mezi Jungmannovým slovníkem a ostatními prameny vyjádřenou procentuálně i počtem slov. Uváděné hodnoty jsou vždy vztaženy k Jungmannovu hesláři, 100 % zde tedy znamená 170 378 hesel. Prostřednictvím čtvrtého sloupce je možné nahlédnout tentýž výsledek, avšak zde již prizmatem jednotlivého srovnávaného pramene (100 % tak v každém řádku představuje pokaždé jiný základ). Poslední sloupec podává komplementární údaj ke sloupci třetímu, uvádí počet hesel Jungmannova slovníku neobsažených ve srovnávaném zdroji. Součet hodnot ve třetím a pátém sloupci je vždy 170 378.
| Zkratka pramene (P) | počet slov P | shoda Jg. s P: % / slov | shoda P s Jg.: % | Jg. oproti P: slov |
| Jg. | 170 378 | – | – | – |
| HesStčS | 105 060 | 15,5 % / 26 426 | 25,2 % | 143 952 |
| LexArch | 443 364 | 38,6 % / 65 814 | 14,8 % | 104 564 |
| Kott | 351 895 | 58,5 % / 99 608 | 28,3 % | 70 770 |
| PSJČ | 201 279 | 28,5 % / 48 595 | 24,1 % | 121 783 |
| SSJČ | 165 453 | 24,9 % / 42 433 | 25,6 % | 127 945 |
| SSČ | 47 073 | 9,1 % / 15 480 | 32,9 % | 154 898 |
| FSČ | 54 086 | 9,7 % / 16 610 | 30,7 % | 153 768 |
| průnik HeStcS + (…) + FSČ | 5 581 | 3 % / 5 132 | 92 % | *169 929 |
| sjednocení HeStcS + (…) + FSČ | 799 850 | 71,4 % / 121 637 | 15,2 % | 57 741 |
Legenda: Jg. = Jungm. slovník; Kott = Kottův slovník; PSJČ = Příruční slovník jazyka českého; SSJČ = Slovník spisovného jazyka českého; SSČ = Slovník spisovné češtiny pro školu a veřejnost; FSČ = Frekvenční slovník češtiny; LexArch = Kartotéka Lexikálního archivu ÚJČ; HesStčS = heslář ke Staročeskému slovníku
Nejvyšší míru shody představuje Kottův slovník, kde činí celých 58,5 %. Tato hodnota je v souladu s očekáváním, protože Kott na Jungmanna bezprostředně navazoval (oba slovníky dělí cca 40 let) a také z něj hojně čerpal. Oněch více než 40 %, která má Jungmann navíc, jde především na vrub odlišné koncepce základních tvarů u sloves a stabilizace lexika v oblasti variant, zejm. u terminologie. Ačkoliv jsou, jak bylo osvětleno výše, získaná čísla jen přibližná, dávají jasnou odpověď všem kritickým hlasům, které pokládají cca 71 % Kottovy svébytné slovní zásoby za „přerovnaného“ Jungmanna. Naopak poměrně malá blízkost mezi Jg. a SSČ (hodnoty pro FSČ se nijak zásadně neliší) je dána jak pozdějším pravopisným vývojem, tak množstvím nových slov, o která se čeština za přibližně 150 let obohatila. Svou roli zde jistě sehrála také rozdílná velikost srovnávaných zdrojů, SSČ (resp. FSČ) má oproti Jg. jen asi třetinový rozsah a kromě toho prakticky vůbec neobsahuje regionálně ani časově příznakovou slovní zásobu. Překvapující je velmi nízký podíl společného lexika mezi Jg. a LexArch, tím spíše, že by kartotéka měla pokrývat slovní zásobu od roku 1770 a že byla navíc v počátcích svého vzniku s Jg. porovnávána. Proč v LexArch není zaznamenáno např. slovo bouřivý, které obsahuje i PSJČ (kvůli jeho přípravě byla koneckonců kartotéka založena), není vůbec jasné.
Zcela jiná situace panuje v případě průniku heslářů, kde se podíl shody pohybuje na hranici statistické chyby. Příčinu je v tomto případě nutné hledat v nepatrné velikosti konfrontovaného souboru, který představuje slovní zásoba společná všem komparovaným zdrojům (pochopitelně mimo Jg.). Je to vlastně jakási invariantní (tj. nepodléhající změnám) část jádra českého lexika. Patří sem slova, která znala už stará čeština a která z jazyka nevymizela dodnes, jako např. abeceda, abecední, aby, ač, ačkoli, adam, advent, adventní, aha, ach, achát, alabastr ad. U Jungmanna z nich nenacházíme jen 468, chybí tak např. slova alej, elixír, povel aj. Mnohem zajímavější je však srovnání Jg. se sjednocením ostatních pramenů, neboť nám vyjevuje seznam jedinečných slov Jungmannova slovníku, která nenajdeme v žádném jiném zdroji (tzv. hapax legomena). Část z těchto 57 741 lexémů jinde chybí jen zdánlivě, protože jsou doloženy v odlišné podobě (především slovesa), přesto mezi nimi nacházíme značné množství i dnes srozumitelných slov, jako např. ještěrník (bylina), jednovládnost, mrdnost (= mrštnost), roztepatedlnost, stydatost, suchodrštka, sukňářství, trnovitost, vdlouž (od subst. fem. dlouž, -e), výžírka, žlázovitost a mnohá další.
Již tento první pokus o konfrontaci slovní zásoby Jungmannova slovníku s dalšími lexikálními zdroji naznačuje, že se před námi otevírá dosud netušená oblast poznání, která může nejen významně doplnit dosavadní poznatky o Jungmannově slovníku, ale která dokonce skýtá mnoho cenných podnětů pro studium české slovní zásoby jako takové. Nezbytným předpokladem pro získání přesnějších údajů, než jaké zde bylo možné představit, je zdárné vyřešení problematiky vývojové variability českého jazyka, která spočívá především v dynamičnosti pravopisného, hláskoslovného a tvaroslovného systému. Potřeba nového morfologického analyzátoru, který překročí hranice současného jazyka a oprostí se od jednostranného lpění na grafické podobě slov, je dnes naléhavější než kdy dříve. Snad to bude znovu Josef Jungmann, kdo prostřednictvím těchto stránek připomene neobyčejnou bohatost českého jazyka, která je stále hodna hlubokého obdivu, právě tak jako odpovědného zkoumání.
(Pozn. Prezentované údaje jsou aktuální k březnu 2008.)
Drobnosti k textu:
Provedená analýza je jistě zajímavá, ale vzhledem k použitým metodám ji lze brát jen orientačně. CHtělo by to ten morfologický analyzátor, který by umožňoval pracovat s lexikálními morfémy a provádět lexikální, morfologickou a sémantickou analýzu.
Komentář od Josef Schwarz — 24. 1. 2009 @ 0.08
V seznamu „Základ české slovní zásoby“ chybí slova načínající na č. Nešlo by doplnit.
Také by bylo dobré uvést množinu průniku hesel (5 581 slov).
Komentář od A.B. Miler — 9. 3. 2010 @ 8.04