VYHLEDÁVÁNÍ
SLOWNJK.CZ
JUNGMANN
DISKUZE

Historie a obsah elektronické podoby slovníku

Na stránkách projektu Slownjk.cz, který již názvem domény navozuje období vyznačující se odlišným pravopisem (zde zejm. w místo v a j za í), můžete nalézt především moderní obrazově-textovou edici dobového vydání pětisvazkového Slownjku česko-německého Josefa Jungmanna včetně doprovodných materiálů. Tato elektronická podoba slovníku má řadu předností, je však třeba pamatovat i na její omezení. Jungmannovo objemné slovníkářské  dílo je psáno (až na drobné výjimky) dvěma jazyky a tištěno pěti typy písma poměrně malé velikosti, převod do elektronické podoby je proto velmi obtížný. Připo­mínané pravopisné rozdíly komplikované navíc přítomností německého švabachu prakticky vylučují možnost využít k tomuto účelu (v obvyklém rozsahu) běžně používané softwarové nástroje. Přesněji řečeno, podíl nezbytné ruční korektury výsledků automatické OCR analýzy by pro převod plného textu slovníku znamenal náklady ve výši šestimístné částky, tedy zcela mimo rozpočtové možnosti tohoto projektu. Proto bylo nutné se v původních plánech omezit a vytvořit takovou koncepci, která by za daných okolností byla co nejméně nákladná a zároveň co nejvíce uživatelsky vstřícná. Výsledkem těchto úvah je nynější stav, který představuje naskenování slovníku do podoby kvalitního digitálního faksimile a převodu pouze slovníkových hesel a podhesel. Obrazová a textová data tvořící dohromady funkční celek elektronické edice slovníku jsou potom vzájemně propojena sítí relací.   

Pomineme-li skutečnost, že relevantní hesla a podhesla, kterých slovník obsahuje téměř 240 tisíc, musela být ještě před mnohonásobnými korekturami extrahována z nedokonale (automaticky) rozpoznané textové změti heslových odstavců, je třeba naopak vyzdvihnout přednosti popsané hybridní metody. Díky počítačovému zpracování dat může uživatel internetového vyhledávacího rozhraní hned ve dvojím směru získávat informace, které jsou při práci s tištěným exemplářem nedostupné. V první řadě je to možnost dostat ve výsledcích vyhledávání odkazy na příslušná místa ve slovníku bez ohledu na to, zda jsou požadovaná (pod)hesla obsažena v hlavní části, doplňcích na konci pátého dílu (resp. v Čelakovského Dodavcích) či přihnízdována v rámci heslových statí mimo abecední pořadí. Druhým užitečným rysem je provedení automatické transliterace, která umožňuje zadávat dotazy pomocí dnešního pravopisu (např. jazyk místo gazyk apod.), což v kombinaci s dalšími uživatelsky vstřícnými algoritmy – nevyjímaje ani hledání podle zakončení – nabízí i bez fulltextu velmi vysoký komfort. Je naší povinností poznamenat, že existence hesláře slovníku v elektronické podobě otevírá také zcela novou příležitost dozvědět se, jaká část slovní zásoby Jungmannova slovníku je dodnes živá a naopak jaká slova stojí již definitivně mimo dnešní úzus. Zdrojů ke srovnání se nabízí více než dost, první výsledky jsou součástí těchto internetových stránek.

Práce na projektu byly Institutem pro média a data (dále jen IMD) zahájeny v roce 2005, kdy se podařilo v krátkém čase naskenovat kvalitou tisku problematický, avšak tehdy jako jediný dostupný reprint slovníku z let 1989–1990, provést automatické rozpoznání v programu FineReader verze 8.0 a zahájit první kolo obtížných korektur. Od samého počátku se na spolufinancování nákladů podílel prostřednictvím grantu Data a nástroje pro informační systémy také Ústav pro jazyk český (dále jen ÚJČ). V následujícím roce pokračovala první etapa oprav a proběhla též druhá fáze korektur. Celkově se na všech formách revizí v různé míře podílelo osm pracovníků. Závěrem roku 2006 byla ještě provedena mnohými faktory komplikovaná extrakce hesel a podhesel a rovněž jejich transformace do databázové struktury. Na počátku následujícího roku bylo přikročeno k složité kontrole konzistence databáze včetně relací mezí hesly a obrazovými soubory jednotlivých stránek. V průběhu února a března 2007 se k projektu s příslibem naskenování původního vydání slovníku, včetně mimořádně cenného rukopisného konceptu a vlastního Jungmannova exempláře s opravami a doplňky, připojila Národní knihovna (dále jen NK). Přibližně v téže době vznikla pod doménou slownjk.cz testovací verze internetového rozhraní pro vyhledávání ve slovníku. Během letních měsíců byl v NK slovník naskenován a jeho data postoupena k dalšímu zpracování. Bohužel se při této příležitosti ukázalo jako nemožné provést rovněž digitalizaci zbývajících Jungmannových artefaktů z majetku ÚJČ. Kvůli nárokům na pojištění a další garance, kterým nebyla NK schopna dostát, se ÚJČ rozhodl řešit elektronizaci jiným, totiž komerčním způsobem. V listopadu 2007 byla u příležitosti 160. výročí Jungmannova úmrtí spuštěna plně funkční internetová verze slovníku.

Během roku 2008 je projekt Slownjk.cz postupně obohacován o nové vyhledávací prvky, doprovodné texty a především jsou zpřístupňovány u­nikátní artefakty doku­mentující pohnutý vznik Jungmannova životního díla. V průběhu prvního pololetí byly postupně zdigitalizovány (1) první část rukopisného základu budoucího slovníku (provedla Albertina icome Beroun), (2) Jungmannův exemplář slovníku s vlastnoručními doplňky a opravami (zpracovalo Digitalizační centrum Knihovny AV ČR), (3) druhá část rukopisného konvolutu a (4) Čelakovského kartotéky – mj. k Jungmannovu slovníku (3 i 4 převedlo do digitální podoby IMD). Do konce června 2009 byla všechna data (na 30 tisíc obrázků) zpřístupněna prostřednictvím jednoduchých uživatelských rozhraní budoucím zájemcům.


Žádné komentáře »

Zatím žádné komentáře.

RSS komentářů k tomuto příspěvku. TrackBack URI

Napsat komentář

Na projektu se společně podílejí Insitut pro média a data, o.s. a Ústav pro jazyk český Akademie věd, v.v.i.