Korpus.
Když ve skupinovém hovoru zazní toto slovo – což nebývá v přítomnosti korpusového lingvisty až tak výjimečné –, obvykle se najde alespoň jeden člověk, který začne myslet na dort. V takové situaci je záhodno upřesnit, že korpusem byl myšlen jazykový korpus [v jiných kontextech se tématu věnuje titulní rozhovor s Karlem Pioreckým a Michalem Škrabalem ve Tvaru 7/2026, pozn. red.]. Ač je studentstvo lingvistiky vedeno k tomu, aby nikdy nepodceňovalo rozsah znalostí lidí vně oboru, zrovna korpusová lingvistika patří mezi ty oblasti vědy, které leží mimo pozornost laické veřejnosti. Na jednu stranu je to pochopitelné: žádný člověk nemůže stíhat sledovat vývoj všech vědních oborů. Na stranu druhou je to vzhledem k české zálibě v rochnění se v jazykových tématech trochu zvláštní, tím spíše když vezmeme v potaz, že Český národní korpus (ČNK) byl založen již roku 1994. A je nezpochybnitelné, že za dobu své existence udělal mnoho užitečné práce. Pro lepší představu o rozmanitosti aktivit a výstupů tohoto akademického projektu čtenářstvu doporučuji nedávno vydanou publikaci Korpus třicetiletý (NLN, 2025).
Opakování je matka moudrosti, a tak si neuškodí připomenout, cože to ten jazykový korpus vlastně je a co vůbec korpusová lingvistika dělá. Nechme promluvit přímo úvodní stránku webu ČNK:
Jazykový korpus je elektronický soubor autentických textů (psaných nebo mluvených), v němž je možné jednoduše vyhledávat jazykové jevy (zejm. slova a slovní spojení) a zobrazovat je v jejich přirozeném kontextu.
Korpusová lingvistika pak není striktně vymezena konkrétním předmětem zájmu, nýbrž funguje převážně jako metodologická disciplína, jež přináší „data k další analýze a studiu každému, kdo je chce používat, a to pro odborníky i šíře pro neodborné, neškolené zájemce. Právě pro snadnou dostupnost korpusových informací se tento obor a jeho nabídka dat stává stále populárnější jak v dnešní lingvistice teoretické, tak aplikované, jednojazyčné i vícejazyčné“ (Nový encyklopedický slovník češtiny).
Korpusové výzkumy se dělí na dva typy, které se někdy též kombinují: corpus‑driven a corpus‑based. Ty první – „korpusem řízené“ – usilují o komplexní zachycení stavu jazyka a popis zejména gramatických a lexikálních jevů napříč jeho různými podobami (dialekty, sociolekty, literárními žánry atd.). Takový popis by měl být empiricky podložen ideálně co největším množstvím jazykových dat a měl by zohledňovat frekvenci výskytů sledovaných jevů. Ostatně koncepty pravidel(ností) a výjimek jsou založeny právě na frekvenci, a tak bývá corpus‑driven přístup využíván především při tvorbě mluvnic a slovníků.
Výzkumy druhého typu – „na korpusu založené“ – se naproti tomu nesnaží o co nejúplnější záznam jazykové situace nebo o formulaci teorií, ale spíše si kladou specifičtější výzkumné otázky, které ani nemusejí být jen čistě lingvistické. V rámci corpus‑based přístupu totiž analyzovaná korpusová data slouží hlavně jako zdroj autentického jazykového materiálu (většinou cíleně vybraného dle zkoumané oblasti), na němž lze ověřovat různé hypotézy objektivněji než bez něj. Míru objektivity určitých typů výzkumů zvyšuje korpusová lingvistika několika způsoby: systematickým sběrem a tříděním textů, jejich množstvím, matematickými výpočty ležícími v jádru používaných statistických metod, počítačovými nástroji usnadňujícími práci s analyzovanými daty a určitě by se toho našlo víc. Absolutní objektivita „perspektivy Božího oka“ (pojem filosofa a matematika Hilaryho Putnama) je sice nedosažitelná, ale ve srovnání s výzkumy opírajícími se pouze o introspektivní analýzy malého počtu textů dokáže korpusová metodologie redukovat subjektivitu opravdu znatelně. Podařilo se to dokonce i v disciplíně, u níž se dříve mohlo zdát, že ji snad ani nelze nedělat subjektivně.
Diskurs.
Také toto slovo zaznívá v konverzacích s účastí akademika věnujícího se jazyku a společnosti poměrně často. Oproti korpusu jde o něco obecně známějšího a povědomějšího, i když se pojetí a definice diskursu u jednotlivců mohou výrazně lišit v důsledku odlišných přístupů zainteresovaných oborů a směrů. Pod souhrnným označením analýza diskursu (případně diskursní studia) se ukrývá celá řada rozdílných výzkumných tradic, přičemž některé mají blíže k lingvistice, jiné ke společenským vědám. Společnou mají v podstatě jen jednu věc, a to že se vždy zabývají užíváním jazyka přesahujícím úroveň věty (např. replikami mluvčích v rámci konverzace), většinou dokonce úroveň jednoho textu (např. souborem všech českých publicistických textů týkajících se klimatické změny vydaných v roce 2025). Typickým cílem analýzy diskursu je odhalit nezřejmé či skryté významy, které v sobě zkoumané texty nesou, a tím ukázat, „co se chce říct mluvením“, jak zní trefný titul knihy sociologa Pierra Bourdieua vydané roku 1982. Takováto analytická práce obvykle zahrnuje kvalitativní metody a interpretace, tedy to, „jak jednotlivci nebo skupiny rozumějí určitým jevům a jaké na ně mají názory“ (heslo kvalitativní v Akademickém slovníku současné češtiny). Na tom samo o sobě není nic špatného, ale pokud badatelstvo není zcela transparentní ohledně svých dat a postupů, může být podezíráno ze zaujatosti, nebo dokonce z předkládání závěrů, k nimž prostě chtělo od začátku dospět.
Proto se zhruba v polovině devadesátých let 20. století do hry vložila právě korpusová lingvistika a od té doby se rozvíjí tzv. corpus‑assisted discourse studies (CADS; český ekvivalent „studium diskursu založené na korpusu“ se běžně nepoužívá). Cíle těchto výzkumů zůstávají stejné jako u nekorpusových analýz diskursu a také do určité míry předpokládají kvalitativní interpretace výsledků. K těm se však nejprve dospěje aplikací kvantitativních (početních) metod na empirická data obsažená v korpusech. Jednou z nejužívanějších metod v CADS je tzv. analýza klíčových slov. Abychom totiž odhalili, co chce zkoumaný subjekt (spisovatelka, politik, periodikum atd.) doopravdy říct, je potřeba nejdříve zjistit, která slova jsou pro něj charakteristická, tedy statisticky významně častější ve srovnání s referenčním jazykovým materiálem (např. srovnání sněmovních projevů poslankyň a poslanců ANO a ostatních stran).
Už jen seznam klíčových slov dokáže podat hrubou představu o zásadních prvcích zkoumaného diskursu, avšak sám o sobě pro komplexní analýzu nestačí. Korpusová lingvistika naštěstí poskytuje ještě další, propracovanější metody a nástroje, s jejichž využitím se dá jakýkoliv diskurs odemknout opravdu důsledně. O tom ale někdy příště.