Ondřej Schmid

Velký jazykový poděl

Generativní AI „pozřela“ výsek všeho lidského psaní (nezanedbatelnou část v rozporu s autorskými právy), „přežvýkala“ je do jakési statisticky zprůměrované imitace přirozeného jazyka, a tou nyní „krmí“ zpátky téměř celé lidstvo – aktivních uživatelů LLM může být podle některých odhadů celosvětově sice „jen“ něco přes jednu miliardu, avšak pasivními příjemci AI obsahu jsou zřejmě všichni uživatelé internetu, často nevědomky.

Drobná publicistika – Na jazyku
Z čísla 13/2026

Milé čtenářstvo, vítejte u druhé části dvojčlánku, jenž dvojčlánkem vůbec býti neměl. O tématu následujících řádků jsem chtěl psát již posledně, ale při rešerši nabobtnalo množství rozmanitých zdrojů natolik, že mě nakonec zavedly do jiného, byť nepříliš vzdáleného cíle.

Minulé vydání „Na jazyku“ se věnovalo mému oblíbenému lexikálnímu jevu zvanému enantiosémie, což je pozoruhodný fenomén, kdy má jedno víceznačné slovo dva protikladné významy. Na příkladu personalizace jsem se pokusil ukázat jeden ze způsobů, jak k takové situaci může v dnešní době docházet. Kvůli nadužívání tohoto pojmu – zejména v kontextu algoritmických doporučovacích systémů, které mají tendenci filtrováním homogenizovat on‑line obsah – totiž personalizace začíná paradoxně označovat v podstatě opak přizpůsobování nabídky požadavkům a potřebám konkrétního jedince. Za hybatele tohoto významového posunu můžeme v konečném důsledku považovat všudypřítomnou implementaci umělé inteligence (AI), na jejíchž mechanismech strojového učení jsou doporučovací systémy založeny. Kromě nich má AI ovšem také mnoho jiných podob, přičemž v současnosti je středem pozornosti především generativní AI.

Pakliže jste poslední přibližně čtyři roky nestrávili v kómatu nebo naprosté izolaci, pravděpodobně máte alespoň hrubou představu, co to generativní AI je, protože se probírá skrznaskrz snad úplně všude. Osobně se z neustálého přívalu zpráv a celkově všeho souvisejícího s tímto tématem už cítím vyčerpaný, a tak jsem do této řeky obsahu nechtěl sám přilévat další text. Jenže poslední dobou sílí určitý znepokojivý trend (respektive jeden z mnoha), o němž je podle mě potřeba zvyšovat povědomí. A jelikož se týká jazyka – středobodu celé této rubriky –, nemohu jej zde prostě přejít mlčením. Než se však dostaneme k samotnému problému, není od věci si pro jeho lepší pochopení stručně připomenout, jak vlastně generativní AI funguje a v čem spočívá její provázanost s jazykem.

Jakožto obor informatiky existuje AI již od 40. let dvacátého století a zastřešuje celou řadu výzkumných směrů, jevů, technologií či produktů. Počátek aktuální AI mánie pak můžeme datovat velmi konkrétně do konce roku 2022, kdy společnost OpenAI zpřístupnila veřejnosti ChatGPT – chatbota (software simulující konverzaci) postaveného na technologii velkých jazykových modelů (large language models – LLM). Další firmy na sebe nenechaly dlouho čekat a postupně spouštěly své vlastní chatboty fungující na jiných LLM (Claude, Gemini, Grok atd.). Jak signalizuje označení tohoto typu modelů, jazyk je pro ně alfou i omegou, což se týká primárně jazyků přirozených (běžně užívaných v mezilidské komunikaci), ale také formálních (např. programovacích či vizuálních). Modely jsou nejprve „trénovány“ na obrovském množství jazykových dat různého typu, aby poté dokázaly „rozumět“ pokynům zadaným v přirozeném jazyce a aby nakonec i jejich „vlastní“ výstupy měly verbální podobu textů srozumitelných běžnému lidskému uživateli (výstupy mohou mít též jiné formy, ale ty nyní ponechme stranou). Uvozovky v předchozím souvětí jsou užity záměrně k minimalizaci antropomorfizace oněch modelů, k níž naše mysl chtě nechtě sklouzává při snaze o pochopení takto komplexních výpočetních procesů imitujících aktivitu lidského mozku. Tendenci k polidšťování strojů se ale naopak snaží posilovat AI firmy, a to z prostého důvodu, aby své produkty mohly prezentovat jako přelomovější a úžasnější, než ve skutečnosti jsou.

Ať už jsou procesy probíhající na pozadí „učení se“ i generování textů sebesložitější, v jejich jádru spočívá kombinace dvou činností naprosto základních: kopírování a vkládání. Což nejsou jen rutinní úkony při práci s digitálním textem (těžko hledat tak nerozlučnou dvojku, jako je kombinace klávesových zkratek Ctrl+CCtrl+V), ale samotná podstata jakéhokoliv přenosu a šíření informací včetně myšlenek (však například psaní poznámek při přednášce je svým způsobem jen variace na „kopírovat a vložit“). Nejpopulárnějším typem současných LLM jsou tzv. generativní předtrénované transformátory (odtud zkratka GPT), které ono kopírování a vkládání podle určitých parametrů opakují tolikrát, že si takové číslo obyčejní smrtelníci sotva dokáží představit. Při přemýšlení o vztahu jazyka a generativní AI je tedy třeba mít na paměti, že její psané výstupy vznikají, velmi zjednodušeně řečeno, kopírováním slov z již existujících materiálů a jejich poskládáním v novém pořadí, respektive šířeji v novém kontextu. Právě princip skládání je zde stěžejní, neboť transformátory nevymýšlejí výsledný text jako celek, nýbrž jej lepí kousek po kousku – za každým jedním slovem vyhodnocují, jaké slovo by mělo následovat, a takto stále dokola, než se model „rozhodne“, že už žádné další nepřidá a že výsledek pošle uživateli.

Tak kde je ten problém?

Generativní AI „pozřela“ výsek všeho lidského psaní (nezanedbatelnou část v rozporu s autorskými právy), „přežvýkala“ je do jakési statisticky zprůměrované imitace přirozeného jazyka, a tou nyní „krmí“ zpátky téměř celé lidstvo – aktivních uživatelů LLM může být podle některých odhadů celosvětově sice „jen“ něco přes jednu miliardu, avšak pasivními příjemci AI obsahu jsou zřejmě všichni uživatelé internetu, často nevědomky. Už tohle mi přijde dost perverzní, ale praktické důsledky jsou ještě dalekosáhlejší. Jelikož je jazyk každého člověka neustále ovlivňován jeho všemi jazykovými interakcemi, pomalu nasáváme unifikovanou „chatbotštinu“, která prosakuje do našich idiolektů a následně je zplošťuje. Výzkumy skutečně potvrzují, že lidé začínají mluvit a psát jako stroje, které byly vytvořeny, aby mluvily a psaly jako lidé. O to absurdnější mi přijdou služby nabízející „polidštění“ textů vygenerovaných AI, kdy tuto pseudohumanizaci provádí, jak jinak, jazykový model. Začarovaný kruh, na jehož hypotetickém konci jsou LLM, které nebudou mít pro „učení se“ k dispozici už žádné čistě lidské texty, takže „požerou“ samy sebe a dojde k tzv. kolapsu modelů.

Jedním z mnoha vědecky podložených negativních dopadů generativní AI je eroze kritického myšlení u jejích uživatelů. V nedávné eseji spisovatele Teda Chianga mě zaujala myšlenka, že zatímco pojmem deepfake obvykle označujeme falešné audio a video, měli bychom za deepfake považovat také texty vygenerované LLM. Přímé oklamání příjemce je totiž jen dílčím cílem deepfake materiálu, jeho neméně důležitým účelem je vytváření a udržování nejistoty ohledně toho, co je skutečné nebo pravdivé a co ne. V dnešní době post-faktické tak je splynutí jazyka lidí a chatbotů snem všech, kterým vyhovuje, když nikdo neví, čemu se dá ještě věřit.

Chviličku.
Načítá se.

Souvisí

  • Ondřej Schmid

    Masovost na míru

    Možná jsem jen paranoidní, ale když na sítích něco vypadá, že to bylo kurátorsky vybráno přímo pro mě, předpokládám za tím spíše generalizace a přiřazení mého online já k nějaké homogenní demografické či zájmové skupině. Díky Orwellovi už víme, že válka je mír, svoboda je otroctví a nevědomost je síla. Dnes vidíme, že personalizace je masovost. A onen hnací motor významového posunu? Umělá inteligence.

    Drobná publicistika – Na jazyku
    Z čísla 11/2026
  • Ondřej Schmid

    Odemykání diskursu

    Už jen seznam klíčových slov dokáže podat hrubou představu o zásadních prvcích zkoumaného diskursu, avšak sám o sobě pro komplexní analýzu nestačí. Korpusová lingvistika naštěstí poskytuje ještě další, propracovanější metody a nástroje, s jejichž využitím se dá jakýkoliv diskurs odemknout opravdu důsledně. O tom ale někdy příště.

    Drobná publicistika – Na jazyku
    Z čísla 9/2026
  • Během studií mě historicko-lingvistické zkoušky potrápily zdaleka nejvíc. Přesto mi diachronní zkoumání jazyka přijde jako fascinující detektivní práce, která člověka dokáže odměnit „aha momenty“, kdy zdánlivě náhodné jevy najednou začnou dávat smysl. Jako třeba kroužek-óčko nad u.

    Drobná publicistika – Na jazyku
    Z čísla 7/2026
  • Ondřej Schmid

    Proč nemít vzory

    Dnes již sedmadevadesátiletý Chomsky je znám svou argumentační zarputilostí a neochotou uznat vlastní mýlky. A tak zatímco většina současných lingvistických škol v otázce naučenosti či vrozenosti jazyka zaujímá realistický postoj někde mezi, Chomsky by se stále do krve hádal (pokud by se od prodělání mozkové mrtvice v roce 2023 nestáhl z veřejného života) ve prospěch vrozenosti. Ale ať už si o Chomském a jeho teoriích myslíme cokoliv, nelze vyloučit, že by bez něj bylo lingvistické poznání o několik dekád pozadu.

    Drobná publicistika – Na jazyku
    Z čísla 5/2026
  • Původně jsem se chtěl zamyslet, zda mohou tyto slovotvorné jednotky fungovat jako prostředek objektivizace pojmů, ale nakonec jsem se neubránil toku myšlenek a asociací a naopak se upnul na koncept objektivity. Čím více jsem si toho v rámci rešerše k tomuto článku o afixaci načítal, tím více jsem si totiž uvědomoval mezery ve svých znalostech slovotvorby.

    Drobná publicistika – Na jazyku
    Z čísla 3/2026