Digital Humanities pro literární vědu

Cílem volitelného semináře v ZS 2021/2022, který je realizován na katedře bohemistiky FF UPOL, je seznámit studenty se základními možnostmi, které dnes Digital Humanities nabízí literární vědě, a to především v oblasti počítačového zpracování přirozeného jazyka. Seminář, který není alternativou korpusové lingvistiky na FF UP, je koncipován do dvou na sebe plynule navazujících částí. První bude věnována jednak vybraným příkladům využití exaktních metod v literární vědě, estetice, popř. lingvistice (tam, kde je předmětem literární dílo a otázky s tím spojené), jednak představení aktuálních projektů domácího výzkumu, které vychází z podnětů kvantitativně-korpusových metod, NLP nebo digitální literární kartografie. Druhá část se zaměří na praktické osvojení základů programování (NLP) v Pythonu. Smyslem semináře není podat vyčerpávající přehled o literárněvědně orientovaném výzkumu v rámci Digital Humanities, ale seznámit studenty s jednou z dílčích oblastí DH v literární vědě, která vychází z možností strojového zpracování a analýzy přirozeného jazyka, jejichž potenciál lze využít také v literárněvědném kontextu. Seminář bude ukončen zápočtem, který studenti obdrží za samostatné vypracování zadaného úkolu. Účast na semináři nevyžaduje žádné předchozí znalosti s programováním. Naopak je určen těm, kteří dosud žádné zkušenosti nemají.

PROGRAM SEMINÁŘE:

1. Exaktní metody v literární vědě I: stuttgartská škola, Max Bense, teorie informace, kybernetika. Umberto Eco – Otevřené dílo.
2. Exaktní metody v literární vědě II (československý kontext): Lubomír Doležel, Jiří Levý, Eduard Petrů, Miroslav Klivar, Marie Těšitelová, Pavel Vašák. Vybrané současné postupy v CLS.
3. HDD, SSD, RAM, Python (instalace, základní nastavení VS Code, Python a knihoven).
4. Datové typy – čísla (int), operátory.
5. Datové typy – řetězce (str), metody; seznamy (list), metody, vstupy, výstupy, počet slov, hlásek, podmínky.
6. Zjišťujme frekvence slov, počet a délku vět, vytváříme tabulky a boxploty, NLTK, Pandas, PyPi (knihovna modulů), píšeme vlastní funkci na vyčištění textu.
7. Zjišťujme základní statistické hodnoty textu (ekvizitnost, koncentrace, extenzita textu, TTR, entropie), modul lexicalrichness.
8. Vytváříme program pro zjišťování slovních druhů, zadávání jednoduchého tagu slovního druhu, výpis všech tvarů daného slovního druhu s frekvencemi, zobrazení procentuálního zastoupení slovníh druhů v textu. Datový typ slovník. Řezy v rámci datového typu string.
9. Vytváříme program na zjišťování konkordancí.
10. Vytváříme program na zjišťování sentiment analysis textu.
11. Používáme speciálně vytvořené slovníky (JSON) ako filtry pro vyhledávání motivů, témat, sakrálních míst apod.
12. Vytváříme malý korpus literárních textů ve formátu JSON a píšeme jednoduchý program pro jeho vytěžování.
13. Pracujeme na dalších způsobech vytěžování korpusu.

Frekventantům je doporučeno, aby na seminář byli vybaveni vlastním notebookem, nejlépe pak s operačním systémem Win 10, popřípadě Win 11.