doc. Mgr. Richard Změlík, Ph.D. (KBH FF UPOL)
Cílem volitelných seminářů v ZS a LS příslušného akademického roku, které jsou realizovány na katedře bohemistiky FF UPOL, je seznámit studenty se základními možnostmi, které dnes Digital Humanities nabízí literární vědě, a to především v oblasti počítačového zpracování přirozeného jazyka a datové analýzy. Semináře, které nejsou alternativou korpusové lingvistiky na FF UP, jsou koncipovány jako praktická cvičení v jazyce Python. Studentům budou podrobně vysvětleny záměry jednotlivých úkonů, jakož i kroky vedoucí k jjeich realizaci. V zimním semestru proběhne základní seznámení s jazykem Python, po kterém budou násleovat semináře zaměřené na strojvou analýzu literárních textů. V letním semestru budou semináře věnovány datové analýze, která bude prováděna na datových typech csv a json. Účast v semináři v letním semestru není podmíněna absolvováním semináře v zimním semstru, přesto se doporučuje jeho absolvování. Oba semináře jsou určeny těm, kteří s programováním nemají dosud žádné zkušenostri.
Tempo semináře je vždy přizpůsobeno studentům a jejich možnostem. Jeho smyslem je seznámit frekventanty se základními a vybranými metodami strojové analýzy a vytěžování jazykových dat a popřípadě je inspirovat k další samostatné práci.
PROGRAM SEMINÁŘŮ:
ZIMNÍ SEMESTR
- 1. Exaktní metody v literární vědě I: stuttgartská škola, Max Bense, teorie informace, kybernetika. Umberto Eco – Otevřené dílo.
- 2. Exaktní metody v literární vědě II (československý kontext): Lubomír Doležel, Jiří Levý, Eduard Petrů, Miroslav Klivar, Marie Těšitelová, Pavel Vašák. Vybrané současné postupy v CLS.
- 3. Python (instalace, základní nastavení VS Code, Python a knihovny).
- 4. Datové typy – čísla (int), operátory.
- 5. Datové typy – řetězce (str), metody; seznamy (list), metody, vstupy, výstupy, počet slov, hlásek, podmínky.
- 6. Zjišťujme frekvence slov, počet a délku vět, vytváříme tabulky a boxploty, NLTK, Pandas, PyPi (knihovna modulů), píšeme vlastní funkci na vyčištění textu.
- 7. Zjišťujme základní statistické hodnoty textu (ekvizitnost, koncentrace, extenzita textu, TTR, MATR, entropie), modul lexicalrichness.
- 8. Vytváříme program pro zjišťování slovních druhů, zadávání jednoduchého tagu slovního druhu, výpis všech tvarů daného slovního druhu s frekvencemi, zobrazení procentuálního zastoupení slovníh druhů v textu. Datový typ slovník. Řezy v rámci datového typu string.
- 9. Vytváříme program na zjišťování konkordancí.
- 10. Vytváříme program na zjišťování sentiment analysis textu.
- 11. Používáme speciálně vytvořené slovníky (JSON) ako filtry pro vyhledávání motivů, témat, sakrálních míst apod.
- 12. Vytváříme malý korpus literárních textů ve formátu JSON a píšeme jednoduchý program pro jeho vytěžování.
LETNÍ SEMESTR
- 1. Úvod do datové analýzy.
- 2. Tabulky ve formátu CSV: načtení tabulky a základní operace. Výpis informací o tabulce, čištění dat. Analýza dat, grafické zobrazení dat (head, tail, max, min, iloc, loc, describe, abs, corr, len, sum, mean, add, sub, div, size, list, sorted, dict, copy, value_counts, sort_index, sort_values ad.).
- 3. Vytvoření csv souboru z dat literární korpusu a jejich analýza.
- 4. Datový typ JSON. Vytváření dat a jejich uložení do JSON formátu.
- 5. Vytěžování dat z JSON formátu a jejich grafické zobrazení.
- 6. Budování vlastního literárního korpusu prozaických textů.
Frekventantům je doporučeno, aby na seminář byli vybaveni vlastním notebookem, nejlépe pak s operačním systémem Win 10, popřípadě Win 11.