Zpracování přirozeného jazyka (7. 4. 2025, Praha + online)
4 990 Kč
Termín: 7. 4. 2025
Kurz je zaměřen na analýzu a zpracování textů. Předpokládá se znalost principů strojového učení, ale ty nejdůležitější koncepty budou stručně zopakovány. Specifikem zpracování textů je způsob předzpracování dat a jejich vektorizace. Tomu bude věnována první část. Vše bude prakticky vyzkoušeno na úloze, jejíž cílem je klasifikace textových dokumentů. Dále se účastníci dozvědí, co jsou to jazykové modely a jak je použít pro detekci jazyka dokumentu nebo generování textů.
Počet volných míst: 5
Prerekvizity
- Základní znalost programování v Pythonu
- Středoškolské znalosti lineární algebry, matematické analýzy a teorie pravděpodobnosti. Bude předpokládáno základní porozumění pojmům jako vektor, matice, vektorový prostor, pravděpodobnost, podmíněná pravděpodobnost, nezávislost náhodných jevů a znalost násobení matic a derivace funkcí.
- Znalosti strojového učení na úrovni kurzu Úvod do strojového učení.
Co si účastník odnese
Kurz je zaměřen na analýzu a zpracování textů. Předpokládá se znalost principů strojového učení, ale ty nejdůležitější koncepty budou stručně zopakovány. Specifikem zpracování textů je způsob předzpracování dat a jejich vektorizace. Tomu bude věnována první část. Vše bude prakticky vyzkoušeno na úloze, jejíž cílem je klasifikace textových dokumentů. Dále se účastníci dozvědí, co jsou to jazykové modely a jak je použít pro detekci jazyka dokumentu nebo generování textů.
Osnova
- Úvod do zpracování přirozeného jazyka
- Vybrané kapitoly z komputační ligvistiky (korpusy, tokenizace, morfologická, syntaktická a sémantická analýza, entropie, mutual information, perplexita)
- Vektorizace textových dokumentů (bag of words, one-hot encoding, TF-IDF)
- Word embedding (word2vec)
- Praktická úloha na klasifikaci textů
- Word embedding (vytvoření word2vec modelů a experimenty s vektorovými reprezentacemi slov)
- Úvod do jazykových modelů (n-gramové modely, vyhlazování, modely založené na neuronových sítích)
- Praktická úloha na jazykové modelování (implementace jazykových modelů a jejich využití pro detekci jazyka textu)
- Úprava algoritmu pro generování textů
- Úvod do transformerů a ChatGPT