Zpracování přirozeného jazyka (7. 4. 2025, Praha + online)

4 990 

Termín: 7. 4. 2025

Kurz je zaměřen na analýzu a zpracování textů. Předpokládá se znalost principů strojového učení, ale ty nejdůležitější koncepty budou stručně zopakovány. Specifikem zpracování textů je způsob předzpracování dat a jejich vektorizace. Tomu bude věnována první část. Vše bude prakticky vyzkoušeno na úloze, jejíž cílem je klasifikace textových dokumentů. Dále se účastníci dozvědí, co jsou to jazykové modely a jak je použít pro detekci jazyka dokumentu nebo generování textů.

Počet volných míst: 5

Qty:

Prerekvizity

  • Základní znalost programování v Pythonu
  • Středoškolské znalosti lineární algebry, matematické analýzy a teorie pravděpodobnosti. Bude předpokládáno základní porozumění pojmům jako vektor, matice, vektorový prostor, pravděpodobnost, podmíněná pravděpodobnost, nezávislost náhodných jevů a znalost násobení matic a derivace funkcí.
  • Znalosti strojového učení na úrovni kurzu Úvod do strojového učení.

Co si účastník odnese

Kurz je zaměřen na analýzu a zpracování textů. Předpokládá se znalost principů strojového učení, ale ty nejdůležitější koncepty budou stručně zopakovány. Specifikem zpracování textů je způsob předzpracování dat a jejich vektorizace. Tomu bude věnována první část. Vše bude prakticky vyzkoušeno na úloze, jejíž cílem je klasifikace textových dokumentů. Dále se účastníci dozvědí, co jsou to jazykové modely a jak je použít pro detekci jazyka dokumentu nebo generování textů.

Osnova

  • Úvod do zpracování přirozeného jazyka
  • Vybrané kapitoly z komputační ligvistiky (korpusy, tokenizace, morfologická, syntaktická a sémantická analýza, entropie, mutual information, perplexita)
  • Vektorizace textových dokumentů (bag of words, one-hot encoding, TF-IDF)
  • Word embedding (word2vec)
  • Praktická úloha na klasifikaci textů
  • Word embedding (vytvoření word2vec modelů a experimenty s vektorovými reprezentacemi slov)
  • Úvod do jazykových modelů (n-gramové modely, vyhlazování, modely založené na neuronových sítích)
  • Praktická úloha na jazykové modelování (implementace jazykových modelů a jejich využití pro detekci jazyka textu)
  • Úprava algoritmu pro generování textů
  • Úvod do transformerů a ChatGPT