Zpracování přirozeného jazyka II
Prerekvizity
- Základní znalost programování v Pythonu
- Středoškolská matematika
- Znalosti strojového učení na úrovni kurzu Úvod do strojového učení
- Znalosti na úrovni kurzu Zpracování přirozeného jazyka
Co si účastník odnese
V tomto kurzu navážeme na základní kurz Zpracování přirozeného jazyka pokročilejšími tématy. Zaměříme se především na předzpracování dat a nejnovější aplikace hlubokého učení ve zpracování textu. Bude se jednat především architektury neuronových sítí postavených na takzvaných Transformerech. S využitím metody transfer learningu ukážeme, jak lze využít velké předtrénované neuronové sítě pro nejrůznější praktické aplikace.
Osnova
- Předzpracování textových dat
- Kódování znaků a unicode normalizace
- Tradiční tokenizace (jednoduché metody, Spacy, Moses)
- Subword tokenizace (byte-pair kódování, wordpiece, sentencepiece)
- Šištění dat (deduplikace, odstranění textového balastu)
- Word embeddings
- Obecné principy
- Implementace skip-gram modelu
- Strojový překlad s rekurentními sítěmi
- Paměťové buňky LSTM a GRU
- Implementace strojového překladu pomocí rekurentních sítí
- Transformery
- Attention is all you need
- Architektura transformeru
- GPT3, ChatGPT
- BERT
- XLNET
- Příklady transfer learningu pro zpracování přirozeného jazyka
- Klasifikace textů
- Rozpoznání jmenných entit
- Question answering
- Generování textu a chatboty
Termíny
V případě zájmu o vypsání nového termínu kurzu nás kontaktujte na info@mlcollege.com.