Reinforcement Learning (2 dny)
Prerekvizity
- Základní znalost programování v Pythonu, PyTorch, Numpy, Pandas
- Středoškolská matematika
- Znalosti strojového učení na úrovni kurzu Úvod do strojového učení
Co si účastník odnese
Reinforcement learning (zpětnovazební učení) je dnes jedno z nejprogresivnějších odvětví strojového učení. Jeho popularita byla způsobena především velkými průlomy na poli umělé inteligence pro hraní her. Jedním z příkladů takového úspěchu je algoritmus AlphaZero, použitý pro trénování modelů určených ke hraní hry Go. Tento model je schopen porazit i nejlepší světové hráče, což bylo donedávna nemyslitelné.
V tomto kurzu prozkoumáme základní principy zpětnovazebního učení v diskrétních prostorech. To nám pomůže porozumět tomu, jak se dají neuronové sítě použít pro optimalizační problémy, kde hraje roli interakce s prostředím. To bude ilustrováno na příkladech několika modelů pro hraní řady populárních her. Tyto modely budou v poslední části workshopu zapojeny do složitějších celků, čímž budou demonstrovány nejnovější poznatky v oboru.
Osnova
- Úvod do knihoven PyTorch a OpenAI gym
- Úvod do zpětnovazebního učení
- State value funkce
- Action value funkce
- Monte carlo přístup
- Value-based methody
- Temporal difference metody
- Q-learning
- Replay buffers
- Praktické příklady s několika herními prostředími
- Policy-based metody
- Zpětnovazební algoritmus
- Credit assignment improvement
- Praktické příklady s několika herními prostředími
- Actor-critic metody
- Vysvětlení základních principů
- DDPG algoritmus
- Praktické příklady s několika herními prostředími
- AlphaZero
- Základní principy
- Využití nabytých znalostí pro vytvoření modelu AlphaZero
Termíny
V případě zájmu o vypsání nového termínu kurzu nás kontaktujte na info@mlcollege.com.