Reinforcement Learning (2 dny)

author

Adam Kolář

Prerekvizity

Základní znalost programování v Pythonu, PyTorch, Numpy, Pandas
Středoškolská matematika
Znalosti strojového učení na úrovni kurzu Úvod do strojového učení

Co si účastník odnese

Reinforcement learning (zpětnovazební učení) je dnes jedno z nejprogresivnějších odvětví strojového učení. Jeho popularita byla způsobena především velkými průlomy na poli umělé inteligence pro hraní her. Jedním z příkladů takového úspěchu je algoritmus AlphaZero, použitý pro trénování modelů určených ke hraní hry Go. Tento model je schopen porazit i nejlepší světové hráče, což bylo donedávna nemyslitelné.

V tomto kurzu prozkoumáme základní principy zpětnovazebního učení v diskrétních prostorech. To nám pomůže porozumět tomu, jak se dají neuronové sítě použít pro optimalizační problémy, kde hraje roli interakce s prostředím. To bude ilustrováno na příkladech několika modelů pro hraní řady populárních her. Tyto modely budou v poslední části workshopu zapojeny do složitějších celků, čímž budou demonstrovány nejnovější poznatky v oboru.

Osnova

Úvod do knihoven PyTorch a OpenAI gym
Úvod do zpětnovazebního učení
- State value funkce
- Action value funkce
- Monte carlo přístup
Value-based methody
- Temporal difference metody
- Q-learning
- Replay buffers
- Praktické příklady s několika herními prostředími
Policy-based metody
- Zpětnovazební algoritmus
- Credit assignment improvement
- Praktické příklady s několika herními prostředími
Actor-critic metody
- Vysvětlení základních principů
- DDPG algoritmus
- Praktické příklady s několika herními prostředími
AlphaZero
- Základní principy
- Využití nabytých znalostí pro vytvoření modelu AlphaZero

Termíny

V případě zájmu o vypsání nového termínu kurzu nás kontaktujte na info@mlcollege.com.

Setting