Reinforcement Learning (2 dny)

Reinforcement Learning (2 dny)

author

Adam Kolář

Prerekvizity

  • Základní znalost programování v Pythonu, PyTorch, Numpy, Pandas
  • Středoškolská matematika
  • Znalosti strojového učení na úrovni kurzu Úvod do strojového učení

Co si účastník odnese

 

Reinforcement learning (zpětnovazební učení) je dnes jedno z nejprogresivnějších odvětví strojového učení. Jeho popularita byla způsobena především velkými průlomy na poli umělé inteligence pro hraní her. Jedním z příkladů takového úspěchu je algoritmus AlphaZero, použitý pro trénování modelů určených ke hraní hry Go. Tento model je schopen porazit i nejlepší světové hráče, což bylo donedávna nemyslitelné.

V tomto kurzu prozkoumáme základní principy zpětnovazebního učení v diskrétních prostorech. To nám pomůže porozumět tomu, jak se dají neuronové sítě použít pro optimalizační problémy, kde hraje roli interakce s prostředím. To bude ilustrováno na příkladech několika modelů pro hraní řady populárních her. Tyto modely budou v poslední části workshopu zapojeny do složitějších celků, čímž budou demonstrovány nejnovější poznatky v oboru.

Osnova

  • Úvod do knihoven PyTorch a OpenAI gym
  • Úvod do zpětnovazebního učení
    • State value funkce
    • Action value funkce
    • Monte carlo přístup
  • Value-based methody
    • Temporal difference metody
    • Q-learning
    • Replay buffers
    • Praktické příklady s několika herními prostředími
  • Policy-based metody
    • Zpětnovazební algoritmus
    • Credit assignment improvement
    • Praktické příklady s několika herními prostředími
  • Actor-critic metody
    • Vysvětlení základních principů
    • DDPG algoritmus
    • Praktické příklady s několika herními prostředími
  • AlphaZero
    • Základní principy
    • Využití nabytých znalostí pro vytvoření modelu AlphaZero

Termíny

V případě zájmu o vypsání nového termínu kurzu nás kontaktujte na info@mlcollege.com.