EITC/AI/ARL Advanced Reinforcement Learning — это европейская программа сертификации ИТ, посвященная подходу DeepMind к обучению с подкреплением в области искусственного интеллекта.
Учебная программа EITC/AI/ARL Advanced Reinforcement Learning фокусируется на теоретических аспектах и практических навыках в методах обучения с подкреплением с точки зрения DeepMind, организованной в рамках следующей структуры, включающей в себя всесторонний видео-дидактический контент в качестве справочного материала для этой сертификации EITC.
Обучение с подкреплением (RL) - это область машинного обучения, связанная с тем, как интеллектуальные агенты должны действовать в среде, чтобы максимизировать понятие кумулятивного вознаграждения. Обучение с подкреплением - одна из трех основных парадигм машинного обучения, наряду с обучением с учителем и обучением без учителя.
Усиленное обучение отличается от контролируемого обучения тем, что не нужно представлять помеченные пары ввода/вывода, и не нуждается в неоптимальных действиях, которые должны быть явно исправлены. Вместо этого акцент делается на поиске баланса между разведкой (неизведанной территории) и эксплуатацией (текущих знаний).
Среда обычно описывается в форме марковского процесса принятия решений (MDP), потому что многие алгоритмы обучения с подкреплением для этого контекста используют методы динамического программирования. Основное различие между классическими методами динамического программирования и алгоритмами обучения с подкреплением заключается в том, что последние не предполагают знания точной математической модели MDP и нацелены на большие MDP, где точные методы становятся невозможными.
Из-за своей универсальности обучение с подкреплением изучается во многих дисциплинах, таких как теория игр, теория управления, исследование операций, теория информации, оптимизация на основе моделирования, многоагентные системы, интеллект роя и статистика. В литературе по исследованию операций и контролю обучение с подкреплением называется приблизительным динамическим программированием или нейродинамическим программированием. Проблемы, представляющие интерес в обучении с подкреплением, также изучались в теории оптимального управления, которая в основном связана с существованием и характеристикой оптимальных решений и алгоритмов для их точного вычисления, и в меньшей степени с обучением или приближением, особенно при отсутствии математическая модель окружающей среды. В экономике и теории игр обучение с подкреплением может использоваться для объяснения того, как может возникнуть равновесие при ограниченной рациональности.
Базовое усиление моделируется как процесс принятия решений Маркова (MDP). В математике марковский процесс принятия решений (MDP) - это стохастический процесс управления с дискретным временем. Он обеспечивает математическую основу для моделирования принятия решений в ситуациях, когда результаты частично случайны, а частично находятся под контролем лица, принимающего решения. MDP полезны для изучения задач оптимизации, решаемых с помощью динамического программирования. МДП были известны как минимум еще в 1950-х годах. Основной объем исследований марковских процессов принятия решений стал результатом книги Рональда Ховарда 1960 года «Динамическое программирование и марковские процессы». Они используются во многих дисциплинах, включая робототехнику, автоматическое управление, экономику и производство. Название MDP произошло от русского математика Андрея Маркова, поскольку они являются продолжением цепей Маркова.
На каждом временном шаге процесс находится в некотором состоянии S, и лицо, принимающее решение, может выбрать любое действие a, доступное в состоянии S. На следующем временном шаге процесс отвечает случайным переходом в новое состояние S 'и выдачей Лицо, принимающее решение, получает соответствующее вознаграждение Ra (S, S ').
Вероятность перехода процесса в новое состояние S 'зависит от выбранного действия a. В частности, он задается функцией перехода состояний Pa (S, S '). Таким образом, следующее состояние S 'зависит от текущего состояния S и действия лица, принимающего решение a. Но учитывая S и a, он условно не зависит от всех предыдущих состояний и действий. Другими словами, переходы состояний MDP удовлетворяют свойству Маркова.
Марковские процессы принятия решений являются расширением цепей Маркова; разница заключается в добавлении действий (предоставление возможности выбора) и вознаграждений (мотивации). И наоборот, если для каждого состояния существует только одно действие (например, «ожидание») и все вознаграждения одинаковы (например, «ноль»), процесс принятия решения Маркова сводится к цепи Маркова.
Агент обучения с подкреплением взаимодействует со своей средой дискретными временными шагами. В каждый момент времени t агент получает текущее состояние S (t) и вознаграждение r (t). Затем он выбирает действие a (t) из набора доступных действий, которое впоследствии отправляется в среду. Среда переходит в новое состояние S (t + 1), и определяется вознаграждение r (t + 1), связанное с переходом. Цель агента обучения с подкреплением - изучить политику, которая максимизирует ожидаемое совокупное вознаграждение.
Формулировка проблемы в виде MDP предполагает, что агент непосредственно наблюдает за текущим состоянием окружающей среды. В этом случае говорят, что проблема полностью наблюдаема. Если агент имеет доступ только к подмножеству состояний или если наблюдаемые состояния искажены шумом, говорят, что агент имеет частичную наблюдаемость, и формально проблема должна быть сформулирована как частично наблюдаемый марковский процесс принятия решений. В обоих случаях набор действий, доступных агенту, может быть ограничен. Например, состояние баланса счета может быть ограничено положительным; если текущее значение состояния равно 3, а переход состояния пытается уменьшить значение на 4, переход не будет разрешен.
Когда производительность агента сравнивается с эффективностью агента, который действует оптимально, разница в производительности порождает понятие сожаления. Чтобы действовать почти оптимально, агент должен рассуждать о долгосрочных последствиях своих действий (т. Е. Максимизировать будущий доход), хотя немедленное вознаграждение, связанное с этим, может быть отрицательным.
Таким образом, обучение с подкреплением особенно хорошо подходит для задач, которые включают в себя долгосрочное и краткосрочное вознаграждение. Он успешно применяется для решения различных задач, включая управление роботами, планирование работы лифта, телекоммуникации, нарды, шашки и Go (AlphaGo).
Два элемента делают обучение подкреплением мощным: использование образцов для оптимизации производительности и приближение функций для работы в больших средах. Благодаря этим двум ключевым компонентам обучение с подкреплением может использоваться в больших средах в следующих ситуациях:
- Модель окружающей среды известна, но аналитического решения нет.
- Приведена только имитационная модель среды (предмет оптимизации на основе имитационного моделирования).
- Единственный способ собрать информацию об окружающей среде - это взаимодействовать с ней.
Первые две из этих проблем можно рассматривать как проблемы планирования (поскольку существует некоторая форма модели), а последнюю можно рассматривать как настоящую проблему обучения. Однако обучение с подкреплением превращает обе проблемы планирования в проблемы машинного обучения.
Компромисс между разведкой и эксплуатацией был наиболее тщательно изучен с помощью проблемы многорукого бандита и для MDP в пространстве состояний в Burnetas and Katehakis (1997).
Обучение с подкреплением требует умных механизмов исследования; случайный выбор действий без ссылки на оценочное распределение вероятностей показывает низкую производительность. Случай (малых) конечных марковских процессов принятия решений относительно хорошо изучен. Однако из-за отсутствия алгоритмов, которые хорошо масштабируются с количеством состояний (или масштабируются до проблем с бесконечными пространствами состояний), простые методы исследования являются наиболее практичными.
Даже если пренебречь вопросом разведки и даже если состояние было наблюдаемым, остается проблема использовать прошлый опыт, чтобы выяснить, какие действия приводят к более высоким совокупным вознаграждениям.
Чтобы более подробно ознакомиться с учебным планом сертификации, вы можете расширить и проанализировать таблицу ниже.
Учебная программа EITC/AI/ARL Advanced Reinforcement Learning Certification содержит ссылки на дидактические материалы с открытым доступом в виде видео. Учебный процесс разбит на пошаговую структуру (программы -> уроки -> темы), охватывающую соответствующие разделы учебного плана. Также предоставляются неограниченные консультации с экспертами в предметной области.
Подробнее о процедуре сертификации см. Как это работает.
Справочные ресурсы по учебной программе
Контроль на уровне человека через публикацию по глубокому обучению с подкреплением
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Курс открытого доступа по глубокому обучению с подкреплением в Калифорнийском университете в Беркли
http://rail.eecs.berkeley.edu/deeprlcourse/
RL применяется к проблеме бандитов с K-armbed от Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Загрузите полные подготовительные материалы для автономного самообучения по программе расширенного обучения с подкреплением EITC/AI/ARL в файле PDF.
Подготовительные материалы EITC/AI/ARL – стандартная версия
Подготовительные материалы EITC/AI/ARL – расширенная версия с обзорными вопросами