Искусственный интеллект Google DeepMind AI научился проходить 49 игр Atari — об этом сообщил в свежей публикации журнал Nature. Возможно, это звучит не так уж привлекательно само по себе, но речь идёт о том, что искусственный интеллект сам себя обучает игре — это большой шаг вперёд в деле машинного обучения.
Google поглотила компанию DeepMind Technologies в прошлом году, предложив за покупку больше, чем Facebook. На момент оглашения сделки общественность гадала: будет ли приобретение использоваться для совершенствования алгоритмов поиска или же в робототехнике. Ответ прост: приёмы машинного обучения, которые были использованы в последнем исследовании, опубликованном в журнале Nature, позволяют компьютерам находить зависимость в поступающих данных.
Стоит отметить, что методы, использованные Google для обучения компьютеров играть в видеоигры, как отмечается в публикации, известны уже несколько десятилетий, но они ранее не объединялись в таком удобном и полезном виде. «Наш подход демонстрирует впечатляющую приспособляемость», — отметил Бернхард Шёлькопф (Bernhard Schölkopf), директор Института интеллектуальных систем имени Макса Планка.
Алгоритм не узкоспециализированный — после обучения одной игре он может легко научиться играть и в 48 других. При этом, как отмечает господин Шёлькопф, игры Atari, участвовавшие в эксперименте, куда больше соответствуют хаосу реального мира, чем более логичные и структурированные игры вроде шахмат. Это хорошая новость для технологий автопилота и других компьютерных систем, создаваемых для взаимодействия и анализа реального мира — другими словами, Google получила ещё один инструмент, позволяющий сделать хаос чуть более структурированным.
Обучение основано на очень старом подходе: так называемом положительном подкреплении. Всякий раз, когда компьютер получат больше очков или же перемещается на новый уровень, он вознаграждается. Новый искусственный интеллект показал себя лучше, чем предыдущие методы в 43 играх, и смог превзойти людей в 29 из них. На представленном видео можно отследить, как алгоритм Google обучался игре в классическую Breakout — явно видно, как стратегия постепенно становилась всё более и более эффективной:
Авторы исследования под руководством соучредителя DeepMind и вице-президента по разработкам Google Демиса Хассабиса (Demis Hassabis) отмечают, то что метод положительного подкрепления является формой обучения людей и животных — он обычно не используется для компьютеров. Применение вдохновлённых биологией методов может открыть новое направление в создании искусственного интеллекта. Будем надеяться, что однажды подобные системы смогут решать что-то более полезное, чем простенькие игры Atari. Впрочем, такому алгоритму, если судить по научно-фантастическим произведениям, не стоит поручать решение проблемы перенаселения планеты.