Победа ”сверхчеловека", играющего в самые сложные интеллектуальные игры
Автор: tan4a07petrova • Декабрь 17, 2020 • Доклад • 808 Слов (4 Страниц) • 303 Просмотры
Победа” сверхчеловека", играющего в самые сложные интеллектуальные игры.
Будет ли общий алгоритм успешным для шахмат, Го и Сёги, а также для игр с менее определенными правилами?
Брет Стетка 6 декабря 2018
Это было в 1997 году на 35-м этаже небоскреба в центре Манхэттена. Шахматист Гарри Каспаров в недоумении покинул сцену, подняв руки в поражении, только что проиграв компьютеру. Известное свержение с трона действующего чемпиона мира по шахматам темно-синим компьютером IBM ознаменовало собой новый мир компьютерного интеллекта, обгоняющего человечество.
Более 20 лет искусственный интеллект шел вперед. В то время как Deep Blue снял Каспарова с помощью чистой вычислительной мощности, новые компьютерные технологии фактически изучают и выводят решения самостоятельно. И последнее исследование компании DeepMind (принадлежащей Alphabet, материнской компании Google) только что сделало еще один шаг вперед.
Опубликованная сегодня в Science, система AlphaZero DeepMind продемонстрировала сверхчеловеческий успех не только в шахматах, но и в Сеги “японские шахматы”—и Го, древней китайской настольной игре с ошеломляющим количеством возможностей перемещения (примерно в 300 раз больше, чем в шахматах). Это технология, которая после полного развития может иметь широкий спектр применения—от разработки лекарств до математики и материального дизайна.
Многие предшествующие игровые технологии изначально требовали информации, предоставляемой людьми—они должны быть подготовлены для выполнения конкретной задачи. Тем не менее, алгоритм AlphaZero учится “играть” в игры самостоятельно. Он делает это с помощью обучения подкрепления, концепции машинного обучения об интерактивной среде путем проб, ошибок и вознаграждений. В новом исследовании AlphaZero сыграл около 60 миллионов игр против себя, чтобы укрепить свое “понимание” правил.
Затем он смог удержаться с ведущей шахматной программой Stockfish—которую для людей почти невозможно победить, выиграв 155 из 1000 игр, проиграв всего шесть и выиграв остальные. AlphaZero также превзошел Elmo, чемпиона мира по алгоритму сеги, 91 процент времени, и снял AlphaGo—более раннюю свою версию, разработанную специально для игры в 61 % сыгранных игр.
Значительное продвижение здесь показывает, что AlphaZero не ограничивается только одной функцией, как предыдущие игровые технологии. DeepMind, похоже, разработали алгоритм, который может освоить многие, если не большинство настольных игр с фиксированными правилами. “Мы очень рады, что у нас есть программа, которая полностью изучает эти игры без [помощи] человеческих знаний”, - говорит ведущий инженер AlphaZero Джулиан Шриттвизер. "Вообще говоря, это алгоритм, который пытается решать сложные, многошаговые задачи.”
Необыкновенные вычислительные способности AlphaZero в части стало возможным за счет использования 5000 из так называемых обработка тензора единиц, или TPUs. Разработанные Google за последние несколько лет, TPU являются микропроцессорами, разработанными специально для обработки алгоритмов искусственного интеллекта. В новом исследовании обработчики управляли само-игрой, которая привела к машинному обучению. “Это, конечно, здорово, что обобщенный алгоритм обучения научился играть в различные настольные игры, не кодируя много знаний о конкретной игре", - говорит Дейлен Янг, инженер-компьютер и участник Stockfish, который не участвовал в исследовании DeepMind. "AlphaZero показывает, что он может узнать, что знания автоматически—по крайней мере, если у вас есть 5000 TPUs от Google, что много вычислений!”
...