Как мы учимся. Почему мозг учится лучше, чем любая машина… пока - Чечина Алиса А., читать онлайн бесплатно (полностью) 5 стр.

«Очень просто», – сказали ученые и придумали так называемое «обучение с подкреплением», в рамках которого мы не сообщаем системе никаких подробностей о том, что она должна делать (этого никто не знает!), но определяем «награду» – например, в виде количества очков

DeepMindGoogle

Ученые нашли хитрое решение. Они программируют машину так, чтобы она делала сразу две вещи: действовала и одновременно оценивала собственный прогресс. Одна половина системы, так называемый «критик», учится предсказывать конечный результат. Цель этой сети искусственных нейронов заключается в том, чтобы как можно точнее оценить состояние игры и предсказать ее исход: я выигрываю или проигрываю? Благодаря «внутреннему критику» система способна оценивать свои действия в любой момент времени, а не только в конце. На основании этой оценки другая половина машины, «актор» (собственно, «исполнитель»), корректирует свое поведение: пожалуй, мне не стоит делать то-то и то-то – «критик» считает, что это увеличит мои шансы на проигрыш.

Испытание за испытанием «актор» и «критик» работают в тандеме: один учится выбирать наиболее эффективные действия, другой – как можно точнее оценивать их последствия. Спустя некоторое время – в отличие от того парня из анекдота, который падает с небоскреба и на лету восклицает: «Пока все хорошо!» – сеть «актор – критик» обретает невероятную прозорливость: способность предсказывать, какие партии скорее всего будут выиграны, а какие неизбежно закончатся катастрофой.

Комбинация «актор – критик» – одна из самых эффективных стратегий современного искусственного интеллекта. При поддержке иерархической нейронной сети она буквально творит чудеса. Еще в 1980-х годах эта система выиграла чемпионат мира по нардам, а недавно позволила DeepMind создать многофункциональную нейронную сеть, способную играть в разного рода видеоигры вроде Super Mario или Tetris10. Достаточно задать пиксели изображения в качестве входных данных, возможные действия в качестве выходных данных и очки в качестве функции вознаграждения. Всему остальному машина научится сама. Играя в Tetris, она обнаружит, что на экране отображаются разные фигуры, что падающая фигура важнее остальных, что те или иные действия могут изменить ее ориентацию и положение в пространстве и так далее, – а затем выработает оптимальную тактику. В Super Mario изменения входных данных и вознаграждений учат машину обращать внимание на совершенно иные параметры: какие пиксели образуют тело Марио, как он движется, где находятся враги, как выглядят стены, двери, ловушки, бонусы… и как себя вести рядом с ними. Регулируя свои настройки – то есть миллионы связей, соединяющих слои, – сеть может адаптироваться ко всем типам игр и научиться распознавать формы Tetris, Pac-Man

Примечания

1

Оскар Рибейру ди Алмейда ди Нимейер Суарис Филью (1907–2012) – латиноамериканский архитектор XX века, один из основателей современной школы бразильской архитектуры. (Прим. перев.)

2

В современной переводной литературе английский термин circuit переводится по-разному – «сеть», «цепь», «связь», «ансамбль», «контур», «комплекс», «система», «путь» и пр., хотя для всех этих структур в английском языке существуют свои термины. В настоящей книге мы будем использовать вариант «нейронная сеть», понимая под ней совокупность живых нейронов, соединенных друг с другом через синапсы и выполняющих общую функцию. (Прим. перев.)

3

Homo docens (лат.) – букв. Человек обучающий. (Прим. перев.)

4

На данный момент в науке нет однозначной точки зрения на этот счет. Ряд авторов предполагает, что активно обучают своих детенышей как минимум некоторые виды млекопитающих; возможно, и другие животные. См., например: Alem, S., Perry, C. J., Zhu, X., Loukola, O. J., Ingraham, T., Søvik, E., & Chittka, L. (2016). Associative mechanisms allow for social learning and cultural transmission of string pulling in an insect. PLoS Biology, 14(10), e1002564. (Прим. научн. ред.)

5

In silico (лат. «в кремнии») – термин, обозначающий компьютерное моделирование эксперимента; создан по аналогии с in vivo и in vitro. (Прим. перев.)

6

In vivo (лат. «внутри живого организма», «внутри клетки») – латинский термин, обозначающий проведение экспериментов на живом организме. (Прим. перев.)

7

Cпор о tabula rasa является одним из старейших споров в философии и связан с представлением о том, рождаются люди с уже заложенными в них индивидуальными различиями или нет. (Прим. научн. ред.)

8

Plastovski – слово с нетипичным для английского языка окончанием; swoon («обморок») и wistful («задумчивый») – типичные английские слова; dragostan – слово, отсутствующее в английском языке, но имеющее допустимый для английского языка фонетический и морфологический состав. (Прим. перев.)

9

Русский язык принадлежит к группе языков с таким же порядком слов, что и английский. Такая группа языков называется SVO (от англ. Subject – Verb – Object). Однако в русском языке – так же как, например, в финском или венгерском – этот порядок не подчиняется столь же жестким правилам, как в английском. (Прим. научн. ред.)

10

Вы можете проверить свой словарный запас (а также внести вклад в науку) с помощью интернет-ресурса – https://myvocab.info/

Как мы учимся. Почему мозг учится лучше, чем любая машина… пока - Чечина Алиса А. 5 стр.

Примечания

1

2

3

4

5

6

7

8

9

10

Меню