Эволюция разума - Курцвейл Рэймонд 19 стр.


Ватсон действует по такому же принципу. Используя архитектуру UIMA (Unstructured Information Management Architecture), Ватсон распоряжается буквально сотнями различных систем - многие отдельные языковые компоненты Ватсона аналогичны тем, что применяются в широко используемых системах распознавания разговорного языка, - и все они либо пытаются напрямую дать ответ на вопрос викторины, либо как минимум прояснить вопрос. UIMA выступает в роли эксперта-менеджера, разумно сочетающего результаты отдельных систем. UIMA превзошла более ранние системы (включая разработанные нами еще до создания компании Nuance) в том, что составляющие ее системы могут участвовать в получении результата, даже если не пришли к финальному ответу. Достаточно, чтобы подсистема помогла найти путь к ответу. Кроме того, UIMA может рассчитать степень собственного доверия к полученному ответу. Человеческий мозг тоже это делает: обычно вы совершенно уверены в ответе, если у вас спросят, как зовут вашу мать, но гораздо менее уверены, если речь идет о человеке, которого вы видели один раз год назад.

Таким образом, вместо того чтобы разработать единственный путь разрешения речевых проблем, возникающих при ответах на вопросы "Джеопарди!", специалисты из IBM объединили все имевшиеся на тот момент модули распознавания речи. В некоторых используются иерархические скрытые модели Маркова, в других - заранее сформулированные языковые правила, кодирующие основной массив языковых данных. UIMA оценивает эффективность каждой системы в каждом случае и оптимальным образом объединяет результаты. Важная роль UIMA, которую подчеркивают создавшие ее специалисты из IBM, вызывает определенное недопонимание, возникающее при обсуждении способностей Ватсона. Некоторые зрители полагают, что Ватсон на самом деле не понимает речь, поскольку трудно сказать, в каком модуле происходит это "понимание". Но хотя UIMA тоже обучается на своем собственном опыте, "понимание" Ватсоном языка происходит не только благодаря ей, но распределено по всем многочисленным модулям, включая самоорганизующиеся языковые модули, действующие по методам, аналогичным ИСММ.

Отдельная часть системы использует произведенную UIMA оценку достоверности ответа Ватсона для заключения пари. Хотя Ватсон специфическим образом оптимизирован именно для этой игры, его базовые знания и технология поиска новых знаний легко могут быть адаптированы для решения более широкого круга задач. Возможно, некоторые думают, что машине сложнее будет управляться с менее общими и более узкопрофессиональными данными (например, в сфере медицины), чем с "общими" знаниями, требующимися для игры в "Джеопарди!" На самом деле ситуация как раз противоположная. Профессиональные знания упорядочены в гораздо большей степени, лучше структурированы и менее двусмысленны, поэтому с помощью той же самой технологии вполне можно достичь точного понимания языка в подобных специфических областях. Я уже упоминал, что в настоящее время IBM и Nuance совместно трудятся над адаптацией Ватсона для работы в сфере медицины.

Диалог с Ватсоном во время викторины короткий: ему задают вопрос, он дает ответ. Он не вовлекается в разговор, в котором были бы упомянуты все предыдущие высказывания всех игроков. (А вот Сири в какой-то степени это делает: если вы попросите ее отправить сообщение вашей жене, она в первый раз попросит ее назвать, но после этого запомнит.) Проследить за всей информацией, упомянутой в ходе разговора (что, безусловно, было бы необходимо для прохождения теста Тьюринга), - серьезное дополнительное требование, но выполнить его, по сути, не сложнее, чем то, что Ватсон уже умеет делать.

В конце концов, Ватсон прочел миллионы страниц текста, включая многочисленные истории, так что он способен наблюдать за запутанными последовательностями событий. Таким образом, он сможет следить за собственными ответами и учитывать их в последующих турах викторины.

Еще одно ограничение викторины заключается в том, что ответы обычно очень короткие. Например, игроков не просят перечислить пять основных сюжетных линий "Повести о двух городах". Для обсуждения таких вопросов нужна несколько иная версия Ватсона. Самостоятельно выявить главные темы книги, не копируя чужие мысли (даже без слов), это совсем другая задача, гораздо более сложная, чем те, которые сейчас умеет решать Ватсон; я бы назвал эту задачу тестом на уровне теста Тьюринга. (Говоря это, я хочу подчеркнуть, что большинство людей при решении подобной задачи воспользуются не собственными мыслями, а скопируют уже готовые идеи.) В любом случае, 2029 г. еще не наступил, так что я пока не ожидаю появления машинного разума, способного пройти тест Тьюринга. Кроме того, я хочу отметить, что оценка ответов на такие вопросы, как выявление ключевых идей литературного произведения, сама по себе не является очевидной задачей. Если спрашивают, кто подписал Декларацию независимости, верность ответа оценить легко. С более сложными понятийными вопросами дело обстоит намного сложнее.

Нужно сказать, что, хотя языковые навыки Ватсона в настоящее время слабее, чем у образованного человека, он смог одолеть двух лучших игроков в "Джеопарди!" Ему помогло сочетание лингвистических возможностей и многочисленных познаний человечества с очень точной памятью машины. Вот почему мы уже передали компьютерам значительную часть наших персональных, социальных и исторических воспоминаний.

Я не готов передвинуть мой прогноз о прохождении компьютером теста Тьюринга с 2029 г. на более раннюю дату, однако прогресс, который достигнут в создании подобных Ватсону машин, вселяет уверенность, что вскоре появятся компьютеры с ИИ уровня теста Тьюринга. Если бы кто-то специально занялся созданием версии Ватсона, оптимизированной для прохождения теста Тьюринга, возможно, такая машина появилась бы совсем скоро.

Американский философ Джон Серль (род. в 1932 г.) недавно заявил, что Ватсон не способен думать. Опираясь на свой мысленный эксперимент "Китайская комната" (я расскажу о нем в одиннадцатой главе), он утверждает, что Ватсон лишь манипулирует символами, но не понимает их смысла. На самом деле, Серль неточно описывает Ватсона, поскольку понимание Ватсоном языка основано не на манипуляции символами, а на иерархическом статистическом процессе обучения. Характеристика Серля верна лишь в том случае, если рассматривать каждую стадию самоорганизующегося процесса как "манипуляцию символами". Но если это так, то и человеческий мозг нельзя назвать мыслящим.

Забавно, когда Ватсона критикуют за то, что он всего лишь выполняет статистический анализ языка, но не владеет "истинным" пониманием человеческой речи. Иерархический статистический анализ - это именно то, что делает человеческий мозг, разбирая несколько гипотез на основе статистических выводов (на каждом иерархическом уровне новой коры). И Ватсон, и человек обучаются и отвечают на вопросы на основании одного и того же иерархического подхода. Во многих отношениях знания Ватсона намного обширнее человеческих; ни один человек не может утверждать, что прочел всю "Википедию", которая составляет лишь часть базы данных Ватсона. Напротив, человек пока еще может справляться с более сложными понятийными задачами, чем Ватсон, но этот пробел вскоре закроется.

Важной системой, демонстрирующей мощь применения компьютерных возможностей для обработки организованных баз знаний, является программа Wolfram Alpha. Эта отвечающая программа (в отличие от поисковой программы) разработана британским физиком и математиком Стивеном Вольфрамом (род. в 1959 г.) и его коллегами из компании Wolfram Research. Если вы спросите Wolfram Alpha (на сайте WolframAlpha.com) сколько существует простых чисел меньше миллиона, она ответит: "78 498". Этот ответ программа не отыщет, она его вычислит и после ответа выдаст вам уравнения, которыми пользовалась. Если вы попытаетесь получить ответ с помощью обычных поисковых программ, они направят вас к сайтам, где вы найдете нужный алгоритм. Далее вам потребуется загрузить эти формулы в программу типа "Математика" (также созданную Вольфрамом), но на это уйдет гораздо больше времени (и усилий), чем просто обращение к Wolfram Alpha.

Программа Wolfram Alpha содержит 15 млн строк кода "Математики". Ее функция заключается в расчете ответа на основании примерно 10 трлн байт данных, тщательно подобранных сотрудниками Wolfram Research. Программе можно задать множество фактических вопросов типа "В какой стране самый высокий валовый внутренний продукт на душу населения?" (ответ: в Монако, 212 тыс. долл. США) или "Сколько лет Стивену Вольфраму?" (ответ (на момент написания книги): 52 года, 9 месяцев и 2 дня). Как я уже говорил, Wolfram Alpha используется в технологии Сири. Если вы задаете Сири фактический вопрос, она переадресует его Alpha. Кроме того, Alpha осуществляет некоторые поисковые функции для поисковой программы Bing.

Недавно Вольфрам сообщил, что Alpha дает правильный ответ в 90 % случаев. Он также указал, что число отказов сокращается вдвое каждые 18 месяцев. Это очень мощная система, которая использует созданные вручную методы и собранные вручную данные. Именно для этого мы когда-то впервые сделали компьютеры. По мере того как мы открываем и компилируем научные и математические методы, мы все шире привлекаем компьютеры, которые используют эти методы гораздо лучше, чем невооруженный человеческий разум. Большинство наших научных методов кодируется в программе Alpha параллельно с постоянно обновляемыми данными во многих областях знания - от физики до экономики. Во время нашей частной беседы с Вольфрамом он сообщил, что применение самоорганизующихся методов, подобных тому, что использует Ватсон, позволяет достигать точности 80 %. A Alpha способна на 90 % точности. Конечно же, эти значения в определенной степени субъективны, поскольку пользователи (включая меня самого) выбирают вопросы, на которые их система отвечает хорошо, и то же касается самоорганизующихся методов. Кажется, 80 % - достаточно верная оценка точности ответов Ватсона при игре в "Джеопарди!", но такой точности было довольно, чтобы он смог обыграть двух лучших игроков.

По моему мнению, такие самоорганизующиеся методы, как я описал для теории мысленного распознавания образов (ТМРО), необходимы для понимания сложной и часто неоднозначной иерархии, встречающейся в реальном мире, в том числе в человеческом языке. Идеальным сочетанием для надежной разумной системы была бы комбинация иерархического подхода, основанного на ТМРО (который, как я считаю, лежит в основе функционирования человеческого мозга), и точной кодировки научных данных. А это и есть сочетание человека и компьютера. В ближайшие годы мы усилим оба полюса. Хотя наша биологическая новая кора достаточно пластична, ее базовая архитектура имеет физические ограничения. Увеличение размеров новой коры в лобной части нашего мозга стало важной эволюционной инновацией, но теперь мы не в состоянии расширить наши лобные доли ни в тысячу раз, ни даже на 10 %. Я хочу сказать, что мы не можем сделать это биологическим путем, но мы совершим это технологически.

Как создать разум

В нашем головном мозге миллиарды нейронов, но что такое нейроны? Просто клетки. Пока между нейронами не образуются связи, мозг не обладает никакими знаниями. Все, что мы знаем, все, что мы есть, зависит от того, как связываются наши нейроны.

Тим Бернерс-Ли

Для создания разума будем основываться на тех рассуждениях, которые я привел выше. Начнем с построения распознающего модуля, отвечающего всем необходимым требованиям. Далее создадим множество копий этого модуля - столько, сколько позволяют возможности компьютеров. Каждый модуль рассчитывает вероятность распознавания соответствующего образа. При этом он учитывает наблюдаемую величину каждого входного сигнала и соотносит ее с усвоенной им величиной и ее возможной вариабельностью. Если рассчитанная величина сигнала превосходит пороговое значение, распознающий модуль активирует соответствующий аксон. Пороговое значение и параметры, учитываемые при вычислении вероятности присутствия образа, относятся к числу параметров, которые оптимизируются с помощью генетического алгоритма. Поскольку для распознавания образа не требуется активизации всех входных сигналов, это обеспечивает самоассоциативное распознавание (то есть распознавание всего образа на основании отдельных частей). Также следует учесть возможность ингибирующих сигналов (означающих сниженную вероятность присутствия образа).

В результате распознавания образа распознающий модуль посылает сигнал дальше по аксону. Этот аксон связан с одним или несколькими другими распознающими модулями на более высоком понятийном уровне. Все распознающие модули следующего уровня, к которым приходит сигнал, воспринимают этот образ как входной сигнал. Когда большая часть образа распознана, каждый распознающий модуль отсылает сигналы и на более низкий концептуальный уровень; эти сигналы дают понять, что образ "ожидается". Каждый модуль имеет один или несколько каналов для доставки сигналов ожидания. Когда такой сигнал получен, порог распознавания этого образа в данном распознающем модуле понижается (распознавание облегчается).

Распознающие модули отвечают за связывание с другими распознающими модулями выше и ниже по иерархии. Заметим, что все эти контакты в компьютерном варианте действуют через виртуальные связи (которые, как в виртуальных сетях, представляют собой просто указатели), а не через реальные контакты. Данная система гораздо более гибкая, чем в биологическом мозге. В человеческом мозге новые образы должны быть "приписаны" к реальным распознающим модулям, а между аксонами и дендритами должны образовываться реальные связи. Обычно для этого используется существующая физическая связь, имеющая отношение к данному образу, и за счет дополнительного роста аксонов и дендритов осуществляется новое взаимодействие.

Еще один механизм в биологической новой коре млекопитающих заключается в постепенной ликвидации неиспользуемых нервных связей. Для того чтобы перенастроить распознающие модули новой коры на восприятие каких-то новых образов, необходима физическая реконфигурация связей. И вновь в компьютерном варианте эта задача решается гораздо проще. Мы просто присваиваем новым распознающим модулям новую информацию и программируем новые связи. Если цифровой коре нужно перенастроить ресурсы памяти на новый набор образов, она освобождает распознающие модули от старых образов и задает новые настройки. Такой своеобразный "сбор мусора" и перераспределение памяти являются стандартным свойством многих компьютерных систем. В цифровом мозге нам также следует создать резервную копию старых воспоминаний, прежде чем удалить их из активной коры, что в нашем биологическом мозге мы сделать не в состоянии.

Существует несколько математических методов, которые можно использовать для создания самоорганизующихся иерархических распознающих модулей. Лично я по нескольким причинам предпочитаю метод скрытых иерархических моделей Маркова. Я уже несколько десятилетий пользуюсь этим методом, начиная с самых первых систем распознавания речи и понимания разговорного языка, созданных в 1980-х гг. Да и если говорить в общем, ученые, занятые распознаванием образов, имеют больше опыта в применении данного метода, чем каких-либо других. Этот метод или аналогичные ему математические методы также широко применяются для понимания разговорной речи.

Следует сказать, что не все системы, действующие по принципу скрытых моделей Маркова, являются полностью иерархическими. В некоторых предусмотрено лишь несколько уровней иерархии, например при переходе от акустического состояния к фонеме и слову. Чтобы создать разум, мы позволим системе создавать столько новых уровней иерархии, сколько понадобится. Кроме того, не все системы на основе скрытых моделей Маркова являются самоорганизующимися. В некоторых запрограммированы фиксированные контакты, однако эти системы умеют эффективно удалять многие исходные связи, присваивая им нулевой вес. В наших системах, созданных в 1980-х и 1990-х гг., происходило автоматическое удаление контактов, вес которых был ниже определенного уровня, а также формирование новых контактов для лучшего соответствия тренировочным данным и обучения. Для оптимальной организации связей с новыми распознающими модулями мы можем использовать линейное программирование.

Наша цифровая новая кора будет характеризоваться определенной степенью избыточности, особенно это относится к часто встречающимся образам. Это обеспечивает надежное узнавание распространенных образов, а также является ключевым элементом в достижении инвариантного распознавания различных форм образа. Однако нам придется установить правила для ограничения избыточности, поскольку не следует отводить слишком много места для сохранения самых распространенных образов низкого порядка.

Правила, ограничивающие избыточность, порог распознавания и связь порога распознавания с ожидаемостью образа, - примеры общих параметров, которые влияют на эффективность таких самоорганизующихся систем. Сначала мы выберем их значения интуитивно, а затем оптимизируем с помощью генетического алгоритма.

Очень важный этап - обучение мозга, как биологического, так и компьютерного. Как я уже писал, иерархическая система распознавания образов (и цифровая, и биологическая) за один момент осваивает не больше двух иерархических уровней (а скорее один). Чтобы усовершенствовать систему, я начну с предварительно обученных иерархических сетей, которые уже научились распознавать человеческую речь, печатные буквы и структуры разговорного языка. Такая система сможет читать документы, написанные разговорным языком, но за один раз по-прежнему сможет осваивать примерно один понятийный уровень. Ранее усвоенные понятия создадут достаточно прочную основу для продвижения на следующие уровни. Система может вновь и вновь обращаться к уже прочитанным документам, достраивая новые понятийные уровни при каждом следующем прочтении. Так и люди глубже понимают текст, когда читают его повторно. В нашем доступе имеются миллиарды страниц информативного материала, такого как "Википедия".

Назад Дальше