Модели информации и данных. Атом и универсум информации - Горбачев Александр Михайлович 2 стр.


– доступность. Информация, хранящаяся на компьютере доступна 24 часа в сутки 365 дней в неделю.

– надежность. Как говорит один из законов Мэрфи «Компьютеры ненадежны, но люди еще ненадежнее». Это свойство является следствием из принципов доступности и определенности структур данных.

– определенность структур данных. Компьютерная система должна позволять проанализировать себя пользователю. Внутренние механизмы компьютера должны быть понятны и прозрачны, то есть анализируемы. Напротив, форма хранения знаний человеком неопределенна. Механизмы хранения знаний человеком непрозрачны и недоступны для получения извне.

Разумеется, невозможно сравнивать компьютер и человека. Такое сравнение неизменно напоминает анекдоты вроде «чем девушка отличается от телевизора…» или же «чем отличаются орехи от мужа…». Тем не менее, использование универсальной информационной системы может дать следующие возможности:

– создание гибких и динамических систем принятия решения/управления некоторыми процессами и данными,

– выявление неочевидных связей между данными,

– существенное снижение затрат на программирование систем,

– создание баз знаний, модифицирующихся структур данных и самоорганизующихся процессов в информационных системах,

– существенное упрощение получения, интерпретации и формирования данных при взаимодействии системы с другими системами и с окружающим миром.

Реализация этих обширных планов невозможна без участия двух составляющих системы – данных и процессов, реализующих обработку данных. Эта пара реализует дуализм в информационных системах, выражающих статику и движение, соответственно. Модели данных, используемые на сегодняшний момент, не позволяют в достаточной степени удовлетворить требованиям, которые предъявят интеллектуальные информационные системы к этим моделям в силу множества ограничений по гибкости, заструктурированности и пр. Эти ограничения будут рассмотрены ниже. Получается, что жесткая структура данных, распространяет свое статическое влияние на процессы. Системам непременно потребуется новая модель данных, не отрицающая устоев существующих структур данных, но предлагающая принципиально новые подходы. Такая модель и является целью настоящей книги.

К сожалению, в теориях, описывающих глобальное взаимодействие множества агентов (независимых участников какой-либо системы, среды или социума) часто прослеживается идея «интеллектуального супа» или самозарождения жизни. Например, к таковым относятся макроэкономические теории, а в особенности теории, связанные с интеллектуальными технологиями. Некоторые теории предполагают, что достаточно создать некоторые начальные условия и структуры, и по прошествии некоторого времени мы сможем получить саморазвивающуюся интеллектуальную систему без дополнительных усилий по созданию такой системы. Такие теории считают, что для создания интеллектуальной системы достаточно создать «первичный бульон», а готовая система будет самостоятельным результатом эволюционных факторов и внешних влияний.

Анализ результатов работы подобных подходов говорит, что на практике в результате работы таких моделей никаких реальных результатов не появляется. «Интеллектуальный бульон» остаётся лишь набором ингредиентов, если только его не поражает гниль и плесень. Жизнь или не рождается сама, или ситуация с самостоятельным зарождением жизни похожа на теорему о бесконечных обезьянах («абстрактная обезьяна, ударяя случайным образом по клавишам пишущей машинки в течение неограниченно долгого времени, рано или поздно напечатает любой заданный текст»). Зато чаще всего такие декларации говорят о том, что теория недостаточно проработана и там, где теоретически должна зародиться самостоятельная жизнь, представления самих авторов теории о том, что же конкретно должно произойти в том месте, заканчиваются.

В этой книге я постараюсь ограничить себя от подобных недоработок.

Ограничения

Область действия интеллектуальных систем чрезвычайно широка – от распознавания текстов и речи до роботизированных систем.

Большая часть систем ориентирована на коммуникацию с человеческими системами – с письменностью, устной речью, лексическим анализом и пр. Обычно они производят наиболее яркое впечатление при демонстрации. Робот, моделирующий поведение человека вызывает ощущение, что перед тобой человек. В большинстве же случаев такая реализация – это не более чем моделирование отдельных составляющих человека, которые теряют смысл без всех прочих неотъемлемых частей, таких как коммуникация, хранение информации и пр.

В этой книге я сосредоточусь в большей степени на низкоуровневых механизмах, которые как раз позволят связать подходы естественного анализа, такие как логика, механизмы обучения, формирование потребностей, с техническими основами, такими как управление операциями и системы управления базами данных.

Вследствие этого все остальные части общей системы, будут отодвинуты на второй план как менее значимые. Например, всё взаимодействие с человеком будет рассматриваться на уровне традиционных экранных интерфейсов, а вопросы синтаксического анализа, например, анализ падежей и других конструкций языка, будут опущены как производные.

Картина мира

Агенты

Прежде чем переходить к частным вещам, таким как идентификация данных или связь лексических единиц, рассмотрим системы с точки зрения макро-элементов. То есть, рассмотрим среду, в которой существует информация, данные и информационные процессы. Это необходимо для определения этимологии информации, определения общих правил её распространения и для получения обобщенного взгляда на информационные процессы.

Так же, как и в окружающем нас мире, в интеллектуальных системах можно выделить несколько принципов, которые влияют на взаимодействие систем на макро-уровне. Разумеется, можно не брать во внимание это общее представление, абстрагироваться от него. В таком случае мы упростим систему, и тогда она будет ограничена только поставленными перед ней задачами обработки данных, и не будет ориентироваться на коммуникацию с внешними системами. В таком случае внешние системы, и как частный случай этих систем – человек, должны будут подстраиваться под эту систему, которая в свою очередь дистанцируется от взаимодействия с другими системами. Такая система, очевидно, будет похожа на образец систем 60-х годов прошлого века. В частности, Норберт Винер в своей «Кибернетике» писал: «В идеальную вычислительную машину все данные надо вводить сразу же в начале работы, и затем до самого конца она должна по возможности быть свободна от человеческого вмешательства. Это значит, что машина должна получить в начале работы не только все числовые данные, но и все правила их соединения, в виде инструкций на любую ситуацию, которая может возникнуть в ходе вычислений.» [1]. Для любого современного пользователя программных систем этот подход выглядит более чем анахронично в силу своей чрезвычайной закрытости и отсутствия интерактивности.

Мы же рассматриваем систему, которая должна иметь возможность постоянно развиваться, и которая будет способна к универсальности в выполнении задач. Под универсальностью понимается их возможность встраиваться в общую экологическую систему своего существования (общество).

Именно универсальность в интеллектуальных системах является наиболее ценным свойством, она означает наибольшую гибкость системы, её способность, с одной стороны, улавливать, воспринимать, распознавать, усваивать внешние данные и, с другой стороны, формировать ответы, реакции, генерировать информацию и действия, которые вписываются в общепринятую структуру знаний. Общепринятая структура знаний – это система понятий, терминов, методов и теорий, принятых в обществе.

Как видно из определения, основными свойствами системы являются коммуникативные способности в социуме. Другими словами, рассматривается не какая-то расчетная функция, не интеллектуальный механизм, а способность коммуницировать в общей среде. В то же время, отдельный элемент системы, обладающий только коммуникативными свойствами, является вырожденным, поскольку не несет в себе никакой ценности, связанной с выборкой, хранением, структурированием и анализом информации. Однако «разум в себе», не имеющий достаточных коммуникативных качеств, также является вырожденной системой. Но и так же можно сказать, что невозможно поддерживать приемлемый уровень коммуникации без обработки информации. В частности, система не сможет ответить на вопросы к ней, если у неё не будет хранилища информации, системы выборок информации и т. п.

В качестве примера, газеты с объявлениями или доски объявлений можно рассматривать не более чем как обособленные коммуникативные системы. Однако и газеты рекламных объявлений, и другие способы коммуникации структурируют и формализуют информацию – через формат газеты, рубрики и разделы, формат объявлений.

Для рассмотрения «общества» интеллектуальных систем наилучшим образом подходит теория многоагентных систем (МАС, multi-agent system). Это система, которая образована несколькими взаимодействующими интеллектуальными агентами. Интеллектуальный агент – это некоторая сущность, наблюдающая за окружающей средой или действующая в ней. Такой агент может быть роботом, программной системой, человеком и пр. Коммуникативная часть является определяющей, однако раз мы исследуем компьютерные системы, большее внимание мы будем обращать на агентов как на программные системы.

Агенты разделяются на агентов с простым поведением, агенты с модельным поведением, целенаправленные агенты, практичные агенты, обучающиеся агенты и т. д.

В теории мультиагентных систем отдельно выделяются субагенты. Субагент – это часть агента, которая может быть выделена в специализированную подсистему. Так, существуют:

– временные субагенты для принятия оперативных решений,

– пространственные агенты для взаимодействия с реальным миром,

– обучающие агенты и т. д.

Субагенты могут быть различного назначения, и в большей степени они разделяются исходя из процессов и архитектуры самого агента.

Агенты в многоагентной системе должны иметь несколько важных характеристик:

– автономность,

– ограниченность представления. То есть, ни у одного агента нет представления обо всей системе,

– децентрализованность, то есть, в системе нет агентов, управляющей всей системой.

В многоагентной среде отдельные агенты имеют возможность получать и формировать информационные поля в виде сообщений между собой. Не обязательно, что все агенты являются равными по ролям, по правам, по возможностям, по зависимостям друг от друга, по доступности или открытости взаимодействия с другими агентами. Например, в многоагентной среде наравне с интеллектуальными агентами могут существовать агенты для обмена данными, такие как поисковые сервера, публичные хранилища для обмена данными и для получения данных.

Агенты как черный ящик

В многоагентной среде на первый план выходит взаимодействие между агентами. И на второй план отходит реализация этих агентов. Главное, чтобы агенты поддерживали общепринятый протокол обмена информацией, а как устроены эти агенты внутри и из чего они состоят, по большому счету, не имеет значения.

Таким образом, агенты предстают перед нами в виде черного ящика. Мы знаем, что они общаются с нами, но не знаем, кто они такие, какие механизмы обработки данных лежат в их основе, какую информацию они хранят в себе.

Большое количество современных программ и отдельных обработок в программах представляется нам аналогичным образом. Они являются закрытыми: на их входе существует некоторое количество исходных данных, на выходе – некоторый результат. С развитием интерактивных программ, некоторые обработки в рамках программных систем становятся еще менее прозрачными для пользователя, поскольку ему не всегда понятно, какие данные системы являются исходными для обработки, куда сохраняется результат и почему получился именно такой результат. Например, при расчете остатка дней отпуска сотрудника в системе управления персоналом система может брать (или не брать) в расчет дату приема сотрудника, признак ненормированного рабочего дня, отпуска, взятые за свой счёт более 7 дней, отпуска по уходу за ребенком. Количество параметров столь велико, что нельзя быть уверенным, что процедура расчета полностью возьмет все из них, и корректно рассчитает количество дней права на отпуск. Результатом работы такой процедуры является остаток дней. Но система может их хранить в нескольких таблицах (например, по рабочим годам сотрудника и общее количество дней в целом). И нет никакой гарантии, что процедура расчета верно запишет результаты во все таблицы, и что данные в этих таблицах будут непротиворечивы. Поскольку данные хранятся во внутренних таблицах системы, проверить их простому пользователю практически невозможно (лишь используя специальные отчеты) так же, как и невозможно проверить правильность работы процедуры – от параметров до логики.

Тем не менее, принцип «черного ящика» хорош, если мы хотим абстрагироваться от существа обработок, и сосредоточиться на вопросах коммуникации между системами, либо на вопросах предоставления и получения некоторой информации. Этот принцип может быть полезен при отделении части процессов на уровень субагентов. При проектировании систем содержимое «черного ящика» обычно заменяется элементарным (простейшим) процессом или заглушкой.

Тест Тьюринга

Поскольку агенты определяются именно своими коммуникационными способностями, в этом контексте невозможно не упомянуть тест Тьюринга. Кроме того, в этой главе я хочу определиться со своим отношением к общему понятию искусственного интеллекта.

Основную идею общего понятия «искусственный интеллект» в 1950 году сформировал Алан Тьюринг, автоматически став его основоположником. В журнале Mind Тьюринг описал тест на интеллект. Тест основан на взаимодействии человека (следователя) и компьютера. Общение происходит в изолированных комнатах посредством компьютерного терминала. Следователь задает вопросы и получает ответы от своего собеседника. Следователь не знает, общается он с человеком или с компьютером. Смысл теста Тьюринга заключается в том, чтобы признать, что компьютер обладает интеллектом, если следователь не смог раскрыть компьютер в качестве собеседника.

Конечно, по прошествии почти 60 лет будет неправильно говорить о корректности замещения определения «разумности» определенным тестом. До сих пор ни одна машина не в состоянии пройти тест Тьюринга. Но нужно ли проходить этот тест?

Назад Дальше