Хранилища данных
Идея хранилищ данных (Data Warehouse) впервые была предложена Б. Инмоном. Сейчас аналитикам многих западных компаний уже трудно представить, как они обходились с дезинтегрированными ресурсами различных баз данных, созданных в различные периоды времени в разных организациях с применением различных технологических платформ… Однако теперь, после внедрения технологии хранилищ данных, столь удачно сочетающейся с концепцией оперативной аналитической обработки данных (OLAP), эти различия перестали быть ощутимыми для потребителей. Хранилища данных прочно заняли одно из почетных мест в инструментарии аналитика. Практика построения хранилищ данных доказала необходимость переноса идеологии виртуальных таблиц, реализованной в реляционных базах данных, на крупномасштабные приложения и развития ее до технологии витрин данных (Data Mart), позволяющих сделать прозрачным доступ к данным, хранимым в технологически неоднородных средах.
За прошедшее десятилетие было разработано около десятка различных архитектур корпоративных информационных систем на основе хранилищ и витрин данных, предназначенных для поддержки принятия решений и аналитических исследований. В создании крупных хранилищ данных лидируют такие фирмы, как IBM, Informix, NCR, Oracle, Red Brick, SAS, Sybase.
С другой стороны, следует понимать, что хранилища данных также используют и объектную идеологию, однако на уровне доступа к макроресурсам, а не отдельным записям баз данных. Основная их задача - организация прозрачного доступа к данным, размещенным в БД, функционирующих под управлением различных СУБД (в том числе, и таких, которые реализованы в соответствии с разными парадигмами). По существу, хранилище данных - это система более высокого уровня, нежели база данных, такая система могла бы назваться базой баз данных. В нем (в хранилище) содержатся объектные описания правил манипулирования информационными объектами включенных в хранилище БД, а также метаданные, описывающие систему логических отношений между объектами учета и их атрибуты.
Использование хранилищ данных в качестве надстройки над системой взаимосвязанных баз данных позволяет преодолеть ограничения парадигм частных СУБД за счет введения систем параллельного учета, разделения объектов учета между СУБД, наилучшим образом приспособленными к решению тех или иных задач, связанных с хранением и анализом данных.
Информационные ресурсы распределенных телекоммуникационных сетей
Таким образом, мы логично переходим к технологии распределенного хранения данных с централизованным управлением на основе единой политики информационной безопасности, единого интерфейса доступа и отображения информации на базе распределенных телекоммуникационных сетей. Это идеальный вариант, предполагающий, что все информационные ресурсы принадлежат единой организационной системе, в которой реализованы корпоративные стандарты представления данных и организации информационного взаимодействия. Но существует и иной вариант организации корпоративного информационного ресурса и именно этот вариант на сегодня является наиболее распространенным…
Противоположность идеалу организации корпоративного информационного ресурса являет дезинтегрированный информационный ресурс распределенных телекоммуникационных сетей, образующийся в результате стихийного процесса генерации информации множеством организационно не связанных индивидов. Примером такого варианта хранения данных является ГСТК Интернет. В такой системе особую важность представляют процедуры мониторинга ресурсов их индексации и систематизации. Неслучайно в Интернет существует такое обилие информационно поисковых серверов, предоставляющих различные поисковые интерфейсы.
Такое специфическое информационное пространство живет по законам самоорганизации сложных систем: динамично возникающие и распадающиеся группы и сообщества энтузиастов, более стабильные корпоративные ресурсы профессиональных и научных сообществ, представительские порталы крупных коммерческих и государственных учреждений - все эти ресурсы принципиально не могут быть исполнены в соответствии единым правилам. Единообразие присутствует лишь на уровне группы телекоммуникационных стандартов - остальное же обусловлено неповторимостью сочетания целей, задач и ситуации, в которой пребывают лица и организации, предоставляющие в общее пользование принадлежащие им ресурсы.
Тем не менее, возникновение некоторой группы (пусть даже временной) приводит к выработке если не стандарта, то, хотя бы, некоторого корпоративного стиля. Здесь могут вырабатываться некие правила формализации данных, их логической и физической организации. Темпы пополнения и модификации ресурсов варьируются в широчайших пределах. Как следствие, при сборе информации, а по сути - обслуживании такого неструктурированного хранилища данных, основной упор делается на технологии, экономно использующие ресурсы полосы пропускания каналов связи и ресурсы производительности машины, осуществляющей сбор информации. Представьте себе, что бы стало, если бы на вашем компьютере одновременно запустилось несколько сотен вычислительных процессов, которые, используя канал связи, стали бы загружать из сети на ваш компьютер доступные файлы, выполнять статистические расчеты для составления индексных таблиц, после чего стирать загруженные по каналам связи файлы. Сюрреализм, да и только… при такой технологии каналы связи были бы перегружены запросами поисковых серверов. Поэтому поисковые программы (именуемые поисковыми роботами) исполняются непосредственно на тех компьютерах, на которых расположены ресурсы, которые требуется проиндексировать. Процесс отправки инициируется на поисковом сервере, код программы-робота направляется на удаленный компьютер, там под управлением его операционной системы запускается на исполнение, а результат обработки направляется на поисковую машину. Правда, некоторые поисковые машины в часы спада нагрузки все же выполняют процедуры загрузки файлов из сети с последующим их сохранением в своей подсистеме хранения.
Следует заметить, что такие разобщенные ресурсы не являются исключительным атрибутом больших телекоммуникационных сетей. Они присутствуют и в большинстве сетей масштабов организации - отсутствие дисциплины информационной работы приводит к дестандартизации представления данных, нарушению корпоративной информационной политики, что чаще всего бывает вызвано несовершенством схемы и технологии информационной работы в организации и низкой квалификацией сотрудников. Характерно, что вирусным атакам чаще всего подвергаются именно эти - неорганизованные ресурсы. К сожалению, должностные лица, в ведении которых находятся вопросы соблюдения информационной политики организации, редко вспоминают о феномене существования дезинтегрированного информационного ресурса (откуда, мол, ему быть в локальной вычислительной сети). В результате из-за напластований фрагментов и версий документов происходит снижение темпов деловых процессов, прекращается пополнение корпоративных информационных ресурсов, что приводит к снижению эффективности информационной работы в целом.
Возникновение и рост дезинтегрированного информационного ресурса в малой организации является тревожным симптомом - он говорит о снижении квалификации, отсутствии трудовой дисциплины, неудобстве или устаревании автоматизированных систем поддержки информационной работы или снижении доверия к надежности подсистемы хранения данных. Поэтому в локальной вычислительной сети организации также целесообразно проводить периодическое сканирование рабочих мест на предмет индексации локальных ресурсов, устранения дублирования, а также выявления узких мест в организации и технологическом обеспечении информационной работы.
Базы знаний и моделей
Особый класс систем хранения данных представляют собойбазы знаний и моделей. Если до обращения к тематике объектных и объектно-реляционных баз данных речь шла преимущественно о структурной декомпозиции объектов описания и выделении статических атрибутов, то базы знаний и моделей помимо этих аспектов выделяют и временной аспект функционирования систем и объектов учета. Этот класс систем хранения данных ориентирован на хранение данных о логике причинно-следственных отношений, функциональных зависимостях и иных параметров, в той или иной степени связанных с временем.
Основная задача баз знаний и баз моделей - хранение логически организованной информации, обеспечивающей возможность с применением логического аппарата и системы аксиом различного рода сформулировать вывод о состоянии, тенденции или характеристиках процесса. При этом аксиомы, хранимые в базе знаний или базе моделей, могут носить как характер абсолютных утверждений, так и вероятностных суждений относительно некоторых сущностей и процессов, иметь общую значимость или быть истинными лишь для некоторого класса начальных условий.
Существуют разные подходы к построению баз знаний. Наиболее типичными подходами (моделями представления знаний) являются логические, сетевые, продукционные и фреймовые модели.
Логические модели представления знаний формируются из следующих компонентов:
- множество базовых терминов (например, имен объектов, действий и т. п.);
- множество аксиом (синтаксически и семантически корректных высказываний из базовых терминов);
- множество методов вывода из множества аксиом синтаксически и семантически корректных высказываний;
- множество методов соотнесения терминов с входными терминами;
- множество методов построения синтаксически корректных высказываний из терминов;
- множество методов установления факта принадлежности синтаксически корректных высказываний к множеству синтаксически и семантически корректных высказываний.
Сетевые модели представления знаний формируются из следующих компонентов:
- множество информационных единиц;
- множество типов связей между информационными единицами (временные, причинно-следственные, родо-видовые и т. п.);
- множество связей между информационными единицами.
Такие модели получили название семантических сетей, среди которых, в зависимости от типов связей, принято выделять классифицирующие, функциональные сети, сценарии и семантические сети, не специализированные по типу отношений.
Продукционные модели представления знаний формируются из следующих компонентов:
- семантическая сеть;
- множество правил вывода (продукций).
Такие модели вместо логического вывода на множестве аксиом используют вывод на знаниях.
Фреймовые модели представления знаний формируются из компонентов типа "фрейм". Фрейм представляет собой структуру данных, включающую имя фрейма, имя слота (слотов), значение слота (слотов). На тип значения слота ограничений практически не налагается - ими могут быть числа, математические соотношения, тексты на естественном языке, программы, правила вывода или ссылки на другие слоты данного фрейма или других фреймов. Как следствие, из фреймов может быть построена сложная многосвязная структура, отражающая знания о некоторой предметной области.
В качестве технологической платформы для построения базы знаний могут быть избраны навигационные, реляционные и объектные базы данных, языки гипертекстовой разметки, программы, разработанные на языках логического программирования и обработки символьных данных и программы, разработанные на языках программирования общей семантики. Выбор технологической платформы может быть продиктован как спецификой хранимых знаний, так и наличествующим у разработчика инструментарием (не говоря о требованиях к быстродействию, уровню конфиденциальности знаний и т. д.).
9.3 Экспертные системы
Эксперты высокого класса не всегда есть под рукой, их опыт всегда специфичен, да и ротацию кадров следует учитывать. Технология же экспертных систем позволяет улучшить (если не исправить) ситуацию в кадровой сфере, а также оптимизировать работу экспертов высокого класса, переложив решение рутинных проблем на "плечи" автоматизированных систем. Поэтому экспертные системы нашли широкое применение в современной аналитике. Заметим, что экспертные системы являются инструментом, способным оперировать, в том числе, и знаниями, еще не прошедшими процедуру научного обобщения и формализации - кроме экспертных систем это может делать только человек. К этому следует прибавить, еще и то, что способности человека по оперативному извлечению необходимых знаний и данных из памяти ограничены и подвержены влиянию целого ряда внешних условий (например, стрессовые ситуации, колебания физических параметров среды обитания и т. п.).
В качестве иллюстрации к последнему утверждению приведем курьезный пример. В 1990-е годы в Италии провели интересный эксперимент: специально отобранной группе девушек были предложены для решения два идентичных задания, первое из которых они решали, будучи одеты в одежду делового стиля, а второе - в бикини. Второе задание было решено с чуть ли не в два раза худшими результатами, чем первое. А ведь это всего лишь изменение стиля одежды… Чего же ожидать от человека, если поместить его в действительно экстремальные условия?
В последние десятилетия направление экспертных систем (ЭС) оформилось в самостоятельную (и весьма прибыльную) отрасль теоретических и прикладных исследований в рамках теории искусственного интеллекта. Правда, в силу действия модных течений название специалистов, работающих в этой области, несколько раз менялось: то их именовали специалистами по интеллектуальным технологиям, то инженерами знаний, то когнитологами. Сейчас на западе в ходу термин Knowledge Management (управление знаниями), соответственно, поменялось и название специальности.
Целью деятельности этих специалистов является создание программ и устройств, использующих знания и процедуры вывода для решения задач в заданной предметной области. ЭС не только реализуют заранее разработанные алгоритмы решения задач, но способны самостоятельно вырабатывать "новые" алгоритмы решения возникающих задач.
Следует выделять два направления работ в этой отрасли: направление создания инструментальных средств для создания экспертных систем (программных оболочек экспертных систем) и направление собственно создания ЭС, наполненных конкретными знаниями в некоторой предметной области.
В настоящее время ЭС применяются в различных областях человеческой деятельности. К числу уже устоявшихся, апробированных в научно-исследовательской и деловой практике, можно отнести экспертные системы медицинского, технологического, юридического назначения, экспертные системы, ориентированные на поддержку процессов проектирования в архитектуре, электронике и электротехнике, разработки программного обеспечения, а также в военных приложениях. Их характерной особенностью является то, что они разработаны для тех отраслей человеческой деятельности, в которых проявляются устойчивые закономерности, описания которых и подвергается формальному представлению в базе знаний. Перечислим ряд экспертных систем, принадлежащих к различным отраслям деятельности человека:
- MYCIN- в области медицины;
- Rational Rose - в области разработки программного обеспечения;
- ArchiCAD - в области архитектурного проектирования;
- P-CAD, Or-CAD - в электронике и электротехнике и многие другие.
В зависимости от типов решаемых задач, экспертные системы можно разделить на следующие классы: системы классификации и распознавания объектов, интерпретации данных, диагностики, проектирования, прогнозирования, планирования, мониторинга, отладки, обучения и управления.
Для взаимодействия с пользователем могут использоваться интерфейсы, обеспечивающие взаимодействие с пользователем на подмножестве естественного языка, графические средства, шаблоны ввода/вывода и формальные знаковые системы. При этом интерфейсом могут предусматриваться режимы консультации потребителя, комментария к выводам (объяснение), обучение пользователя правилам из базы знаний и коррекции содержимого базы знаний.
Как явствует из предыдущего предложения, экспертные системы в качестве своего ядра имеют именно базы знаний, построенные в соответствии с одной из описанных нами моделей представления знаний или по комбинированной схеме.
9.4 Системы искусственного интеллекта и интеллектуального анализа данных
Мы уже указывали на существование "родства" между экспертными системами и теорией искусственного интеллекта. Эта отрасль современной науки, в свою очередь "отпочковалась" от кибернетики и постоянно подпитывается ее идеями, впрочем, теория систем искусственного интеллекта (ИИ) многими своими достижениями обогатила кибернетику. Но кибернетика рассматривает процессы управления и в искусственных, и в естественных системах, в то время, как теория ИИ "вынужденно" исследует естественные системы, поскольку ставит перед собой цель создания "мыслящей" искусственной системы.
При проектировании систем искусственного интеллекта их создатели исходят из соображений, что "способ мышления" системы искусственного интеллекта не обязательно должен копировать способ мышления человека и строение его "мыслительного инструмента". Однако, как бы ни далеки по своему устройству были системы искусственного интеллекта от систем естественных, они вынужденно копируют и используют те закономерности мыслительной деятельности, которые были открыты человеком.