- сложные (многомерные) обычно, представляемые в виде таблиц сложной организации, где строкам и столбцам соответствуют различные классификационные признаки, например - периодическая таблица химических элементов Д.И. Менделеева;
- иерархическая (древовидная), едва ли нуждающаяся в примерах и пояснениях.
Метод классификации в том или ином виде используется при решении самых разнообразных задач, связанных со структурированием информации. Неорганизованные информационные элементы подвергаются процедурам группирования, связывания, обобщения, в результате чего структура или проявляется (при натуральной классификации), или образуется (при искусственной классификации). В книге В.Ф. Турчина "Феномен науки: Кибернетический подход к эволюции" момент смены уровня организации системы именуется метасистемным переходом (возникновения системы более высокого уровня иерархии), который и рассматривается как эволюционный процесс. Соответственно, процессы синтеза новой классификации и структурирования информации можно рассматривать, как процесс эволюции знаний. Это не означает, что в результате выполнения процедур классификации или структурирования появляется новое знание, но означает, что в результате выполнения этих процедур создается новая система управления знаниями, существенно упрощающая различные манипуляции с ними, в том числе - и поиск ранее не выявленных закономерностей и законов.
Заметим, что процедура классификации не имеет собственной ценности и приобретает ее только, если она способствует достижению некоторого комплекса целей. Созданная в результате выполнения классификационной процедуры система управления знаниями должна быть полезной - что означает, что выбор классификационных критериев не может быть произвольным, а должен осуществляться с учетом решаемой задачи. Они должны отвечать целям деятельности. При этом следует различать два вида/аспекта деятельности.
- деятельность, направленную на достижение конечной (генеральной или глобальной) цели;
- деятельность, направленную на решение задач обеспечения этой деятельности.
К последней категории может быть отнесена деятельность, направленная на решение задач построения адекватной модели предметной области, ее тезауруса, создания инструментальных средств, используемых для достижения конечной цели.
При структурировании информации должна учитываться специфика потребителя полученного информационного продукта. Иными словами, полученный информационный продукт должен отвечать требованиям к уровню детализации информации, способу ее представления и составу тезауруса, обеспечивающим оптимальный режим восприятия информационного продукта.
Ранее, при рассмотрении видов моделей и методов моделирования мы установили, что уровень формализации представления знаний может изменяться в пределах от неструктурированного текста, представленного на естественном языке (ЕЯ) до структурированного текста на некотором искусственном (формальном) языке (ИЯ). Искусственные языки могут быть построены в базисе различных формальных систем (формальной логики, теоретико-множественного, алгебраического формального аппарата и иных).
В зависимости от исходного уровня структурной организации обрабатываемых данных, могут быть выделены следующие классы задач (классы задач по уровню структурной организации информации на входе/выходе):
1. Задачи преобразования неструктурированного ЕЯ-текста в ЕЯ-текст с разбиением на рубрики;
2. Задачи преобразования ЕЯ-текста с разбиением на рубрики в структурированный ЕЯ текст с элементами логического формализма;
3. Задачи преобразования структурированного ЕЯ текста с элементами логического формализма в символьную модель, использующую формализм теории графов с ЕЯ-маркировкой вершин (узлов) и связей (дуг);
4. Задачи преобразования символьной модели, использующей формализм теории графов с ЕЯ-маркировкой вершин (узлов) и связей (дуг), в символьную модель, использующую формализм теории графов с ИЯ-маркировкой вершин (узлов) и связей (дуг);
5. Задачи преобразования символьной модели, использующей формализм теории графов с ИЯ-маркировкой вершин (узлов) и связей (дуг), в строгую символьную ИЯ-модель.
В принципе, уже после решения задачи второго типа, может осуществляться переход от ЕЯ-представлений к некоторой промежуточной системе обозначений (имен), как это делается при разработке программ. Однако такой переход имеет смысл только при условии, что уже произведена декомпозиция на элементарные термины, выражающие свойства и функции объектов, с тем, чтобы в дальнейшем для них не потребовалось осуществлять процедуру восстановления ЕЯ-представления. Если это условие выполняется, то становится возможен даже автоматизированный переход от промежуточной системы имен к ИЯ-представлению (при условии существования тезауруса соответствующего уровня). В общем же случае, операция детальной декомпозиции осуществляется лишь при решении задачи четвертого типа. Впрочем, жесткий стандарт здесь установить трудно, да и не может он быть жестким, поскольку специфику алгоритма структуризации определяют цели деятельности.
Более того, в случае, когда достигнутая степень формализации не удовлетворяет требованиям, предъявляемым спецификой деятельности, полученное формальное описание может быть повторно подвергнута процедурам, которые ранее осуществлялись в отношении представления иного типа.
Заметим, что структурированию может подвергаться и информация, представленная в нетекстовом виде, однако и здесь могут быть выделены задачи, по своему содержанию - равносильные перечисленным.
Например, рассматривая в качестве исходного массива данных массив графических изображений различных фрагментов некоторого объекта/процесса, относящихся к разным моментам времени и полученных с разных ракурсов, можно решить задачу структурирования, воспользовавшись теми же этапами/задачами. Для чего можно воспользоваться одной из двух стратегий:
- осуществить предварительную трансляцию в текстовую форму (составление подробных описаний изображений на ЕЯ с указанием пространственных и временных отношений между описываемыми объектами), после чего воспользоваться ранее описанными процедурами;
- интерпретировать изображение, как разновидность текста, с применением альтернативной знаковой системы, позволяющей осуществить процесс структуризации в другой знаковой системе.
В качестве теоретического основания для применения такого подхода выступает семиотика, интерпретирующая любой способ представления информации как разновидность текста, представленного средствами некоторой знаковой системы. Для графического представления информации разработан ряд методов, позволяющих перейти от обычного цветного тонального изображения к контурным и иным представлениям, упрощающим процедуры распознавания и трансляции к иным знаковым системам. Однако, поскольку графические модели, получаемые методом последовательной фиксации состояния объектов реального мира, способны отражать лишь пространственно-временные и атрибутивные характеристики наблюдаемых объектов/процессов, постольку извлечение из них системы причинно-следственных отношений становится возможным только с привлечением внешней (чаще всего - экспертной) модели интерпретации.
Наиболее распространенным путем решения задач структуризации информации является привлечение эксперта-аналитика. В этом случае на него ложится вся нагрузка по преобразованию исходного текста: от поиска связных фрагментов до выявления системы логических, пространственных, временных отношений и дальнейших процедур синтеза формальной модели. Хотя в последнее время, благодаря развитию семиотики, лингвистики, теории искусственных языков, теории систем искусственного интеллекта, нейрокибернетики и ряда других научных дисциплин, в эту отрасль стали все чаще вторгаться технологии если не автоматического, то автоматизированного анализа и структурирования информации. Среди такого рода технологий можно выделить системы автоматизированного реферирования текста, предназначенные для извлечения фрагментов текста, наиболее ярко выражающих сущность текста или его основные положения. Как правило, эта операция осуществляется за счет применения статистических закономерностей, открытых Дж. Зипфом (George Kingsley Zipf) и получивших название принципа экономии усилий в лингвистике или закона Зипфа (или, более общей формулировке, закона Зипфа-Мандельброта).
В зависимости от реализации статистические критерии могут применяться к тексту на раннем этапе (до грамматико-логической обработки текста), а могут и на завершающей стадии (после предварительной обработки, согласования словоформ и т. п.). Однако, в настоящее время без поддержки интерактивного режима (диалога с экспертом) качество реферирования достаточно низко и не всегда удовлетворяет потребителя. Вне зависимости от спектра технологий, используемых при анализе словоформ (формальные ли грамматики, нейросетевые ли технологии), результаты семантической обработки пока далеки от тех, которые в состоянии обеспечить эксперт, что отчасти объясняется тем, что любая из созданных на сегодня баз знаний, в известном смысле, наивнее ребенка. Причиной такой "наивности" является то, что механизмы обучения подобных систем и способы организации знаний в них несовершенны, а количество каналов приобретения знаний слишком мало. Существуют прототипы самообучающихся интеллектуальных систем, но до уровня интеллекта разумных существ эти системы пока не могут дорасти.
Однако оставим подробное рассмотрение этих вопросов специалистам в области теории систем искусственного интеллекта. Заметим лишь, что работы в области теории систем искусственного интеллекта действительно заслуживают того, чтобы с ними ознакомились люди, занятые в "сфере информационного производства". Чрезвычайно интересны эти работы хотя бы потому, что представляют собой попытки осмыслить то, каким образом человек осуществляет свою мыслительную деятельность, алгоритмизировать и упорядочить ее, что крайне важно и для эксперта-аналитика. Кроме того, нелишне хотя бы в общих чертах представлять, каким образом работает твой инструмент, каковы его параметры и особенности функционирования. Так, например, ряд направлений современной психологии выросли не из классической психологии, а из гибрида теории искусственного интеллекта, классической психологии и философской теории познания. И столь необычное происхождение этих психологических теорий, отнюдь, не мешает специалистам в этой области успешно решать задачи именно психологического плана.
Методы первичного структурирования информации широко используются при синтезе баз данных и подробно рассматриваются в разнообразных изданиях по информатике, в частности - тех, которые посвящены вопросам проектирования и разработки баз данных различного назначения. В наиболее популярном и, в то же время, профессиональном изложении эти проблемы рассматриваются в книге американского автора Дэвида Васкевича, написанной именно для тех людей, которые руководят деятельностью или формулируют задачи перед специалистами в области разработки программного обеспечения, но не обязаны вникать в технологические подробности процесса разработки. В частности, в книге Васкевича описываются различные способы организации и структурирования данных, виды отношений между ними, приведены наглядные примеры, что позволяет руководителю по ее прочтении квалифицированно руководить коллективом разработчиков и грамотно организовать технологический процесс. Но подчеркнем еще раз: для нас в этой книге содержится информация, связанная именно с проблемой структурирования информации.
Нет ничего удивительного в том, что мы обращаемся к базам данных для того, чтобы проиллюстрировать процессы структурирования информации. Базы данных - это тоже модели, описывающие те или иные аспекты существования системы/процесса, поэтому при их создании и проектировании так же применяются методы структурирования информации, отличающиеся от прочих методов лишь тем, что структурирование осуществляется уже с учетом ограничений, налагаемых технологической платформой. В общем случае при структурировании информации такие ограничения не всегда принимаются в расчет.
Так или иначе, но полученный массив описаний предметной области или проблемы на начальном этапе структурирования информации должен быть приведен к виду, упрощающему его дальнейшую обработку. Если сведения получены в результате проведения информационно-поисковых процедур (например, в различного рода средствах массовой информации - от печатной прессы до сети Интернет), полученный исходный массив, как правило, не структурирован и разноформатен. В этом случае перед аналитиком встает задача первичного структурирования массива сообщений в ее наиболее сложном варианте (здесь требуется выделение из сообщений информации, релевантной задачам исследования, ее компоновка и т. п.).
Однако если речь идет о сборе информации методом опроса экспертов, первичное структурирование информации может быть проведено уже на предшествующем этапе за счет разработки системы опросников, анкет и иных средств упорядочивания информации. Стратегия опроса экспертов (в том числе - проведения мозговых атак или деловых игр) может быть организована таким образом, чтобы ввести экспертов в ситуацию, управляющую процессом высказывания суждений в той последовательности, при которой информация будет изначально структурирована некоторым образом, отвечающим потребностям последующей ее формализации. В некоторых случаях экспертам могут быть предъявлены на оценку заранее подготовленные варианты решения задач, массивы исходных данных и прочие материалы, нуждающиеся в оценивании и ранжировании с привлечением их опыта.
В одном случае (при анкетировании и управлении процедурой опроса или стратегией игры) информация извлекается в соответствии с заранее установленной рубрикацией. В другом случае (при оценивании вариантов) структура организации информации не изменяется и остается в рамках заранее установленной формы любого уровня структурной организации. В частности, варианты, предложенные для оценивания, могут быть сформулированы на основе исследований, предварительно проведенных на имитационных моделях, или полученных в результате собеседования с другими группами или с той же группой экспертов.
Для выделения логической структуры описаний, предварительно разделенных на рубрики (относящиеся к одним и тем же группам объектов, процессам, временным и пространственным областям) применяются различные методы, обеспечивающие возможности:
- выделения "дискретных" состояний (для текстовых описаний - это связано с определением множества терминов, используемых для описания некоторого, существенного для решаемой задачи, состояния);
- упорядочивания их во времени (построение сценариев типа "раньше - позже");
- причинно-следственного связывания (построение сценариев типа "причина - следствие");
- пространственного связывания и иные.
На следующем этапе в зависимости от целей деятельности подобные модели могут быть подвергнуты процедуре декомпозиции (детализации) или агрегации (композиции или свертке), в результате чего формируется описание необходимого уровня абстракции/детализации.
Дальнейшие этапы выполняются за счет введения специальных систем именования элементов модели, приписывания им поименованных атрибутов, описания функциональных зависимостей и так далее. Например, в качестве функциональных зависимостей для ряда задач могут быть рассмотрены зависимости ресурс-время-результат и иные, которые на начальных этапах могут быть использованы для маркирования дуг графа, а впоследствии - воплощены в программные коды имитационных моделей. Особый класс составляют модели ситуаций, используемые для распознавания объектов, их состояний, тенденций и процессов. В таких моделях может абсолютизироваться либо статический, либо динамический аспект существования/функционирования системы. Однако подробно рассматривать эти процедуры мы здесь не будем, тем более, что некоторые аспекты этой деятельности нами уже были описаны при рассмотрении соответствующих классов моделей.