Исторические информационные системы: теория и практика - Надежда Георгиевна Поврозник 11 стр.


Широкие возможности для использования имеют информационные системы с XML-разметкой текстов публикуемых источников.

В настоящее время многие текстовые источники, в особенности рукописные, представляются преимущественно в форматах изображений. Это связано и с необходимостью репрезентации внешнего вида источника, и с затратностью распознавания и транскрибирования текста. Представление текстовых источников исключительно в форматах изображений несет массу ограничений: поскольку они не идентифицируются как текст, то, соответственно, не могут быть обработаны на содержательном уровне компьютеризированными методами. В связи с этим возникает необходимость разнопланового представления данных в качестве текста (в совокупности его содержательных особенностей, слоев и смысловых уровней) и изображения источника. Современные информационные системы позволяют представить документы в многоформатном отображении; для решения этой задачи используется XML.

Разметка особенностей текстовых источников на основе XML позволяет в более полной мере передать аутентичный характер источника. Многие источники имеют слабоструктурированный характер, поэтому их публикация в традиционных для цифрового мира форматах (как, например, HTML) несет существенные ограничения. Использование XML-разметки для публикации текстовых источников имеет значительные преимущества перед традиционными типами электронной публикации ввиду возможностей репрезентации комплексного характера источников. Использование языка XML в историко-ориентированных информационных системах позволяет повысить качество представления цифровых версий документов. Разметка структуры документов (заголовков, абзацев, строк и других элементов текста), особенностей синтаксиса и морфологии позволяет максимально полно представить многослойность источника без потери информативности.

На данный момент реализовано множество проектов публикации текстовых источников с использованием XML-разметки, в том числе информационная система, посвященная актовым книгам судов Великого княжества Литовского[25], которые хранятся в библиотеке Вильнюсского университета [Тимченко, 2013]. Другим крупным проектом публикации транскрибированных рукописных источников является «Манускрипт. Древние славянские памятники»[26].

Создатели электронных публикаций ориентируются на пользователя, выбирая формы представления текстовых источников, максимально соответствующие оригиналу или отредактированные в разной степени для расширения возможностей его прочтения менее подготовленной аудиторией. XML позволяет представить один и тот же источник в разной степени редактирования. Примером такого подхода является проект публикации цифровых версий документов Medieval Nordic Text Archive[27], в котором представленные документы кодированы несколькими уровнями разметки. Факсимильная разметка предполагает представление документа максимально близко к тексту источника; дипломатическая означает изменения, внесенные в текст для облегчения прочтения документа; в нормализованной версии текста полностью обновлена орфография.

Использование разметки XML в кодировании текстов рукописных источников связано с возможностями этого языка в обработке столь специфичных документов, поскольку рукописные источники часто отличаются многослойностью. XML является эффективным инструментом представления всей совокупности информационных пластов исторического источника. К многослойным документам могут относиться как палимпсесты или рукописи, которые с течением времени дополнялись и изменялись внесением поправок, так и иные источники, например музыкальные нотные альбомы, содержащие информацию музыкального характера (совокупность строк и знаков сами ноты, нотный стан и т. д.) и текстовую информацию. Технология XML позволяет эффективно учесть и извлечь источниковую информацию. Это подтверждают существующие информационные системы, содержащие источники указанного типа, например проект TheDanish National Digital Sheet Music Archive[28].

Электронная публикация рукописных источников имеет дополнительные сложности, связанные с разнообразием языков и диалектов, различными способами написания, вариативностью шрифтового оформления и иными особенностями. Фиксация этих источниковых особенностей в электронной версии может быть успешно осуществлена с помощью инструментария XML. В качестве иллюстрации подобного рода многоязычных электронных коллекций можно привести информационный ресурс, посвященный арабским рукописям, Arabic Manuscripts Online[29]. В информационной системе представлено более 12 тыс. рукописей и 4 тыс. печатных книг на 43 языках. Достоинством этой системы является транскрибирование фрагментов текстов источников на основе XML-разметки (в основном это заголовки, некоторые ключевые слова и персоналии), а также представление оригинального арабского текста и его транскрипции на латинице.

XML-разметка позволяет связывать и семантику текстов. Самый простой уровень разметка ключевых слов, в первую очередь географических объектов и персоналий. Такой подход дает возможность поисковой системе вывести полный список документов, в которых упоминается искомое ключевое слово. В случае с персоналиями возможность найти документы с инвариантными написаниями имени одного человека. Примером информационной системы, в которой в документах размечены географические объекты и персоналии, является проект The Fuggerzeitungen[30], посвященный рукописному периодическому изданию раннего Нового времени в Европе. Информационная система, созданная при реализации этого проекта, позволяет видеть различные форматы отображения источников, а также их размеченный электронный текст. Схема разметки включает информацию о персоналиях и географических объектах. Часть схемы разметки, посвященной персоналиям, содержит прямые и непрямые указания на конкретные личности из газет, а также сведения о них даты жизни, другие имена (в случае смены имени), титулы, сферы деятельности. Элементы разметки географических объектов обозначают названия стран и регионов, рек, озер, гор, городов и районов всей Римской империи. На основе размеченных текстов удалось создать регистры персоналий и географических объектов, упоминающихся в источниках. XML-разметка позволила объединить элементы (в том числе персоналии и географические объекты) независимо от написания и языка источника. Таким образом, данная информационная система способна формировать по результатам поисковых запросов списки источников с упоминанием необходимых элементов.

XML-разметка позволяет связывать и семантику текстов. Самый простой уровень разметка ключевых слов, в первую очередь географических объектов и персоналий. Такой подход дает возможность поисковой системе вывести полный список документов, в которых упоминается искомое ключевое слово. В случае с персоналиями возможность найти документы с инвариантными написаниями имени одного человека. Примером информационной системы, в которой в документах размечены географические объекты и персоналии, является проект The Fuggerzeitungen[30], посвященный рукописному периодическому изданию раннего Нового времени в Европе. Информационная система, созданная при реализации этого проекта, позволяет видеть различные форматы отображения источников, а также их размеченный электронный текст. Схема разметки включает информацию о персоналиях и географических объектах. Часть схемы разметки, посвященной персоналиям, содержит прямые и непрямые указания на конкретные личности из газет, а также сведения о них даты жизни, другие имена (в случае смены имени), титулы, сферы деятельности. Элементы разметки географических объектов обозначают названия стран и регионов, рек, озер, гор, городов и районов всей Римской империи. На основе размеченных текстов удалось создать регистры персоналий и географических объектов, упоминающихся в источниках. XML-разметка позволила объединить элементы (в том числе персоналии и географические объекты) независимо от написания и языка источника. Таким образом, данная информационная система способна формировать по результатам поисковых запросов списки источников с упоминанием необходимых элементов.

Многие исторические информационные системы объединяют различные по типу источники и используют в структуре разметки более разнообразные сущности, как, например, проект Founders Online[31], посвященный отцам-основателям США и выполненный при сотрудничестве различных архивов, академических учреждений и правительственных организаций Соединенных Штатов Америки. В основе информационной системы проекта текстовые исторические источники, размеченные на основе XML. Схема разметки содержит разнообразные элементы, описывающие персоналии, географические объекты разных типов, даты и временные характеристики события и другие элементы. Разметка текстов обеспечивает широкие возможности поиска по коллекции документов, связывая тексты по общности характеристик и упоминаемым элементам (в том числе персоналиям, географическим объектам и т. д.). Однако не все опубликованные источники размечены с одинаковой степенью глубины. Проект является продолжающимся, и в состав системы периодически добавляются новые текстовые источники, обеспечивая работу проекта в режиме work-in-progress. По состоянию на март 2020 г. в информационную систему введено более 183 тыс. документов. Чтобы обеспечить работу со всеми источниками, в том числе и с теми, которые находятся на ранней стадии обработки и аннотирование которых продолжается, было принято решение открыть к ним предварительный доступ (Early Access). Работа с такими документами осуществляется через специально разработанное веб-приложение Document Compass. Архитектура информационной системы Founders Online основана на платформе управления данными MarkLogic, а также использует приложения для индексации и обработки текстового контента, размеченного на основе XML. Поисковая система способна реализовывать многозадачные запросы для получения релевантной выгрузки.

Стандартизация тегов разметки метаданных и текстов исторических источников является ключевым вопросом для обеспечения устойчивости, долговременности и эффективности развития гуманитарной информационной среды в целом и историко-ориентированных информационных ресурсов в частности. В этом плане важную роль играет консорциум TEI (Text Encoding Initiative)[32], основная цель функционирования которого развитие и поддержка стандарта представления текстов в цифровой форме, а также помощь создателям электронных ресурсов в кодировании текстов методом глубокой разметки по единому стандарту, разработанному TEI. Этот консорциум включает различные организации, в числе которых издательства, университеты, а также индивидуальных ученых, использующих и развивающих стандарт TEI в гуманитарной сфере.

Целесообразность использования единого стандарта описания (с 2007 г. действует Руководство версии TEI P5) связана с тем, что исследователи и разработчики проектов по разметке текстов, с одной стороны, могут пользоваться стандартными элементами разметки и при необходимости добавлять отсутствующие теги в стандарт TEI, а с другой при использовании единого стандарта становится принципиально возможным интегрирование данных различных корпусов (проектов) и обмен ими.

Целесообразность использования единого стандарта описания (с 2007 г. действует Руководство версии TEI P5) связана с тем, что исследователи и разработчики проектов по разметке текстов, с одной стороны, могут пользоваться стандартными элементами разметки и при необходимости добавлять отсутствующие теги в стандарт TEI, а с другой при использовании единого стандарта становится принципиально возможным интегрирование данных различных корпусов (проектов) и обмен ими.

Назад Дальше