На сайте консорциума TEI доступен список проектов, выполненных с помощью разметки по стандарту TEI[33]. Значительная доля этих проектов является историко-ориентированными ресурсами. Среди них, например, проект Menota (Medieval Nordic Text Archive), посвященный норвежским рукописям[34]; CELT Project: TheCorpus of Electronic Texts[35]; Chronicling America, связанный с американскими газетами 18361922 гг.[36], и др.
В рамках инициативы TEI развиваются также и специализированные стандарты, связанные с описанием исторических источников одного типа. Таким стандартом является TheCharters Encoding Initiative (CEI)[37] стандарт описания средневековых хартий, интегрированный в TEI. Основой для стандартизированного описания хартий стал разработанный словарь соответствия терминов для этих документов, написанных на французском, немецком, английском, итальянском, латинском и испанском языках[38]. Для представления хартий была создана информационная система Monasterium.net (МОМ)[39], объединяющая 664 372 хартии из 182 европейских учреждений хранения (преимущественно архивов) и регулярно пополняемая новыми источниками. Размещение хартий на портале сопровождается созданием краткой аннотации, в которой отражаются библиографические и архивоведческие данные о документе и его история. XML-разметка аннотации предполагает дублирование каждого размеченного элемента на национальном (по принадлежности документа к учреждению хранения) и английском языках. Информационная система MOM включает встроенный XML-редактор EditMOM для обработки и разметки документов в режиме онлайн. Веб-приложение EditMOM позволяет пользователю работать с несколькими слоями документа одновременно и наряду с изображением иметь доступ к размеченному тексту источника, а также размечать тегами или редактировать (транскрибировать) текст документа.
Структура разметки, используемой при обработке и публикации исторических источников, может содержать как элементы археографического описания, так и расширенную информацию об источнике, его особенностях, состоянии, форме и содержании, а также сведения об электронной текстовой версии и другие данные. Элементы с идентификаторами (id, name и др.) в структуре тега фиксируют персоналии и географические места, упоминаемые в тексте документов. Например, при анализе указателей к стенографическим отчетам с применением XML-разметки [Поврозник, 2018] использовались теги с идентификаторами, в том числе для связывания персоналий со всеми разделами данных о деятельности каждого депутата во всех сессиях созыва Государственной Думы начала XX в. Структура тега с идентификатором персоны выглядит так:
<deputy id=370><deputiname>Свешников, Михаил Иванович</ deputiname>.
Идентификаторы позволяют, например, объединить все упоминания о деятеле в источнике, а также одинаковые по смыслу, но варьирующиеся по написанию значения. Такая унификация на основе тегов является основой для более полного поиска по всей совокупности документов системы.
Отдельная группа элементов разметки может описывать работу над электронным документом, даты его изменений и историю (как, например, сведения о новых тегированных данных)[40]. Группа вспомогательных тегов используется для корректного отображения факсимиле источников в браузере, по аналогии с обычным представлением HTML-документов[41].
Использование разметки XML по единым стандартам способствует более активному развитию Semantic Web в плане наполнения семантическими публикациями исторических источников. Несмотря на массу средств и технологических решений, созданных для Семантической паутины, XML является одним из наиболее простых в использовании [Варфоломеев, Иванов, 2013].
Кроме электронных публикаций, XML востребован и для анализа текстов источников. Одним из направлений является компьютерная лингвистика и использование XML-разметки текстов при изучении языка и его развития, когда с помощью XML обозначаются морфологические и синтаксические признаки единиц текста (могут быть размечены как отдельные буквы и символы, так и их совокупности, а также слова, словосочетания, предложения и т. д.). Другой областью применения XML является текстометрический анализ, используемый в гуманитарных исследованиях.
В исторических информационных системах также применяется XML для анализа текстов. При этом системы имеют разные возможности и инструментарий для работы с историческими источниками. Так, на портале «Парламентская история позднеимперской России»[42] опубликованы размеченные на основе XML указатели к стенографическим отчетам Государственной Думы начала XX в. Схема разметки разработана для изучения деятельности парламентариев (рис. 2.6) и анализа динамики развития указателей как исторического источника (рис. 2.7). Информационная система предоставляет доступ к размеченным файлам с возможностью их скачивания и дальнейшего анализа.
Для анализа, обработки данных и публикации источников, тексты которых размечены с помощью XML, требуется дополнительное программное обеспечение. Многие программные продукты для этих целей являются коммерческими. Однако в Лионском университете (Франция), в лаборатории ICAR, была разработана платформа TXM с открытым кодом[43]. Данная платформа является программным обеспечением, предназначенным для работы в наиболее распространенных операционных системах (Windows, Mac OC X, Linux), а также поддерживает онлайн-публикацию источников при помощи веб-навигаторов с возможностью контроля доступа к ресурсам и их редактированию. Платформа TXM имеет широкие возможности для проведения текстометрического анализа текстов источников.
Рис. 2.6. Пример организации данных по деятельности парламентариев на основе XML-разметки указателей к стенографическим отчетам
Рис. 2.7. DTD-документ показывает структуру размеченных на основе XML указателей к стенографическим отчетам Государственной Думы IIV созывов начала XX в.
Другие информационные системы интегрируют исследовательский инструментарий и источники и позволяют оперировать возможностями разметки. Так, в Ланкастерском университете (Великобритания) разработана платформа Corpus Query Processor для работы с созданными корпусами текстов[44]. Платформа содержит опубликованные корпусы текстов на различных языках, среди которых как национальные, так и специализированные корпусы, в том числе исторические (в первую очередь это совокупность корпусов периодической печати Великобритании с XVIII в. по настоящее время). Часть корпусов исторических текстов размечена на основе XML. Инструментарий платформы обеспечивает поиск по контексту с выбором необходимых метаданных, а также предоставляет широкие возможности для анализа текстов по заданной структуре разметки.
Развитие информационного пространства исторических источников и использование единых стандартов XML-разметки являются важной основой формирования гуманитарной семантической сети информационных ресурсов. Объединение создаваемых ресурсов вопрос будущего, однако наработки в этом направлении свидетельствуют об эффективности и ценности такого подхода. Таким инструментом является Fawcett Toolkit [Robertson, 2009] свободно распространяемая компьютерная программа для агрегирования исторических данных, размеченных на основе XML, и их визуализации в виде карт, таймлайнов и анимаций. Fawcett Toolkit агрегирует XML-теги, использованные редакторами ресурсов по действующему стандарту TEI P5. Таким образом, программа позволяет выявлять разнообразные ресурсы, размеченные общими тегами, в том числе персоналии, географические объекты, исторические события, даты и т. д.
Развитие Semantic Web и использование XML-разметки в исторических исследованиях открывают возможности для более глобальных научных изысканий, связанных с Data Mining [Meroño-Peñuela, Ashkpour, van Erp, Mandemakers, Breure, Scharnhorst, Schlobach, van Harmelen, 2014].
Таким образом, использование языка разметки XML при создании информационных систем позволяет учитывать содержание, структуру и иерархию текста; фиксировать различные прочтения и интерпретации источниковой информации; эффективно работать с многослойными текстовыми источниками; сделать заметной для машины ту информацию, которую историк считывает на интуитивном уровне, между строк. Использование разметки XML обеспечивает широкие возможности для обработки текстов, представления документов и анализа информации; позволяет повысить эффективность информационной отдачи источников, углубить представление об их информационном потенциале, получить скрытую для анализа традиционными методами источниковую информацию.
2.5. Привлечение пользователей к созданию исторических информационных систем и ресурсов
2.5. Привлечение пользователей к созданию исторических информационных систем и ресурсов
При создании и развитии информационных ресурсов, в том числе историко-ориентированных, выделяется направление, связанное с использованием краудсорсинга привлечения широкого круга лиц для решения тех или иных задач на добровольной основе. В таких проектах пользователь может не только быть потребителем, получать информацию, но и совершенствовать ресурс. Идея расширения доступа пользователей к редактированию, наполнению и развитию ресурсов называется также web 2.0 [Theimer, 2010].
Идея краудсорсинга связана с тем, что способность толпы (crowd) как сложной системы превосходит возможности отдельного человека, поскольку она может создавать групповой интеллект, основанный на сотрудничестве и конкуренции людей в этой группе [Kapetanios, 2008][45]. Д. Суровецки выделяет четыре требования к группе пользователей, чтобы она могла достичь мудрости толпы (the wisdom of crowds) [Surowiecki, 2004].
1. Разнообразие: толпа включает людей с разным опытом, перспективами; каждый участник должен иметь личную информацию, даже если это просто эксцентричная интерпретация известных фактов.
2. Независимость: мнения людей не определяются мнениями окружающих; участник принимает свое решение самостоятельно, независимо от других.
3. Децентрализация: решения основаны на локальных и конкретных знаниях отдельных лиц.
4. Агрегация: существует механизм, который превращает индивидуальные суждения в коллективное решение.
Краудсорсинг набирает все большую популярность для сбора контента, в том числе в академической гуманитарной среде. Пользователи могут выполнять перевод документов на иностранные языки, редактирование и транскрибирование текстов, совершенствование технологической составляющей (программного обеспечения, дизайна, баз данных), модерирование и администрирование, ведение блогов и микроблогов, разметку изображений (например, фотодокументов, предметов искусства и др.).
В книге «Цифровые гуманитарные науки на практике» [Digital Humanities in Practice, 2012] приводятся классификации проектов краудсорсинга и обзор исследований в этой области. Так, Р. Доусон и С. Бингалл выделяют 15 категорий краудсорсинга сайтов [Dawson, Bynghall, 2011]. Р. Холли дает обзор определений краудсорсинга и обосновывает его актуальность для библиотек с точки зрения временных, финансовых и человеческих ресурсов; возможности создания новых виртуальных сообществ и использования их знаний, опыта и интересов для улучшения качества информационных систем. Кроме того, среди возможных направлений использования краудсорсинга автором выделяются каталогизация, комментирование, тегирование, рейтингование, написание обзоров, укрепление лояльности пользователей к библиотеке, поощрение чувства общественной солидарности и ответственности за создание коллекций культурного наследия [Holley, 2010].