Лаборатория цифровых исследований литературы и фольклора — один из самых молодых научных отделов Пушкинского Дома, а в центре внимания его сотрудников — новейший научный метод в литературоведении — количественные исследования. С ними связан большой и значимый проект лаборатории — Репозиторий открытых данных по русской литературе и фольклору.
В цифровую эпоху важным и органичным источником для исследователей становится электронный корпус текстов, позволяющий им работать с подготовленными и определенным образом организованными данными. Репозиторий ИРЛИ РАН представляет собой инфраструктурную платформу для таких цифровых исследований, ресурс для создания корпусов текстов, хранения и публикации открытых, общедоступных данных. Чтобы понять, как он устроен, представьте электронную версию любого научного журнала, только в репозитории публикуются не статьи, а наборы информации — датасеты. Как правило, датасет — не самоцель, а инструмент, структурирующий исследовательский материал, который ученые долго и кропотливо собирают и упорядочивают и на основе которого ищут закономерности, строят гипотезы и делают обобщения: это могут быть библиографические списки, биографические сведения, корпусы текстов, постатейные росписи журналов и многое другое. Часто бывает, что, когда работа с материалом завершена, а статья уже опубликована, собранные данные навсегда оседают в электронном архиве автора и в дальнейшем не используются. Вот тут и пригодится специальный ресурс — Репозиторий открытых данных, — где всю эту информацию можно хранить в упорядоченном виде и предоставлять в пользование другим исследователям.
Одним из основных требований, предъявляемых к публикуемым в репозитории материалам, является их потенциальная полезность и применимость для научного сообщества. Данные должны быть корректно организованы в соответствии с концептуальной моделью и понятны. Поэтому, во-первых, существуют определенная процедура публикации этих данных, включающая в себя следующие этапы:
Во-вторых, все публикации в репрозитории ИРЛИ сопровождаются развернутой документацией, которая помогает сориентироваться в материалах. Каждый публикуемый датасет обязательно поддерживается файлом readme, который поможет оценить научную репрезентативность данных, с одной стороны, и послужит руководством по их использованию — с другой. Типичный файл readme должен включать сведения об источниках данных, методологии и принципах их отбора, формате и структуре входящих в датасет ресурсов.
Отбор материалов для ресурса данных происходит на этапе рассмотрения заявки на публикацию. Если материалы соответствуют тематике репрозитория и, по оценкам редакции, являются полезными и перспективными, они принимаются к публикации.
Прежде чем датасет будет выложен в открытый доступ, он должен пройти процедуру рецензирования и техническую подготовку — для обеспечения достоверности, полноты и согласованности содержащейся в нем информации. Затем датасету присваивается цифровой идентификатор объекта (DOI), обеспечивающий постоянный доступ к статье даже при смене ее URL-адреса.
Никакие данные ресурса не являются «одноразовыми»: на одном и том же датасете можно построить несколько разных исследований, а если объединить несколько датасетов по одной тематике, то вариантов становится еще больше.
В репозитории есть несколько разделов для публикации разных типов данных — библиографических, биографических, корпусных, данных для воспроизводимых исследований. Появился даже специальный раздел для геоданных, которые позволяют привязывать к локациям литературные события и биографические материалы.
В качестве примера тематического объединения датасетов можно привести «трилогию», посвященную составам учебных программ по литературе: независимые авторы в разное время собрали и опубликовали списки произведений из дореволюционных хрестоматий, советских и российских учебных программ — получились объемные данные для изучения школьного литературного канона.
Репозиторий — не только хранилище, это еще и способ репрезентовать в научном пространстве «невидимый» труд ученого по сбору и обработке данных, и инструмент, позволяющий взглянуть на литературоведение с разных точек зрения. Кроме того, те же данные могут послужить удобным материалом для студенческих и других научных проектов в области digital humanities.