19 октября 2024 15:00 – 20:00
презентация

Запуск проекта «Пушкин <цифровой>»

Институт русской литературы РАН (Пушкинский Дом)
набережная Макарова, дом 4
В год 225-летия со дня рождения Александра Сергеевича Пушкина, в День лицея 19 октября 2024 года в Институте русской литературы (Пушкинском Доме) Российской академии наук состоялась презентация и открытие для публичного доступа научно-просветительского ресурса «Пушкин <цифровой>».

 

Целью научно-просветительского ресурса (НПР) «Пушкин <цифровой>» является оцифровка, разметка, организация и представление в цифровом формате рукописных и печатных материалов, относящихся к творчеству и биографии А. С. Пушкина. На портале представлены рукописи поэта, тексты произведений, их редакции, варианты и комментарии к ним, издания его эпохи и другие связанные с его творчеством материалы.

Важнейшим этапом реализации проекта стала впервые осуществленная сплошная оцифровка всех пушкинских автографов, хранящихся в Пушкинском Доме. За два года отсканировано более 15 000 рукописных листов. Все оцифрованные рукописные материалы доступны в разделе Рукописи, в котором поиск ведется по архивным шифрам и по названиям произведений. Одновременно был начат процесс сканирования научной литературы и изданий пушкинской эпохи. Гипертекстовая разметка научного комментария позволяет соединить его с оцифрованными изданиями, что многократно расширяет объем доступных при обращении к нему сведений. Данные издания представлены в разделе Библиотека.

Следующим ключевым этапом проекта стало создание единого индекса произведений Пушкина, создание модели организации данных и разработка механизмов их автоматической обработки, позволяющих соединять тексты произведений с оцифрованными рукописями, изданиями, комментариями и другими материалами. Многие материалы этих изданий не существовали в машиночитаемом формате; они были доступны только в виде сканов или представлены в форматах, непригодных для использования на портале. Традиционным решением проблемы могла бы стать полная ручная конвертация всех этих материалов в машиночитаемый формат, однако это затянуло бы сроки реализации проекта на долгие годы.

Поэтому одна из важнейших научных целей проекта — создание подходов к автоматической обработке многотомных изданий научно-справочного характера, подготовленных в докомпьютерную эпоху. Такие подходы, основанные на обработке элементов структуры, организации и верстки текстов с использованием методов NLP и ML, позволяют вычленять данные в структурированном виде. Автоматическая обработка позволяет начать постепенную оцифровку, датафикацию и онтологизацию огромного объема знаний о Пушкине и его эпохе, накопленных за последние двести лет. Однако она имеет и очевидные недостатки — ведет к неизбежным ошибкам, требующим ручной проверки и исправлений. В настоящий момент проект сочетает обе стратегии.

Ресурс разрабатывается и реализуется консорциумом ИРЛИ (Пушкинский Дом) РАН, Санкт-Петербургским Федеральным исследовательским центром (СПб ФИЦ РАН) и DH-центром Университета ИТМО в соответствии с указом Президента Российской Федерации от 5 мая 2021 г. № 404 «О 225-летии со дня рождения А.С. Пушкина», при поддержке Министерства науки и высшего образования Российской Федерации. 

Результаты работы над проектом «Пушкин цифровой» представили Светлана Геннадьевна Николова, заместитель директора ИРЛИ РАН; Гавриил Николаевич Беляк, младший научный сотрудник ИРЛИ РАН, автор идеи проекта «Пушкин цифровой»; Полина Владимировна Колозариди, директор DH-центра Университета ИТМО, руководительница цифровой сборки проекта; Николай Николаевич Тесля, кандидат технических наук, старший научный сотрудник лаборатории интегрированных систем автоматизации Санкт-Петербургского Федерального исследовательского центра РАН. 

В рамках презентации НПР «Пушкин <цифровой>» состоялось представление выставки «Что, если б Пушкин был меж нами…», открывшейся 28 сентября 2024 года, приуроченной к 225-летию со дня рождения А. С. Пушкина и 125-летию со дня рождения В. В. Набокова.

При поддержке гранта Министерства науки и высшего образования РФ в рамках федерального проекта «Популяризация науки и технологий».