Целью научно-просветительского ресурса (НПР) «Пушкин <цифровой>» является оцифровка, разметка, организация и представление в цифровом формате рукописных и печатных материалов, относящихся к творчеству и биографии А. С. Пушкина. На портале представлены рукописи поэта, тексты произведений, их редакции, варианты и комментарии к ним, издания его эпохи и другие связанные с его творчеством материалы.
Важнейшим этапом реализации проекта стала впервые осуществленная сплошная оцифровка всех пушкинских автографов, хранящихся в Пушкинском Доме. За два года отсканировано более 15 000 рукописных листов. Все оцифрованные рукописные материалы доступны в разделе Рукописи, в котором поиск ведется по архивным шифрам и по названиям произведений. Одновременно был начат процесс сканирования научной литературы и изданий пушкинской эпохи. Гипертекстовая разметка научного комментария позволяет соединить его с оцифрованными изданиями, что многократно расширяет объем доступных при обращении к нему сведений. Данные издания представлены в разделе Библиотека.
Следующим ключевым этапом проекта стало создание единого индекса произведений Пушкина, создание модели организации данных и разработка механизмов их автоматической обработки, позволяющих соединять тексты произведений с оцифрованными рукописями, изданиями, комментариями и другими материалами. Многие материалы этих изданий не существовали в машиночитаемом формате; они были доступны только в виде сканов или представлены в форматах, непригодных для использования на портале. Традиционным решением проблемы могла бы стать полная ручная конвертация всех этих материалов в машиночитаемый формат, однако это затянуло бы сроки реализации проекта на долгие годы.
Поэтому одна из важнейших научных целей проекта — создание подходов к автоматической обработке многотомных изданий научно-справочного характера, подготовленных в докомпьютерную эпоху. Такие подходы, основанные на обработке элементов структуры, организации и верстки текстов с использованием методов NLP и ML, позволяют вычленять данные в структурированном виде. Автоматическая обработка позволяет начать постепенную оцифровку, датафикацию и онтологизацию огромного объема знаний о Пушкине и его эпохе, накопленных за последние двести лет. Однако она имеет и очевидные недостатки — ведет к неизбежным ошибкам, требующим ручной проверки и исправлений. В настоящий момент проект сочетает обе стратегии.
Ресурс разрабатывается и реализуется консорциумом ИРЛИ (Пушкинский Дом) РАН, Санкт-Петербургским Федеральным исследовательским центром (СПб ФИЦ РАН) и DH-центром Университета ИТМО в соответствии с указом Президента Российской Федерации от 5 мая 2021 г. № 404 «О 225-летии со дня рождения А.С. Пушкина», при поддержке Министерства науки и высшего образования Российской Федерации.
Результаты работы над проектом «Пушкин цифровой» представили Светлана Геннадьевна Николова, заместитель директора ИРЛИ РАН; Гавриил Николаевич Беляк, младший научный сотрудник ИРЛИ РАН, автор идеи проекта «Пушкин цифровой»; Полина Владимировна Колозариди, директор DH-центра Университета ИТМО, руководительница цифровой сборки проекта; Николай Николаевич Тесля, кандидат технических наук, старший научный сотрудник лаборатории интегрированных систем автоматизации Санкт-Петербургского Федерального исследовательского центра РАН.
В рамках презентации НПР «Пушкин <цифровой>» состоялось представление выставки «Что, если б Пушкин был меж нами…», открывшейся 28 сентября 2024 года, приуроченной к 225-летию со дня рождения А. С. Пушкина и 125-летию со дня рождения В. В. Набокова.
При поддержке гранта Министерства науки и высшего образования РФ в рамках федерального проекта «Популяризация науки и технологий».