♦ Корпус русской литературы
Формирование массива данных, содержащего не только тексты произведений, снабженные профессионально подготовленными метаданными, но и давать возможности поиска, навигации и агрегации данных в терминах релевантных для литературы высокоуровневых категорий: персонаж, тема, сюжетная функция и т.п. Открытый доступ к поисковым и агрегационным возможностям корпуса будет важен не только для специалистов, но и для более широкой аудитории, поскольку корпус может выступить также современной и технологичной формой репрезентации литературы, что повышает статус литературы в обществе в целом.
Корпус текстов — общефилологическое понятие, которое получило значительное технологическое развитие пока только в лингвистике. В мире еще не существует общедоступных корпусов литературных текстов, ориентированных не на анализ языка, а на исследование литературного процесса и феноменов, относящихся к поэтике. Однако в мире уже существует понимание, что корпус может послужить многосторонним исследовательским инструментом, и в наибольшей степени в работе над собственно литературоведческим корпусом продвинулся проект HathiTrust. Как появление общедоступного Национального корпуса русского языка навсегда изменило русистику, так публикация масштабного корпуса русской литературы способно трансформировать российское литературоведение.
Задачи, которые позволяет решать корпус:
· поисковые (подбор материала);
· текстологические (сравнение версий);
· количественные исследования.
Задачи при работе над корпусом:
· составление библиографии, подготовка сбалансированной выборки;
· оцифровка изданий/произведений по мере необходимости;
· аннотация и разметка метаданных;
· разработка вычислительной платформы (средства автоматизированной аннотации на уровне значимых литературных категорий, индексации и поиска по этим категориям, интерфейсы для отображения поисковых результатов, агрегации данных и навигации по ним)
Работа над корпусом, призванным репрезентировать всю русскую литературу, не может быть выполнена сразу. Поэтому жизнеспособной стратегией развития корпуса представляется его формирование из отдельных подкорпусов: персональных, жанровых, тематических. Каждый подкорпус уже является важным результатом, позволяющим делать исследования по данному автору/жанру/периоду. Продуманная расстановка приоритетов по формированию подкорпусов позволит достаточно быстро двигаться к общему корпусу НКРЛ. По этому направлению планируется активное сотрудничество с другими центрами цифровых исследований, обмен данными и технологиями, совместная работа над НКРЛ.
♦ Репозиторий открытых данных
Создание хранилища открытых данных обеспечит возможность публикации данных наряду с публикацией результатов исследования. Репозиторий также решает задачу организации онлайн-доступа к данным в долгосрочной перспективе, предоставляет стандартизованный способ ссылаться на данные в публикациях и в целом поднимает видимость работы исследователей над подготовкой, проверкой и публикацией данных.
В качестве одного из стратегических направлений работы лаборатории, ориентированных на развитие научной инфраструктуры для цифровых исследований, предлагается организация репозитория открытых данных по истории русской литературы.
Подобные репозитории для открытых данных в области социальных наук существуют уже с 1990-х годов на базе различных научных учреждений, в частности, Гарвардского университета. Гарвардский университет совместно с Массачусетским технологическим институтом разработали для задач этого репозитория специальную ИТ-платформу DataVerse и опубликовали исходный код для свободного использования. ИРЛИ РАН выступает весьма подходящей институциональной площадкой для репозитория открытых данных по истории русской литературы.
Задачи лаборатории по этому направлению:
· Организация и сопровождение (в долгосрочной перспективе) собственного экземпляра базы DataVerse, предназначенного для публикации любых машиночитаемых данных, связанных с количественными исследованиями русской литературы.
· Популяризация репозитория и привлечение максимального количества исследователей, собирающих любые структурированные данные (библиографические, статистические, текстовые), связанные с исследованием литературного процесса, к публикации своих данных в репозитории.
· Популяризация опубликованных в репозитории банков данных среди исследователей, интересующихся количественными исследованиями по русской литературе с целью расширения их применения.
По этому направлению уже существуют предварительные договоренности с рядом коллег, которые готовы предоставить свои данные для публикации в репозитории.
♦ Количественные исследования в области истории и социологии русской литературы
Исследовательские проекты сотрудников лаборатории, в которых будут использоваться данные создаваемого в рамках первого направления корпуса русской литературы и его подкорпусов, а также библиографические и прочие данные по истории русской литературы.
Тематика и предметные области исследований будут включать, но не ограничиваться:
· корпусное исследование литературной эволюции;
· макроизменения в тематике и поэтике литературных текстов;
· корпусный анализ эволюции критических дискуссий;
· сетевые исследования литературного поля (биографические связи писателей).