2021 год

30.01.2021
Обновление Корпуса Детской литературы: русскоязычный интерфейс, пополнение коллекции и обновленные метаданные.

Новый релиз Деткорпуса содержит существенные обновления сразу в нескольких направлениях. Изменилась структура: теперь познавательная (нон-фикшн) и художественная литература для детей представляют собой два разных корпуса, переключаться между коллекциями текстов можно со страницы выбора корпуса: http://detcorpus.ru/search/#open
Интерфейс корпуса переведен на русский язык — пользователям стали доступны всплывающие подсказки, поясняющие работу корпусных инструментов, а также развернутые инструкции по работе с базовыми функциями интерфейса.
Существенная часть текстов дополнена метаданными, проаннотировано более 1000 текстов. Упорядочен вывод метаданных в корпусном интерфейсе, стали доступны краткие библиографические описания книжных изданий. Сейчас в корпусе все произведения сопровождаются как минимум базовым набором метаданных: автор, год издания корпусной копии и/или первого издания, выходные данные, — что одновременно упрощает атрибуцию цитат и расширяет возможности для количественного анализа.
Корпус пополнился несколькими сотнями произведений 1960-х—1980-х гг., а также несколькими десятками текстов 1920-х—1930-х. Добавлен подкорпус фантастики 1930-х—1960-х, выборка составлена на основе указателя «Детская литература» за 1946—1966 гг., к настоящему моменту этот подкорпус составляет 178 произведений. В корпусе появилась новая жанровая метка — biography, по ней можно отобрать беллетризированные биографии для детей.
Объем корпуса к настоящему моменту — 1991 произведение.

2020 год

08.12.2020
В Репозитории открытых данных по русской литературе и фольклору опубликован новый датасет — Корпус нарративной прозы XIX в.  Подробнее

10.11.2020
В Репозитории открытых данных по русской литературе и фольклору опубликован новый датасет — библиографические сведения о 602 детских книгах, изданных в Европе русскими эмигрантами первой волны с 1919 по 1954 гг. Данные собраны Анной Димяненко в процессе написания диссертации на соискание степени кандидата филологических наук «Детская книга русского зарубежья в Европе, 1920-1956-е гг.» и ранее полностью нигде не публиковались. Датасет подготовлен для автоматизированного анализа: нормализованы написания дат, авторов, городов издания, приведены географические координаты городов.
Этой публикацией мы открываем раздел Библиографических данных в Репозитории.

13.10.2020
В Репозитории открытых данных по русской литературе и фольклору опубликован новый датасет — сведения о встречах Ходасевича со знакомыми в эмиграции (1922—1939), которые он фиксировал в своем «Камер-фурьерском журнале». Данные подготовлены Борисом Ореховым, Павлом Успенским и Вероникой Файнберг для биографического исследования, опубликованного в «Русской литературе» (2018, № 3). Датасет ориентирован не только на исследовательское, но и на учебное применение: помимо исходных данных в табличном виде (journal.tsv) в датасет включены файлы сетевых данных, которые можно непосредственно загружать и визуализировать в Gephi.
Этой публикацией мы открываем раздел Биографических данных в Репозитории.

16.09.2020
Мы рады объявить об открытии нового раздела в Репозитории открытых данных по литературе и фольклору — Данные для воспроизводимых исследований. Раздел открывается публикацией датасета Бориса Орехова Стилеметрические данные «Тихого Дона» и современной ему прозы. Эти данные относятся к исследованию автора датасета (в соавторстве с Н. П. Великановой), в котором на основании стилеметрических показателей установлено, что «Тихий Дон» написан тем же автором, что и «Донские рассказы». Датасет позволяет более внимательно рассмотреть все количественные показатели и воспроизвести расчеты.
Открытием этого раздела и публикацией данных в нем мы (редакция Репозитория) надеемся внести свой скромный вклад в укрепление высоких стандартов доказательности и воспроизводимости и лучших практик публикации открытых данных в литературоведении. Вопросы и предложения относительно публикации данных в репозитории просим направлять Кириллу Александровичу Маслинскому.

18.05.2020
Лаборатория цифровых исследований литературы и фольклора ИРЛИ объявляет об открытии Репозитория открытых данных по русской литературе и фольклору.
Репозиторий — это ресурс для хранения и публикации научных данных, которые авторы предоставляют в свободный доступ другим исследователям. В нашем случае это корпуса оцифрованных литературных текстов и библиографические базы данных. Публикация открытых данных в машиночитаемых форматах расширяет возможности цифровых и количественных исследований литературы, делает более доступной кропотливо собранную справочную информацию. Что немаловажно, те же данные могут послужить удобным материалом для студенческих проектов в области digital humanities.
Задачи репозитория — повысить видимость и доступность данных и поддерживать культуру цитирования данных. Все публикуемые датасеты проходят рецензирование и техническую подготовку для того, чтобы обеспечить достоверность, полноту и консистентность данных и получают DOI.
Приглашаем к сотрудничеству исследователей и образовательные программы. По всем вопросам пишите заведующему лабораторией Кириллу Александровичу Маслинскому.

12.04.2020
Коллеги, анонсируем пополнение Деткорпуса и обновление его интерфейса. В корпусе теперь 1726 произведений, и появились новые инструменты работы с ними. Приглашаем изучать отечественную детскую литературу!

2019 год

20.06.2019
Алексей Владимирович Вдовин, доцент департамента истории и теории литературы ВШЭ выступил с докладом
Корпус «Русский роман XIX века»: источниковая база и принципы ее отбора.
В докладе пойдет речь о первых результатах проекта преподавателей и студентов департамента истории и теории литературы и центра Digital Humanities («Высшей школы экономики», Москва), занятых созданием первого электронного корпуса текстов русских романов XIX столетия. Первым этапом проекта стало создание базы данных, в которой содержатся библиографические сведения о 1500 романах. Докладчик расскажет о том, из каких библиографических и других источников формировалась база, по каким принципам отбирались и представлялись тексты, какой процент из них уже оцифрован и может быть интегрирован в корпус. База данных уже позволяет получать первичные сведения о динамике годового числа новых романов на протяжении 19 века, эволюции заглавий, местах первой публикации, типе повествования и проч.

13.05.2019
На семинаре выступила Екатерина Владимировна Рахилина,
доктор филологических наук, профессор, руководитель Школы лингвистики Факультета гуманитарных наук НИУ ВШЭ (Москва)  с докладом «М. Ю. Лермонтов «Герой нашего времени». Лингвистическое чтение».
Не бросающиеся в глаза сдвиги в лексико-грамматической структуре современного русского языка по сравнению с языком первой трети XIX века теперь можно исследовать с помощью Национального корпуса русского языка. Один из разработчиков НКРЯ Екатерина Владимировна Рахилина расскажет об этих изменениях на примере прозы М. Ю. Лермонтова. В качестве классического, хрестоматийного текста «Герой нашего времени» многократно комментировался специалистами и считается одним из самых прозрачных и понятных современному читателю, хотя бы в отношении языка. Тем более интересно на материале этого романа рассмотреть «под микроскопом» те изменения, которые за два века претерпел современный русский язык, стремительно отдаляющийся от канона классики.
Видеозапись семинара на youtube канале Пушкинского Дома https://www.youtube.com/watch?v=ujnlRIWRSsM

22.04.2019
Совместный семинар Лаборатории цифровых исследований литературы и фольклора и Центра исследований детской литературы. С докладом «Как Чистяков обошел Пушкина: измерение престижа и популярности в русской критике 1860-80-х гг.» выступила аспирантка Центра исследований детской литературы Ольга Лучкина.
В докладе речь пойдет о структуре литературного канона, реконструируемого на материале критики детской литературы XIX в. Дж. Д. Портер (Stanford Literary Lab) указывает на два способа войти в литературный канон: быть прочитанным многими («популярность») и быть ценным для избранной элиты («престиж»). С помощью этих двух измерений мы рассмотрим механизмы формирования канона, чтобы объяснить место М.Б. Чистякова и А.С. Пушкина в иерархии писателей для детей. Задача доклада — прояснить не только содержание канона, но и структуру, внутренние взаимосвязи. Решить эту задачу помогают количественные методы анализа данных.

14.03.2019
На втором семинаре Лаборатории цифровых исследований литературы и фольклора с докладом » Современный метод компьютерной атрибуции текстов: надёжность, ограничения, результаты» выступил Борис Орехов НИУ ВШЭ (Москва)
Доклад посвящен широко используемому в современных исследованиях методу Delta, появившемуся в начале 2000-х годов. Его повсеместное применение обусловлено многократно проверенной надежностью, доступностью использования и простотой интерпретации результатов. Особое внимание было уделено тому, как Delta работает на русскоязычном материале, и какие традиционные вопросы атрибуции помогает решать.

Видеозапись семинара на youtube канале Пушкинского Дома https://www.youtube.com/watch?v=dctOHDggv1M

14.02.2019
Лаборатория цифровых исследований Пушкинского Дома начинает серию семинаров, посвященных современным цифровым исследованиям литературы и фольклора.
14 февраля выступил научный сотрудник Тартуского университета Артем Шеля с докладом «Изменчивое, уникальное, неповторимое»: многомерная классификация стихотворных текстов и проблема поддельности.
Аннотация:
Хранит ли форма стиха уникальный отпечаток автора? Стиховедение по-разному отвечало на этот вопрос, но демонстрировало, что различные уровни стиха способны отражать как авторскую индивидуальность, так и характерные признаки эпохи. М. И. Шапир провел многоуровневый лингвостиховедческий анализ дубиальных текстов Г. С. Батенькова, однако увеличение набора переменных не дало оснований для однозначной атетезы: исследователь получил множество противоречивых сигналов, ни один из них не мог стать решающим.
Можно ли решить «проблему противоречивых сигналов» в атрибуции при помощи многомерной статистики и машинного обучения?
В докладе пойдет речь о возможностях применения методов компьютерной стилометрии для атрибуции и атетезы коротких стихотворных текстов. Будет в частности показано, что необходимый для корректной атрибуции значительный объем текста может быть сокращен за счет увеличения количества грамматических, лексических и стиховых метрик.