2022 год

13.04.2022
Новый датасет: «Словарь русских писателей XVIII века: сеть персоналий»
В Репозитории открытых данных по русской литературе и фольклору опубликован новый датасет — сеть персоналий, построенная на основании междустатейных ссылок в «Словаре русских писателей XVIII века» (1988—2010. Вып. 1—3). Узлами сети выступают посвященные персоналиям статьи словаря, а ребрами — ссылки на другие статьи в том же словаре. Такая сеть позволяет проследить ключевые тенденции в социальном и интеллектуальном взаимодействии литераторов XVIII века. Данные без предварительной обработки можно загружать в программы для сетевого анализа при решении учебных задач.
Более внимательно рассмотреть сетевые связи литераторов из этого датасета можно с помощью интерактивного веб-приложения, построенного на данных этого датасета. Приложение позволяет работать с отдельными узлами сети, изучать их соседей и количественные характеристики.

08.04.2022

Обновление датасета: Корпус русской прозы для детей и юношества
Опубликована новая версия (2.0) датасета «Корпус русской прозы для детей и юношества». В новой версии пополнен подкорпус художественной литературы, преимущественно текстами 1920-х гг. Сборники повестей и рассказов были разобраны на отдельные произведения. Общий объем корпуса к настоящему моменту — 2703 произведения. Полнотекстовый поиск по новой версии корпуса доступен на сайте detcorpus.ru.


16.02.2022

Руководитель лаборатории цифровых исследований Кирилл Маслинский выступил с докладом «О культуре работы с данными в DH, или роль Репозитория открытых данных» на семинаре «Цифровая среда» Сибирского федерального университета.
Запись семинара доступна по ссылке https://www.youtube.com/watch?v=18BUQBh2P5E&ab_channel=DigitalHumanitiesResearchInstitute

2021 год

24.12.2021

Новый датасет: Хрестоматии Российской империи (1805—1912)
В Репозитории открытых данных по русской литературе и фольклору опубликован новый датасет — Хрестоматии Российской Империи с 1805 по 1912 гг. Данные представляют собой перечень литературных произведений и отрывков из них, напечатанных в русскоязычных хрестоматиях, выходивших на территории Российской Империи в указанный период. Авторы датасета Роман Лейбов и Алексей Вдовин работали с хрестоматиями de visu в библиотеках Санкт-Петербурга, Москвы, Таллина, Тарту, Елена Казакова откорректировала и подготовила данные к публикации.

Всего в базе содержится 11294 записи, имена авторов и произведений нормализованы в соответствии с формами, принятыми в современном литературоведении. Единицей вхождения является полное произведение или отрывок из него, при наличии сведений указаны границы отрывка, адресация хрестоматий, особенности публикации текстов. Дополнительно приведены полные библиографические описания источников.

Список хрестоматий не исчерпывает абсолютно всех изданий подобного типа, вышедших на территории империи за указанный период времени, поскольку охватывает преимущественно хрестоматии для среднего и старшего звена гимназий и реальных училищ. Пособия для начальной школы представлены в базе в очень ограниченном числе, так как художественные произведения в них использовались в первую очередь для обучения языку и грамматике, а не для историко-литературного разбора. По оценкам авторов, в датасете учтены 70—75% хрестоматий для средних классов и 10-15% хрестоматий для начальной школы.

11.11.2021

Важные новости — теперь ДетКорпус доступен исследователям не только для онлайн-поиска, но и в качестве датасета (https://dataverse.pushdom.ru/dataset.xhtml?persistentId=doi:10.31860/openlit-2021.4-C001), опубликованного в Репозитории открытых данных по литературе и фольклору. Формат и набор данных, включенных в датасет, подобран таким образом, чтобы на этом материале можно было воспроизвести статистические расчеты, сделанные на исходных текстах корпуса, а также проводить новые количественные исследования, опирающиеся на грамматическую и лексическую статистику. Подробное описание состава датасета (2273 прозаических произведения, опубликованных на русском языке в период с 1900-х по 2020-е годы) можно найти в файле README датасета и на сайте http://detcorpus.ru/.

Кроме технического обновления, есть и содержательное — новый выпуск Деткорпуса включает в себя более ста произведений 1920-х годов. Тексты предоставлены Российской государственной детской библиотекой и подготовлены к публикации: вычитаны и сверены с оригиналами. Благодаря сотрудничеству с РГДБ мы и дальше сможем пополнять Деткорпус произведениями начала XX века, расширяя ретроспективный охват нашей выборки. Среди ранних текстов стоит отдельно отметить подкорпус нон-фикшн 1920-х, в который вошли научно-популярные издания по естественным наукам, а также технике и технологиям. Интерфейс Деткорпуса позволяет познакомиться с фрагментами этих произведений, а иллюстрированные цифровые копии доступны для читателей в НЭДБ.

Лаборатория цифровых исследований литературы и фольклора и Центр исследований детской литературы тепло благодарят РГДБ и лично Илью Гавришина, благодаря которому это обновление стало возможным. За помощь с подготовкой текстов к публикации мы признательны главному библиографу ЛОДБ Любови Алейник, а также студенткам филологической программы НИУ ВШЭ СПб Злате Климас, Екатерине Стариковой и Анне Логиновой.

30.01.2021
Обновление Корпуса Детской литературы: русскоязычный интерфейс, пополнение коллекции и обновленные метаданные.

Новый релиз Деткорпуса содержит существенные обновления сразу в нескольких направлениях. Изменилась структура: теперь познавательная (нон-фикшн) и художественная литература для детей представляют собой два разных корпуса, переключаться между коллекциями текстов можно со страницы выбора корпуса: http://detcorpus.ru/search/#open
Интерфейс корпуса переведен на русский язык — пользователям стали доступны всплывающие подсказки, поясняющие работу корпусных инструментов, а также развернутые инструкции по работе с базовыми функциями интерфейса.
Существенная часть текстов дополнена метаданными, проаннотировано более 1000 текстов. Упорядочен вывод метаданных в корпусном интерфейсе, стали доступны краткие библиографические описания книжных изданий. Сейчас в корпусе все произведения сопровождаются как минимум базовым набором метаданных: автор, год издания корпусной копии и/или первого издания, выходные данные, — что одновременно упрощает атрибуцию цитат и расширяет возможности для количественного анализа.
Корпус пополнился несколькими сотнями произведений 1960-х—1980-х гг., а также несколькими десятками текстов 1920-х—1930-х. Добавлен подкорпус фантастики 1930-х—1960-х, выборка составлена на основе указателя «Детская литература» за 1946—1966 гг., к настоящему моменту этот подкорпус составляет 178 произведений. В корпусе появилась новая жанровая метка — biography, по ней можно отобрать беллетризированные биографии для детей.
Объем корпуса к настоящему моменту — 1991 произведение.

2020 год

08.12.2020
В Репозитории открытых данных по русской литературе и фольклору опубликован новый датасет — Корпус нарративной прозы XIX в.  Подробнее

10.11.2020
В Репозитории открытых данных по русской литературе и фольклору опубликован новый датасет — библиографические сведения о 602 детских книгах, изданных в Европе русскими эмигрантами первой волны с 1919 по 1954 гг. Данные собраны Анной Димяненко в процессе написания диссертации на соискание степени кандидата филологических наук «Детская книга русского зарубежья в Европе, 1920-1956-е гг.» и ранее полностью нигде не публиковались. Датасет подготовлен для автоматизированного анализа: нормализованы написания дат, авторов, городов издания, приведены географические координаты городов.
Этой публикацией мы открываем раздел Библиографических данных в Репозитории.

13.10.2020
В Репозитории открытых данных по русской литературе и фольклору опубликован новый датасет — сведения о встречах Ходасевича со знакомыми в эмиграции (1922—1939), которые он фиксировал в своем «Камер-фурьерском журнале». Данные подготовлены Борисом Ореховым, Павлом Успенским и Вероникой Файнберг для биографического исследования, опубликованного в «Русской литературе» (2018, № 3). Датасет ориентирован не только на исследовательское, но и на учебное применение: помимо исходных данных в табличном виде (journal.tsv) в датасет включены файлы сетевых данных, которые можно непосредственно загружать и визуализировать в Gephi.
Этой публикацией мы открываем раздел Биографических данных в Репозитории.

16.09.2020
Мы рады объявить об открытии нового раздела в Репозитории открытых данных по литературе и фольклору — Данные для воспроизводимых исследований. Раздел открывается публикацией датасета Бориса Орехова Стилеметрические данные «Тихого Дона» и современной ему прозы. Эти данные относятся к исследованию автора датасета (в соавторстве с Н. П. Великановой), в котором на основании стилеметрических показателей установлено, что «Тихий Дон» написан тем же автором, что и «Донские рассказы». Датасет позволяет более внимательно рассмотреть все количественные показатели и воспроизвести расчеты.
Открытием этого раздела и публикацией данных в нем мы (редакция Репозитория) надеемся внести свой скромный вклад в укрепление высоких стандартов доказательности и воспроизводимости и лучших практик публикации открытых данных в литературоведении. Вопросы и предложения относительно публикации данных в репозитории просим направлять Кириллу Александровичу Маслинскому.

18.05.2020
Лаборатория цифровых исследований литературы и фольклора ИРЛИ объявляет об открытии Репозитория открытых данных по русской литературе и фольклору.
Репозиторий — это ресурс для хранения и публикации научных данных, которые авторы предоставляют в свободный доступ другим исследователям. В нашем случае это корпуса оцифрованных литературных текстов и библиографические базы данных. Публикация открытых данных в машиночитаемых форматах расширяет возможности цифровых и количественных исследований литературы, делает более доступной кропотливо собранную справочную информацию. Что немаловажно, те же данные могут послужить удобным материалом для студенческих проектов в области digital humanities.
Задачи репозитория — повысить видимость и доступность данных и поддерживать культуру цитирования данных. Все публикуемые датасеты проходят рецензирование и техническую подготовку для того, чтобы обеспечить достоверность, полноту и консистентность данных и получают DOI.
Приглашаем к сотрудничеству исследователей и образовательные программы. По всем вопросам пишите заведующему лабораторией Кириллу Александровичу Маслинскому.

12.04.2020
Коллеги, анонсируем пополнение Деткорпуса и обновление его интерфейса. В корпусе теперь 1726 произведений, и появились новые инструменты работы с ними. Приглашаем изучать отечественную детскую литературу!

2019 год

20.06.2019
Алексей Владимирович Вдовин, доцент департамента истории и теории литературы ВШЭ выступил с докладом
Корпус «Русский роман XIX века»: источниковая база и принципы ее отбора.
В докладе пойдет речь о первых результатах проекта преподавателей и студентов департамента истории и теории литературы и центра Digital Humanities («Высшей школы экономики», Москва), занятых созданием первого электронного корпуса текстов русских романов XIX столетия. Первым этапом проекта стало создание базы данных, в которой содержатся библиографические сведения о 1500 романах. Докладчик расскажет о том, из каких библиографических и других источников формировалась база, по каким принципам отбирались и представлялись тексты, какой процент из них уже оцифрован и может быть интегрирован в корпус. База данных уже позволяет получать первичные сведения о динамике годового числа новых романов на протяжении 19 века, эволюции заглавий, местах первой публикации, типе повествования и проч.

13.05.2019
На семинаре выступила Екатерина Владимировна Рахилина,
доктор филологических наук, профессор, руководитель Школы лингвистики Факультета гуманитарных наук НИУ ВШЭ (Москва)  с докладом «М. Ю. Лермонтов «Герой нашего времени». Лингвистическое чтение».
Не бросающиеся в глаза сдвиги в лексико-грамматической структуре современного русского языка по сравнению с языком первой трети XIX века теперь можно исследовать с помощью Национального корпуса русского языка. Один из разработчиков НКРЯ Екатерина Владимировна Рахилина расскажет об этих изменениях на примере прозы М. Ю. Лермонтова. В качестве классического, хрестоматийного текста «Герой нашего времени» многократно комментировался специалистами и считается одним из самых прозрачных и понятных современному читателю, хотя бы в отношении языка. Тем более интересно на материале этого романа рассмотреть «под микроскопом» те изменения, которые за два века претерпел современный русский язык, стремительно отдаляющийся от канона классики.
Видеозапись семинара на youtube канале Пушкинского Дома https://www.youtube.com/watch?v=ujnlRIWRSsM

22.04.2019
Совместный семинар Лаборатории цифровых исследований литературы и фольклора и Центра исследований детской литературы. С докладом «Как Чистяков обошел Пушкина: измерение престижа и популярности в русской критике 1860-80-х гг.» выступила аспирантка Центра исследований детской литературы Ольга Лучкина.
В докладе речь пойдет о структуре литературного канона, реконструируемого на материале критики детской литературы XIX в. Дж. Д. Портер (Stanford Literary Lab) указывает на два способа войти в литературный канон: быть прочитанным многими («популярность») и быть ценным для избранной элиты («престиж»). С помощью этих двух измерений мы рассмотрим механизмы формирования канона, чтобы объяснить место М.Б. Чистякова и А.С. Пушкина в иерархии писателей для детей. Задача доклада — прояснить не только содержание канона, но и структуру, внутренние взаимосвязи. Решить эту задачу помогают количественные методы анализа данных.

14.03.2019
На втором семинаре Лаборатории цифровых исследований литературы и фольклора с докладом » Современный метод компьютерной атрибуции текстов: надёжность, ограничения, результаты» выступил Борис Орехов НИУ ВШЭ (Москва)
Доклад посвящен широко используемому в современных исследованиях методу Delta, появившемуся в начале 2000-х годов. Его повсеместное применение обусловлено многократно проверенной надежностью, доступностью использования и простотой интерпретации результатов. Особое внимание было уделено тому, как Delta работает на русскоязычном материале, и какие традиционные вопросы атрибуции помогает решать.

Видеозапись семинара на youtube канале Пушкинского Дома https://www.youtube.com/watch?v=dctOHDggv1M

14.02.2019
Лаборатория цифровых исследований Пушкинского Дома начинает серию семинаров, посвященных современным цифровым исследованиям литературы и фольклора.
14 февраля выступил научный сотрудник Тартуского университета Артем Шеля с докладом «Изменчивое, уникальное, неповторимое»: многомерная классификация стихотворных текстов и проблема поддельности.
Аннотация:
Хранит ли форма стиха уникальный отпечаток автора? Стиховедение по-разному отвечало на этот вопрос, но демонстрировало, что различные уровни стиха способны отражать как авторскую индивидуальность, так и характерные признаки эпохи. М. И. Шапир провел многоуровневый лингвостиховедческий анализ дубиальных текстов Г. С. Батенькова, однако увеличение набора переменных не дало оснований для однозначной атетезы: исследователь получил множество противоречивых сигналов, ни один из них не мог стать решающим.
Можно ли решить «проблему противоречивых сигналов» в атрибуции при помощи многомерной статистики и машинного обучения?
В докладе пойдет речь о возможностях применения методов компьютерной стилометрии для атрибуции и атетезы коротких стихотворных текстов. Будет в частности показано, что необходимый для корректной атрибуции значительный объем текста может быть сокращен за счет увеличения количества грамматических, лексических и стиховых метрик.