Меры расстояния для определения авторства древнегреческих текстов


Цифровые гуманитарные исследования. 2024. № 1

DOI: 10.31860/cgi-2024-1-8-33

Ольга Валерьевна Алиева
НИУ «Высшая школа экономики»
oalieva@hse.ru

Аннотация

Хотя классическая филология была одной из первых гуманитарных дисциплин, обратившейся к количественным исследованиям, стилометрия никогда не рассматривалась филологами как самодостаточный метод. Стилистические и языковые особенности — лишь один, не главный и не единственный, инструмент  исследователя, а из этих особенностей лишь некоторые могут быть описаны количественно. Более того, количественные методы пригодны только для отрицательного решения вопроса о подлинности, в то время как несомненных оснований для утвердительного решения вообще не существует. В настоящем исследовании сравниваются методы, в англоязычной литературе известные как distance-based approaches, то есть подходы, основанные на векторизации текстов через частотности токенов и измерении расстояний между векторами. Оценивается эффективность подобных методов в зависимости от длины отрывка и количества предикторов. Для сравнения привлекается корпус древнегреческой прозы объемом 694 тыс. слов. Наиболее эффективные метрики затем привлекаются для классификации трех спорных текстов.

Ключевые слова: стилометрия, авторство, межтекстовые расстояния,  метрики