Страница:
Излагаемый ниже метод разбиения больших исторических текстов на однородные и неоднородные куски применим не только к графикам объема текстов, но и к другим численным характеристикам. Для упрощения изложения мы будем говорить здесь лишь о функциях объемов.
Выше мы говорили об однородных кусках исторических текстов. Однако в действительности, мы разобьем тексты на т.н. стационарные куски, являющиеся не только однородными, но и такими, что внутри них "параметры процесса" практически не меняются.
2. РАЗЛАДКИ В РУССКИХ ЛЕТОПИСЯХ.
Начнем с анализа русских летописей, собранных в Полном Собрании русских летописей (Москва, изд-во Наука). При этом из каждой летописи были выделены те куски, внутри которых имеется четкое разбиение на годы, что дало возможность вычислить объемы погодных фрагментов. Дело в том, что иногда в летописях имеются фрагменты, посвященные описанию длительных периодов и не имеющие детального разбиения по годам. Такие куски летописи не анализировались, так как отсутствие временной шкалы не позволяет вычислить функцию объема. Мы обработали функции объемов, вычисленные А.Т.Фоменко для следующих исторических текстов:
1) Двинской летописец (краткая редакция): фрагмент, описывающий события от 1390 до 1717 годов н.э.
2) Двинской летописец (пространная редакция): фрагмент, описывающий события от 1340 до 1751 годов н.э.
3) Повесть временных лет: фрагмент, описывающая события якобы от 850 до 1430 годов н.э.
4) Никифоровская летопись: фрагмент, описывающий события якобы от 850 до 1430 годов н.э.
5) Супрасльская летопись: фрагмент, описывающий события якобы от 850 до 1450 годов н.э.
6) Волынская летопись: фрагмент, описывающий события якобы от 860 до 1555 годов н.э.
7) Холмогорская летопись: фрагмент, описывающий события якобы от 850 до 1850 годов н.э.
8) Летописец князя Владимира Киевского: фрагмент, описывающий события якобы от 970 до 1237 годов н.э.
9) Летописец Рачинского: фрагмент, описывающий события от 1401 до 1548 годов н.э.
10) Евреиновская летопись: фрагмент, описывающий события от 1401 до 1547 годов н.э.
11) Академическая летопись: фрагмент, описывающий события от 1339 до 1446 годов н.э.
Функции объемов этих летописей приведены в Приложении 4.1. Результаты статистического анализа представлены на рис.Доп-2.3, рис.Доп-2.4, рис.Доп-2.5, рис.Доп-2.6.
На каждом рисунке указаны обнаруженные зоны однородности, а также выделены те куски, которые содержат мало данных, в которых статистический анализ не дает надежных результатов. ОТЧЕТЛИВО ВИДНЫ МОМЕНТЫ РАЗЛАДКИ. Каждый такой момент, то есть смена режима, определяется, конечно, приблизительно. На рисунках пунктиром указаны границы той зоны, внутри которой, с указанной на рисунках вероятностью, находится момент разладки, момент смены режима.
Приведем здесь также некоторые следствия из полученных результатов. Наиболее интересное - это наглядное обнаружение зависимостей между различными текстами. Напомним, что тексты называются зависимыми, если они описывают одни и те же события в истории одного региона на одном и том же интервале времени. В главе 3 настоящей книги была описана статистическая методика выявления зависимых и независимых текстов. В частности, применительно к русским летописям, была обнаружена зависимость, например, между следующими текстами:
Двинской летописец (краткая редакция) и Двинской летописец (пространная редакция).
Зависимость этих летописей абсолоютно естественна, так как эти два текста просто являются разными вариантами одной и той же хроники краткая и более полная версия. Чрезвычайно интересно, что факт зависимости проявляется и в результате применения метода выявления однородных и неоднородных кусков, а также моментов разладки. Естественно ожидать, что однородные куски внутри зависимых текстов должны быть "примерно одинаковыми". См. условное изображение на рис.Доп-2.7. И действительно, эта гипотеза подтверждается при анализе конкретных исторических текстов.
На рис.Доп-2.3 отчетливо видна корреляция между однородными кусками внутри краткой и полной редакций Двинского летописца.
В Главе 3 была обнаружена зависимость между Никифоровской и Супрасльской летописями. Эта зависимость проявляется и в результатах, полученных методом, излагаемым здесь. В самом деле, на рис.Доп-2.5 отчетливо видна корреляция между однородными кусками внутри Никифоровской и Супрасльской хроник. Интересно сравнить эти результаты со структурой знаменитой "Повести временных лет". Дело в том, что эта хроника также в значительной мере зависима с Никифоровской и Супрасльской летописями. Однако, "Повесть временных лет" существенно подробнее две другие хроники и в то же время она существенно короче. Поэтому на рис.Доп-2.4 эта зависимость не проявляется, если не считать примерно одновременного "начала лакун". Поскольку обсуждаемый здесь метод обрабатывает амплитуды графиков объема, то здесь существенную роль играет разница между богатыми и бедными летописями. В данном примере "Повесть временных лет" - богатая летопись, а Никифоровская и Супрасльская - бедные летописи. Амплитудные корреляции между зависимыми бедными и богатыми текстами обсуждаются в работах С.Т.Рачева и А.Т.Фоменко. См. Главу 3.
Таким образом, при сравнении летописей приблизительно одного уровня подробности (изложения) полученные здесь результаты согласуются с результатами, полученными ранее на основе совсем других идей.
Кроме перечисленных выше русских летописей, были обработаны также следующие хроники из Полного собрания русских летописей.
АКАДЕМИЧЕСКАЯ ЛЕТОПИСЬ. Оказалось, что здесь - мало данных для уверенного применения метода обнаружения разладки. Длительность погодного интервала примерно 100 лет с лакуной около 40 лет.
ЛЕТОПИСЕЦ КН. ВЛАДИМИРА КИЕВСКОГО. Здесь тоже мало данных. Описанный интервал времени меньше 80 лет, причем - с лакунами.
РАЧИНСКАЯ И ЕВРЕИНОВСКАЯ ЛЕТОПИСИ. Здесь мало данных. Описанный интервал - 150 лет, причем с лакуной примерно в 50 лет.
3. РАЗЛАДКИ В ТРУДЕ ТИТА ЛИВИЯ И ТРУДЕ БАРОНИЯ.
Наряду с русскими летописями, были обработаны два фундаментальных текста по "древне-римской" и средневековой истории:
1) Тит Ливий, "История от основания Города" [124]. В ней был выделен погодный фрагмент, без больших лакун, описывающий события от 1-го года от основания Города (якобы Рима) до 465 года от основания Города. Эта хроника описывает события в "античном" Риме якобы от 753 года до н.э. до 288 года до н.э., согласно скалигеровской хронологии. А.Т.Фоменко подсчитал объемы глав-поколений, на которые естественно разбивается книга Тита Ливия. Затем, в результате нашего статистического исследования внутри текста Ливия была найдена одна разладка. Формально - две, но они оказались очень близки и соответствующие доверительные интервалы практически совпадают. См.рис.Доп-2.8. Эта разладка происходит примерно в 390-400 гг. от основания Города, то есть якобы около 350 года до н.э., согласно скалигеровской хронологии. Доверительный интервал - от 360 до 440 годов от основания Города, то есть якобы от 400 до 310 годов до н.э. Функция объема труда Т.Ливия приведена в Приложении 4.2.
2) Baronius, Annales ecclesiastici a Christo nato ad annum 1198, изд. Москва, 1913, т.1, [533]. Этот текст описывает события в средневековом Риме. Был выделен погодный фрагмент якобы от 1 года н.э. до 400 года н.э. Здесь были подсчитаны объемы погодных фрагментов, на которые стандартным образом разбивается книга Барония. Функция объема книги Барония приведена в Приложении 4.3.
Статистическая зависимость этих двух текстов уже была указана выше в Главе 4. На рис.Доп-2.8 представлены зоны стационарности, обнаруженные в результате статистического эксперимента, обсуждаемого в настоящей работе. Здесь снова сравниваются тексты разной степени подробности, потому зависимость текстов может проявляться слабо. Как видно из рис.Доп-2.8, зоны стационарности распределены "достаточно похоже". Хотя в рамках данного метода оценить степень близости количественно достаточно трудно. Такому сравнению препятствует, к сожалению, то обстоятельство, что начальная часть труда Тита Ливия недостаточно информативна для описываемого здесь метода сравнения текстов.
4. РАЗЛАДКИ В "ИСТОРИИ" ГЕРОДОТА И В "ИСТОРИИ" ТАЦИТА.
Мы исследовали также "Историю" Геродота (Л.: Наука, 1972). Функция объема приведена в Таблице Доп.2.1.
В результате, в книге Геродота [39] были обнаружены две разладки:
1) Третья книга, фрагмент 83 плюс-минус 56. Доверительный
интервал - от начала третьей книги до ее конца.
2) Восьмая книга, фрагмент 88 плюс-минус 80. Доверительный
интервал накрывает восьмую книгу и самое
начало девятой книги.
СЛЕДСТВИЕ.
Тем самым доказано, что текст "Истории" Геродота НЕОДНОРОДЕН и, следовательно, является некоторой компиляцией ПО КРАЙНЕЙ МЕРЕ ТРЕХ существенно различных текстов. Эта компиляция могла быть осуществлена как самим Геродотом, так и средневековыми редакторами, которые ввели в научный оборот текст Геродота. То же относится и к "Истории от основания Города" Тита Ливия (см.выше), внутри которой мы обнаружили одну разладку.
Мы исследовали также "Историю" и "Анналы" Тацита [194]. Оказалось, что:
1) "Анналы" Тацита однородны и разладок не содержат. Это может указывать на то, что текст "Анналов" написан одним автором.
2) В "Истории" Тацита есть одна разладка: третья книга, фрагмент 50 плюс-минус 23. Эта разладка приходится приблизительно на момент прихода к власти римского императора Веспасиана. Наличие разладки может указывать на то, что "История" Тацита сшита из двух разных текстов.
3) Совокупный текст Тацита, состоящий из "Анналов" и "Истории", содержит только одну разладку внутри "Истории". Там же, где была обнаружена разладка в "Истории", рассмотренной выше отдельно.
СЛЕДСТВИЕ.
Этот результат неожиданно проливает свет на известную проблему. Дело в том, что вопрос о принадлежности "Анналов" и "Истории" одному и тому же автору уже неоднократно дискутировался в научной литературе. См. подробности этой научной дискуссии в Главе 5. Из наших результатов следует, что "Анналы" и часть "Истории" написаны, повидимому, ОДНИМ И ТЕМ ЖЕ АВТОРОМ, или компилятором. Вторая же часть "Истории", а именно, начиная с описания императора Веспасиана, скорее всего либо написана кем-то другим. Возможен также и следующий вариант: "Тацит" - это не автор, а компилятор, который попросту соединил в одном тексте две разнородных хроники.
5. РАЗЛАДКИ В БИБЛИИ.
Наконец, нами была обработана Библия, включая как Ветхий Завет, так и Новый Завет. При этом была использована Библия издания Московской патриархии, 1979 года. Хорошо известно, что каждая книга Библии канонически разбита на отдельные главы, состоящие из стихов. Г.В.Носовский и А.Т.Фоменко подсчитали объемы этих канонических глав, измеренные:
а) количеством строк (имеются в виду строки в стандартном издании Библии),
б) количеством стихов.
Так как разные стихи состоят, вообще говоря, из разного количества строк, то этих две характеристики объема главы разнятся. Интересно сравнить результаты, полученные обработкой этих двух разных функций объемов. Таблица объемов (в стихах и в строках) приведена в Таблице Доп.2.2. Всего в Библии 1357 глав.
Статистический анализ, выполненный затем Б.С.Дарховским и Б.Е. Бродским, показал следующее. См.рис.Доп-2.9.
а) ОТДЕЛЬНО ВЗЯТЫЙ ВЕТХИЙ ЗАВЕТ СОДЕРЖИТ СЛЕДУЮЩИЕ ПЯТЬ РАЗЛАДОК (указывая их, мы используем сквозную нумерацию всех стандартных глав Библии, а также приводим соответствующие стандартные ссылки на главы библейских книг):
1) 159 плюс-минус 42 ( = Второзаконие 6; доверительный интервал
от начала книги Числа до середины книги Иисуса Навина).
2) 341 плюс-минус 53 ( = 1 Паралипоменон 3; доверительный
интервал от конца 2 книги Царств до середины 2 книги
Паралипоменон).
3) 517 плюс-минус 31 ( = Иов 42 = последняя глава книги Иова;
доверительный интервал от начала книги Иова до
начала книги Псалтырь).
4) 724 плюс-минус 49 ( = Премудрость Соломона 6; доверительный
интервал от середины книги Притчи Соломона до конца
книги Иисуса сына Сирахова).
5) 966 плюс-минус 62 ( = Даниил 1; доверительный интервал от
конца книги Иеремии до конца книги Аггея).
б) ОТДЕЛЬНО ВЗЯТЫЙ НОВЫЙ ЗАВЕТ СОДЕРЖИТ ОДНУ РАЗЛАДКУ, отделяющую Евангелия, и возможно, Деяния апостолов, от остальной части Нового Завета (Послания и Апокалипсис). Точное место этой разладки: 1212 плюс-минус 18 ( = Деяния апостолов 23; доверительный интервал от начала Деяний апостолов до конца второго послания Петра).
в) Был исследован также весь текст Библии, то есть Ветхий + Новый Заветы. ЗДЕСЬ БЫЛА НАЙДЕНА РАЗЛАДКА, ОТДЕЛЯЮЩАЯ ВЕТХИЙ ЗАВЕТ ОТ НОВОГО.
СЛЕДСТВИЕ 1.
Чрезвычайно интересно сравнить эти результаты с проведенным ранее А.Т.Фоменко анализом хронологии Библии. См. Главу 4 настоящей книги. Напомним, что в результате этого анализа в Библии была обнаружена серия "коротких" дубликатов, разделяющих большие блоки книг, дублирующие друг друга, и являющиеся, грубо говоря, отражением одной и той же хроники. Упомянутые короткие дубликаты (они были названы А.Т.Фоменко Т-серией в позднейших публикациях) как правило, появляются в начале и в конце этой хроники.
Естественно ожидать, что в тех местах, где были обнаружены дубликаты Т-серии, должны находиться и места разладок. Эта гипотеза подтверждается. В самом деле, все разладки, находящиеся в т.н. "исторической части" Библии, то есть от начала Библии до книг Пророков, в точности попали в те места, где находится Т-дубликаты. Это - первая и вторая разладки из списка разладок в Ветхом Завете (см. выше).
СЛЕДСТВИЕ 2.
Третья, четвертая и пятая разладки в Ветхом Завете совершенно естественны с точки зрения классической библеистики. А именно, порождаемое ими разделение Библии в точности совпадает с хорошо известным разделением Библии, приводимом во всех стандартных комментариях. А именно:
Третья разладка приходится в точности на начало блока т.н. "Писаний" (Псалтырь, Притчи Соломона, Екклезиаст, Песнь Песней, Книга Премудрости Соломона, Премудрости Иисуса сына Сирахова).
Четвертая разладка указывает начало блока книг великих Пророков (Исаия, Иеремия, Иезекииль).
Пятая разладка отделяет "великих пророков" от "малых пророков".
СЛЕДСТВИЕ 3.
Хорошо известным фактом является обособление Евангелий внутри Нового Завета. Это обстоятельство подтверждается нашим анализом и отражается в наличии разладки, обнаруженной нами в Новом Завете и, кстати, единственной (!).
ВЫВОД.
Все разладки, обнаруженные вне исторической части Библии, имеют вполне естественное объяснение и отражают известные науке границы между разнородными частями Библии. А разладки, находящиеся в исторической части, являются НОВЫМИ, РАНЕЕ НЕИЗВЕСТНЫМИ в классической библеистике. Как мы уже говорили, они имеют естественную хронологическую интерпретацию в рамках "статистической хронологии".
Полная картина разладок в Библии показана на рис.Доп-2.9. Для каждой разладки указаны ее статистическая оценка (точечная) и границы доверительного интервала, в котором истинное значение разладки находится с вероятностью 0,9. Вероятность "ложной тревоги", то есть вероятность указать разладку несмотря на то, что ее в действительности нет, равна 0,05. Прямоугольниками (разной высоты) отмечены однородные стационарные зоны внутри Библии.
Замечательным фактом является то, что границы однородных зон стационарности, обнаруженные в Библии, практически совпадают с границами зон однородности, найденными в Библии применением совсем других методов. Подробности см. выше - в Главах 3 и 4 . Методы, предложенные там, являются более тонкими, чем метод поиска разладки, а потому они обнаружили также более тонкое разбиение книг Библии на "однородные куски".
На рис.Доп-2.10 обнаруженные зоны однородности изображены на другой шкале. Здесь Библия представлена как объединение фрагментов, названных в Главе 3 главами-поколениями. Это разбиение Библии отличается от канонического разбиения Библии на обычные главы. Грубо говоря, глава-поколение - это фрагмент текста, описывающий события, происшедшие в течение одного поколения (или при жизни одного какого-то главного персонажа). Иногда одна глава-поколение может состоять из нескольких стандартных глав Библии (обычно эти последние - "более мелкие", чем главы-поколения). Поэтому при переходе к новой шкале,несколько стандартных глав могут склеиться в одну главу-поколение. На рис.Доп-2.10 изображен этот пересчет: какие стандартные главы вошли в состав одной главы-поколения. На рис.Доп-2.10 приведено также сравнение результатов, полученных методом разладки, с разбиением Библии (на группы глав-поколений), полученные другими методами. Налицо поразительное согласование.
ДОПОЛНЕНИЕ 3.
В.П.Фоменко, Т.Г.Фоменко
АВТОРСКИЙ ИНВАРИАНТ РУССКИХ ЛИТЕРАТУРНЫХ ТЕКСТОВ.
ПРИЛОЖЕНИЕ: КТО БЫЛ АВТОРОМ "ТИХОГО ДОНА"?
Комментарий А.Т.Фоменко (Москва, Московский государстьвенный университет, механико-математический факультет).
Вниманию читателя предлагается исследование, выполненное моими родителями Валентиной Поликарповной Фоменко и Тимофеем Григорьевичем Фоменко в 1974-1981 годах. В полном объеме их работа публикуется здесь впервые. В краткой форме она вошла в 1983 году в сборник "Методы количественного анализа текстов нарративных источников", Москва, 1983, Академия Наук СССР, Ин-т Истории СССР, с.86-109.
Главным результатом настоящей работы является обнаружение "авторского инварианта" для русских литературных текстов. Он позволяет различать некоторых авторов и оказывается полезным при решении проблем, связанных с плагиатом. Этот результат был получен на основе некоторой общей идеи - статистического анализа функций объема для нарративных текстов. Функции объема были введены в работе [р19], где были также предложены некоторые новые эмпирико-сатистические модели анализа информации в нарративных текстах. Развитие этих идей можно найти также в работе [р20].
Настоящая работа находится, на первый взгляд, несколько в стороне от исследований по основам древней хронологии. Однако, этот материал показывает - как могут ЭМПИРИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ использоваться при решении не только хронологических, но и других смежных проблем, например, - при установлении авторства письменного документа. А поскольку центральным стержнем нашего анализа письменной истории являются эмпирико-статистические методы, мы и решили познакомить читателя с этим исследованием. Тем более, что проблема установления авторства в современной и в древней литературе является чрезвычайно актуальной и любые новые методы в этой области могут оказаться полезными.
1. ВВЕДЕНИЕ. ВКРАТЦЕ ОБ ИСТОРИИ ПРОБЛЕМЫ.
В литературе, истории, лингвистике часто возникает вопрос об атрибуции литературных произведений - действительно ли они написаны одним автором. Действительно ли диалоги Платона написаны одним человеком? Правда ли, что пьесы Шекспира творения одного гения? Или же они написаны разными людьми? Кто в действительности скрывается под именем "Шекспир"? Специальный интерес приобретает эта проблема, когда возникает подозрение в плагиате.
Особое звучание задачи такого сорта приобретают при исследовании ДРЕВНИХ текстов, данные об авторах которых утрачены или сомнительны.
Укажем лишь на некоторые подходы к решению таких задач.
Например, в работе В.Фукса [р1] изучался вопрос об авторстве некоторых древних текстов на основе статистического анализа различных ГРАММАТИЧЕСКИХ структур их языка.
Много исследований посвящено обнаружению количественных закономерностей, позволяющих различать между собой РАЗНЫЕ ЛИТЕРАТУРНЫЕ ЖАНРЫ - поэзию, драматургию, публицистику и пр. [р2].
Попытка использования точных математических приемов для решения проблемы плагиата изложена, например, в книге [р10].
Проблеме обнаружения авторских инвариантов посвящена значительная научная литература. Так например, структура языка различных авторов изучалась с помощью отдельных распорядительных слов, в частности, предлога "в", частицы "не" [р3], или при помощи длины предложений и слов [р4]. Однако, как показали эксперименты, использование лингвистических спектров ОТДЕЛЬНЫХ распорядительных слов не позволяет обнаружить устойчивые инварианты. На это указал еще в 1916 году академик А.А.Марков [р5], отметивший что при больших объемах выборок результаты такого типа должны "колебаться около среднего числа, подчиняясь общим законам языка", что естественно затрудняет различение авторов.
Полезный подход продемонстрирован в ряде работ В.Фукса, где каждому автору сопоставляются такие его характеристики, как среднене количество слогов и среднее количество слов в предложении. Этот прием позволяет изобразить текст (автора) точкой на плоскости в случае использования двух параметров, или же точкой в многомерном пространстве (если число параметров возрастает).
Интересные исследования ведутся и в отечественной филологии (см., например, [р6]-[р9]).
Следует отметить общую характерную особенность этих и многих других (не упомянутых нами здесь) исследований. Обычно изучаются индивидуальные количественные параметры текстов и путем их сравнения ученые старались выявить "значимые различия", опираясь на которые можно было бы отличить друг от друга разных авторов. Однако главным вопросом здесь является - какие различия следует считать значимыми, а какие - нет. Тут открывается простор для субъективизма. И здесь коренятся главные трудности применения статистических методов к задачам такого сорта.
2. ЧТО ТАКОЕ АВТОРСКИЙ ИНВАРИАНТ?
Под АВТОРСКИМ ИНВАРИАНТОМ мы понимаем количественную характеристику литературных текстов (некий параметр), который
а) однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов", и
б) принимает существенно разные значения для произведений разных групп авторов.
Желательно, чтобы число "разных групп" было достаточно велико, и чтобы каждая группа объединяла относительно мало похожих, близких по стилю авторов.
Однако многообразие грамматических структур, участвующих в формировании литературных текстов, сильно затрудняет поиски таких инвариантов. Уже простые вычислительные эксперименты показывают, что обнаружение числовых характеристик, различающих разных авторов, - сложная задача. Дело в том, что когда человек пишет книгу, то существенную роль играют не только подсознательные, но и сознательные факторы. Например, частота употребления автором РЕДКИХ И ИНОСТРАННЫХ СЛОВ может, конечно, служить неким показателем его стиля, эрудиции. Однако этот показатель ЛЕГКО КОНТРОЛИРУЕТСЯ автором на СОЗНАТЕЛЬНОМ уровне, поскольку редкие и иностранные слова вставляются в текст нечасто и каждый раз автор специально отмечает про себя: "здесь я вставляю иностранное или редкое слово". В результате, как неопровержимо свидетельствуют конкретные подсчеты, использовать эту числовую характеристику в качестве авторского инварианта НЕЛЬЗЯ. Она контролируется автором, "скачет" и писатель может легко менять ее от произведения к произведению.
Отсюда видно, что количественная оценка индивидуальных отличительных особенностей автора - весьма нетривиальная задача. Сформулируем точнее - какими свойствами должен обладать авторский инвариант.
Искомая числовая характеристика должна удовлетворять следующим естественным требованиям.
1) Она должна быть достаточно "массовой", интегральной, чтобы СЛАБО КОНТРОЛИРОВАТЬСЯ автором на сознательном уровне. Другими словами, она должна быть его "бессознательным параметром", коренящимся настолько глубоко, что автор даже не задумывается о нем. А если бы даже задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и ТИПИЧНОЕ для него состояние.
2) Искомый параметр должен сохранять "постоянное значение" для произведений данного автора. То есть, иметь небольшое отклонение от среднего значения (слабо колебаться) на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является ИНВАРИАНТОМ.
3) Наконец, параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.
Третье условие важно. Ведь может случиться так, что некий параметр окажется слабо колеблющимся вдоль произведений каждого отдельного писателя, однако в то же время принимает ОДНО И ТО ЖЕ ЗНАЧЕНИЕ, будучи вычислен для РАЗНЫХ авторов. Другими словами, он не позволяет различать писателей.
ТОЛЬКО СОЧЕТАНИЕ ВСЕХ ТРЕХ ПЕРЕЧИСЛЕННЫХ УСЛОВИЙ ПОЗВОЛЯЕТ ГОВОРИТЬ, ЧТО МЫ ОБНАРУЖИЛИ АВТОРСКИЙ ИНВАРИАНТ.
3. НАШ ПОДХОД. ВЫБОРКИ И ШАГИ,
ЭВОЛЮЦИЯ ПАРАМЕТРА ВДОЛЬ ТЕКСТА.
Пусть в нашем распоряжении оказалось какое-то количество произведений одного писателя. Для удобства упорядочим их хронологически (т.е. в порядке написания) и для краткости назовем получившуюся совокупность - ТЕКСТОМ ДАННОГО АВТОРА. Таким образом, текст автора (в нашем определении) может состоять из нескольких различных произведений - романов, повестей, рассказов и т.п.
Выделим теперь из этого текста отдельные фрагменты выборки одинакового объема, т.е. состоящие из одного и того же (фиксированного заранее) количества слов. Это количество слов естественно назвать ОБЪЕМОМ ВЫБОРКИ.
Выше мы говорили об однородных кусках исторических текстов. Однако в действительности, мы разобьем тексты на т.н. стационарные куски, являющиеся не только однородными, но и такими, что внутри них "параметры процесса" практически не меняются.
2. РАЗЛАДКИ В РУССКИХ ЛЕТОПИСЯХ.
Начнем с анализа русских летописей, собранных в Полном Собрании русских летописей (Москва, изд-во Наука). При этом из каждой летописи были выделены те куски, внутри которых имеется четкое разбиение на годы, что дало возможность вычислить объемы погодных фрагментов. Дело в том, что иногда в летописях имеются фрагменты, посвященные описанию длительных периодов и не имеющие детального разбиения по годам. Такие куски летописи не анализировались, так как отсутствие временной шкалы не позволяет вычислить функцию объема. Мы обработали функции объемов, вычисленные А.Т.Фоменко для следующих исторических текстов:
1) Двинской летописец (краткая редакция): фрагмент, описывающий события от 1390 до 1717 годов н.э.
2) Двинской летописец (пространная редакция): фрагмент, описывающий события от 1340 до 1751 годов н.э.
3) Повесть временных лет: фрагмент, описывающая события якобы от 850 до 1430 годов н.э.
4) Никифоровская летопись: фрагмент, описывающий события якобы от 850 до 1430 годов н.э.
5) Супрасльская летопись: фрагмент, описывающий события якобы от 850 до 1450 годов н.э.
6) Волынская летопись: фрагмент, описывающий события якобы от 860 до 1555 годов н.э.
7) Холмогорская летопись: фрагмент, описывающий события якобы от 850 до 1850 годов н.э.
8) Летописец князя Владимира Киевского: фрагмент, описывающий события якобы от 970 до 1237 годов н.э.
9) Летописец Рачинского: фрагмент, описывающий события от 1401 до 1548 годов н.э.
10) Евреиновская летопись: фрагмент, описывающий события от 1401 до 1547 годов н.э.
11) Академическая летопись: фрагмент, описывающий события от 1339 до 1446 годов н.э.
Функции объемов этих летописей приведены в Приложении 4.1. Результаты статистического анализа представлены на рис.Доп-2.3, рис.Доп-2.4, рис.Доп-2.5, рис.Доп-2.6.
На каждом рисунке указаны обнаруженные зоны однородности, а также выделены те куски, которые содержат мало данных, в которых статистический анализ не дает надежных результатов. ОТЧЕТЛИВО ВИДНЫ МОМЕНТЫ РАЗЛАДКИ. Каждый такой момент, то есть смена режима, определяется, конечно, приблизительно. На рисунках пунктиром указаны границы той зоны, внутри которой, с указанной на рисунках вероятностью, находится момент разладки, момент смены режима.
Приведем здесь также некоторые следствия из полученных результатов. Наиболее интересное - это наглядное обнаружение зависимостей между различными текстами. Напомним, что тексты называются зависимыми, если они описывают одни и те же события в истории одного региона на одном и том же интервале времени. В главе 3 настоящей книги была описана статистическая методика выявления зависимых и независимых текстов. В частности, применительно к русским летописям, была обнаружена зависимость, например, между следующими текстами:
Двинской летописец (краткая редакция) и Двинской летописец (пространная редакция).
Зависимость этих летописей абсолоютно естественна, так как эти два текста просто являются разными вариантами одной и той же хроники краткая и более полная версия. Чрезвычайно интересно, что факт зависимости проявляется и в результате применения метода выявления однородных и неоднородных кусков, а также моментов разладки. Естественно ожидать, что однородные куски внутри зависимых текстов должны быть "примерно одинаковыми". См. условное изображение на рис.Доп-2.7. И действительно, эта гипотеза подтверждается при анализе конкретных исторических текстов.
На рис.Доп-2.3 отчетливо видна корреляция между однородными кусками внутри краткой и полной редакций Двинского летописца.
В Главе 3 была обнаружена зависимость между Никифоровской и Супрасльской летописями. Эта зависимость проявляется и в результатах, полученных методом, излагаемым здесь. В самом деле, на рис.Доп-2.5 отчетливо видна корреляция между однородными кусками внутри Никифоровской и Супрасльской хроник. Интересно сравнить эти результаты со структурой знаменитой "Повести временных лет". Дело в том, что эта хроника также в значительной мере зависима с Никифоровской и Супрасльской летописями. Однако, "Повесть временных лет" существенно подробнее две другие хроники и в то же время она существенно короче. Поэтому на рис.Доп-2.4 эта зависимость не проявляется, если не считать примерно одновременного "начала лакун". Поскольку обсуждаемый здесь метод обрабатывает амплитуды графиков объема, то здесь существенную роль играет разница между богатыми и бедными летописями. В данном примере "Повесть временных лет" - богатая летопись, а Никифоровская и Супрасльская - бедные летописи. Амплитудные корреляции между зависимыми бедными и богатыми текстами обсуждаются в работах С.Т.Рачева и А.Т.Фоменко. См. Главу 3.
Таким образом, при сравнении летописей приблизительно одного уровня подробности (изложения) полученные здесь результаты согласуются с результатами, полученными ранее на основе совсем других идей.
Кроме перечисленных выше русских летописей, были обработаны также следующие хроники из Полного собрания русских летописей.
АКАДЕМИЧЕСКАЯ ЛЕТОПИСЬ. Оказалось, что здесь - мало данных для уверенного применения метода обнаружения разладки. Длительность погодного интервала примерно 100 лет с лакуной около 40 лет.
ЛЕТОПИСЕЦ КН. ВЛАДИМИРА КИЕВСКОГО. Здесь тоже мало данных. Описанный интервал времени меньше 80 лет, причем - с лакунами.
РАЧИНСКАЯ И ЕВРЕИНОВСКАЯ ЛЕТОПИСИ. Здесь мало данных. Описанный интервал - 150 лет, причем с лакуной примерно в 50 лет.
3. РАЗЛАДКИ В ТРУДЕ ТИТА ЛИВИЯ И ТРУДЕ БАРОНИЯ.
Наряду с русскими летописями, были обработаны два фундаментальных текста по "древне-римской" и средневековой истории:
1) Тит Ливий, "История от основания Города" [124]. В ней был выделен погодный фрагмент, без больших лакун, описывающий события от 1-го года от основания Города (якобы Рима) до 465 года от основания Города. Эта хроника описывает события в "античном" Риме якобы от 753 года до н.э. до 288 года до н.э., согласно скалигеровской хронологии. А.Т.Фоменко подсчитал объемы глав-поколений, на которые естественно разбивается книга Тита Ливия. Затем, в результате нашего статистического исследования внутри текста Ливия была найдена одна разладка. Формально - две, но они оказались очень близки и соответствующие доверительные интервалы практически совпадают. См.рис.Доп-2.8. Эта разладка происходит примерно в 390-400 гг. от основания Города, то есть якобы около 350 года до н.э., согласно скалигеровской хронологии. Доверительный интервал - от 360 до 440 годов от основания Города, то есть якобы от 400 до 310 годов до н.э. Функция объема труда Т.Ливия приведена в Приложении 4.2.
2) Baronius, Annales ecclesiastici a Christo nato ad annum 1198, изд. Москва, 1913, т.1, [533]. Этот текст описывает события в средневековом Риме. Был выделен погодный фрагмент якобы от 1 года н.э. до 400 года н.э. Здесь были подсчитаны объемы погодных фрагментов, на которые стандартным образом разбивается книга Барония. Функция объема книги Барония приведена в Приложении 4.3.
Статистическая зависимость этих двух текстов уже была указана выше в Главе 4. На рис.Доп-2.8 представлены зоны стационарности, обнаруженные в результате статистического эксперимента, обсуждаемого в настоящей работе. Здесь снова сравниваются тексты разной степени подробности, потому зависимость текстов может проявляться слабо. Как видно из рис.Доп-2.8, зоны стационарности распределены "достаточно похоже". Хотя в рамках данного метода оценить степень близости количественно достаточно трудно. Такому сравнению препятствует, к сожалению, то обстоятельство, что начальная часть труда Тита Ливия недостаточно информативна для описываемого здесь метода сравнения текстов.
4. РАЗЛАДКИ В "ИСТОРИИ" ГЕРОДОТА И В "ИСТОРИИ" ТАЦИТА.
Мы исследовали также "Историю" Геродота (Л.: Наука, 1972). Функция объема приведена в Таблице Доп.2.1.
В результате, в книге Геродота [39] были обнаружены две разладки:
1) Третья книга, фрагмент 83 плюс-минус 56. Доверительный
интервал - от начала третьей книги до ее конца.
2) Восьмая книга, фрагмент 88 плюс-минус 80. Доверительный
интервал накрывает восьмую книгу и самое
начало девятой книги.
СЛЕДСТВИЕ.
Тем самым доказано, что текст "Истории" Геродота НЕОДНОРОДЕН и, следовательно, является некоторой компиляцией ПО КРАЙНЕЙ МЕРЕ ТРЕХ существенно различных текстов. Эта компиляция могла быть осуществлена как самим Геродотом, так и средневековыми редакторами, которые ввели в научный оборот текст Геродота. То же относится и к "Истории от основания Города" Тита Ливия (см.выше), внутри которой мы обнаружили одну разладку.
Мы исследовали также "Историю" и "Анналы" Тацита [194]. Оказалось, что:
1) "Анналы" Тацита однородны и разладок не содержат. Это может указывать на то, что текст "Анналов" написан одним автором.
2) В "Истории" Тацита есть одна разладка: третья книга, фрагмент 50 плюс-минус 23. Эта разладка приходится приблизительно на момент прихода к власти римского императора Веспасиана. Наличие разладки может указывать на то, что "История" Тацита сшита из двух разных текстов.
3) Совокупный текст Тацита, состоящий из "Анналов" и "Истории", содержит только одну разладку внутри "Истории". Там же, где была обнаружена разладка в "Истории", рассмотренной выше отдельно.
СЛЕДСТВИЕ.
Этот результат неожиданно проливает свет на известную проблему. Дело в том, что вопрос о принадлежности "Анналов" и "Истории" одному и тому же автору уже неоднократно дискутировался в научной литературе. См. подробности этой научной дискуссии в Главе 5. Из наших результатов следует, что "Анналы" и часть "Истории" написаны, повидимому, ОДНИМ И ТЕМ ЖЕ АВТОРОМ, или компилятором. Вторая же часть "Истории", а именно, начиная с описания императора Веспасиана, скорее всего либо написана кем-то другим. Возможен также и следующий вариант: "Тацит" - это не автор, а компилятор, который попросту соединил в одном тексте две разнородных хроники.
5. РАЗЛАДКИ В БИБЛИИ.
Наконец, нами была обработана Библия, включая как Ветхий Завет, так и Новый Завет. При этом была использована Библия издания Московской патриархии, 1979 года. Хорошо известно, что каждая книга Библии канонически разбита на отдельные главы, состоящие из стихов. Г.В.Носовский и А.Т.Фоменко подсчитали объемы этих канонических глав, измеренные:
а) количеством строк (имеются в виду строки в стандартном издании Библии),
б) количеством стихов.
Так как разные стихи состоят, вообще говоря, из разного количества строк, то этих две характеристики объема главы разнятся. Интересно сравнить результаты, полученные обработкой этих двух разных функций объемов. Таблица объемов (в стихах и в строках) приведена в Таблице Доп.2.2. Всего в Библии 1357 глав.
Статистический анализ, выполненный затем Б.С.Дарховским и Б.Е. Бродским, показал следующее. См.рис.Доп-2.9.
а) ОТДЕЛЬНО ВЗЯТЫЙ ВЕТХИЙ ЗАВЕТ СОДЕРЖИТ СЛЕДУЮЩИЕ ПЯТЬ РАЗЛАДОК (указывая их, мы используем сквозную нумерацию всех стандартных глав Библии, а также приводим соответствующие стандартные ссылки на главы библейских книг):
1) 159 плюс-минус 42 ( = Второзаконие 6; доверительный интервал
от начала книги Числа до середины книги Иисуса Навина).
2) 341 плюс-минус 53 ( = 1 Паралипоменон 3; доверительный
интервал от конца 2 книги Царств до середины 2 книги
Паралипоменон).
3) 517 плюс-минус 31 ( = Иов 42 = последняя глава книги Иова;
доверительный интервал от начала книги Иова до
начала книги Псалтырь).
4) 724 плюс-минус 49 ( = Премудрость Соломона 6; доверительный
интервал от середины книги Притчи Соломона до конца
книги Иисуса сына Сирахова).
5) 966 плюс-минус 62 ( = Даниил 1; доверительный интервал от
конца книги Иеремии до конца книги Аггея).
б) ОТДЕЛЬНО ВЗЯТЫЙ НОВЫЙ ЗАВЕТ СОДЕРЖИТ ОДНУ РАЗЛАДКУ, отделяющую Евангелия, и возможно, Деяния апостолов, от остальной части Нового Завета (Послания и Апокалипсис). Точное место этой разладки: 1212 плюс-минус 18 ( = Деяния апостолов 23; доверительный интервал от начала Деяний апостолов до конца второго послания Петра).
в) Был исследован также весь текст Библии, то есть Ветхий + Новый Заветы. ЗДЕСЬ БЫЛА НАЙДЕНА РАЗЛАДКА, ОТДЕЛЯЮЩАЯ ВЕТХИЙ ЗАВЕТ ОТ НОВОГО.
СЛЕДСТВИЕ 1.
Чрезвычайно интересно сравнить эти результаты с проведенным ранее А.Т.Фоменко анализом хронологии Библии. См. Главу 4 настоящей книги. Напомним, что в результате этого анализа в Библии была обнаружена серия "коротких" дубликатов, разделяющих большие блоки книг, дублирующие друг друга, и являющиеся, грубо говоря, отражением одной и той же хроники. Упомянутые короткие дубликаты (они были названы А.Т.Фоменко Т-серией в позднейших публикациях) как правило, появляются в начале и в конце этой хроники.
Естественно ожидать, что в тех местах, где были обнаружены дубликаты Т-серии, должны находиться и места разладок. Эта гипотеза подтверждается. В самом деле, все разладки, находящиеся в т.н. "исторической части" Библии, то есть от начала Библии до книг Пророков, в точности попали в те места, где находится Т-дубликаты. Это - первая и вторая разладки из списка разладок в Ветхом Завете (см. выше).
СЛЕДСТВИЕ 2.
Третья, четвертая и пятая разладки в Ветхом Завете совершенно естественны с точки зрения классической библеистики. А именно, порождаемое ими разделение Библии в точности совпадает с хорошо известным разделением Библии, приводимом во всех стандартных комментариях. А именно:
Третья разладка приходится в точности на начало блока т.н. "Писаний" (Псалтырь, Притчи Соломона, Екклезиаст, Песнь Песней, Книга Премудрости Соломона, Премудрости Иисуса сына Сирахова).
Четвертая разладка указывает начало блока книг великих Пророков (Исаия, Иеремия, Иезекииль).
Пятая разладка отделяет "великих пророков" от "малых пророков".
СЛЕДСТВИЕ 3.
Хорошо известным фактом является обособление Евангелий внутри Нового Завета. Это обстоятельство подтверждается нашим анализом и отражается в наличии разладки, обнаруженной нами в Новом Завете и, кстати, единственной (!).
ВЫВОД.
Все разладки, обнаруженные вне исторической части Библии, имеют вполне естественное объяснение и отражают известные науке границы между разнородными частями Библии. А разладки, находящиеся в исторической части, являются НОВЫМИ, РАНЕЕ НЕИЗВЕСТНЫМИ в классической библеистике. Как мы уже говорили, они имеют естественную хронологическую интерпретацию в рамках "статистической хронологии".
Полная картина разладок в Библии показана на рис.Доп-2.9. Для каждой разладки указаны ее статистическая оценка (точечная) и границы доверительного интервала, в котором истинное значение разладки находится с вероятностью 0,9. Вероятность "ложной тревоги", то есть вероятность указать разладку несмотря на то, что ее в действительности нет, равна 0,05. Прямоугольниками (разной высоты) отмечены однородные стационарные зоны внутри Библии.
Замечательным фактом является то, что границы однородных зон стационарности, обнаруженные в Библии, практически совпадают с границами зон однородности, найденными в Библии применением совсем других методов. Подробности см. выше - в Главах 3 и 4 . Методы, предложенные там, являются более тонкими, чем метод поиска разладки, а потому они обнаружили также более тонкое разбиение книг Библии на "однородные куски".
На рис.Доп-2.10 обнаруженные зоны однородности изображены на другой шкале. Здесь Библия представлена как объединение фрагментов, названных в Главе 3 главами-поколениями. Это разбиение Библии отличается от канонического разбиения Библии на обычные главы. Грубо говоря, глава-поколение - это фрагмент текста, описывающий события, происшедшие в течение одного поколения (или при жизни одного какого-то главного персонажа). Иногда одна глава-поколение может состоять из нескольких стандартных глав Библии (обычно эти последние - "более мелкие", чем главы-поколения). Поэтому при переходе к новой шкале,несколько стандартных глав могут склеиться в одну главу-поколение. На рис.Доп-2.10 изображен этот пересчет: какие стандартные главы вошли в состав одной главы-поколения. На рис.Доп-2.10 приведено также сравнение результатов, полученных методом разладки, с разбиением Библии (на группы глав-поколений), полученные другими методами. Налицо поразительное согласование.
ДОПОЛНЕНИЕ 3.
В.П.Фоменко, Т.Г.Фоменко
АВТОРСКИЙ ИНВАРИАНТ РУССКИХ ЛИТЕРАТУРНЫХ ТЕКСТОВ.
ПРИЛОЖЕНИЕ: КТО БЫЛ АВТОРОМ "ТИХОГО ДОНА"?
Комментарий А.Т.Фоменко (Москва, Московский государстьвенный университет, механико-математический факультет).
Вниманию читателя предлагается исследование, выполненное моими родителями Валентиной Поликарповной Фоменко и Тимофеем Григорьевичем Фоменко в 1974-1981 годах. В полном объеме их работа публикуется здесь впервые. В краткой форме она вошла в 1983 году в сборник "Методы количественного анализа текстов нарративных источников", Москва, 1983, Академия Наук СССР, Ин-т Истории СССР, с.86-109.
Главным результатом настоящей работы является обнаружение "авторского инварианта" для русских литературных текстов. Он позволяет различать некоторых авторов и оказывается полезным при решении проблем, связанных с плагиатом. Этот результат был получен на основе некоторой общей идеи - статистического анализа функций объема для нарративных текстов. Функции объема были введены в работе [р19], где были также предложены некоторые новые эмпирико-сатистические модели анализа информации в нарративных текстах. Развитие этих идей можно найти также в работе [р20].
Настоящая работа находится, на первый взгляд, несколько в стороне от исследований по основам древней хронологии. Однако, этот материал показывает - как могут ЭМПИРИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ использоваться при решении не только хронологических, но и других смежных проблем, например, - при установлении авторства письменного документа. А поскольку центральным стержнем нашего анализа письменной истории являются эмпирико-статистические методы, мы и решили познакомить читателя с этим исследованием. Тем более, что проблема установления авторства в современной и в древней литературе является чрезвычайно актуальной и любые новые методы в этой области могут оказаться полезными.
1. ВВЕДЕНИЕ. ВКРАТЦЕ ОБ ИСТОРИИ ПРОБЛЕМЫ.
В литературе, истории, лингвистике часто возникает вопрос об атрибуции литературных произведений - действительно ли они написаны одним автором. Действительно ли диалоги Платона написаны одним человеком? Правда ли, что пьесы Шекспира творения одного гения? Или же они написаны разными людьми? Кто в действительности скрывается под именем "Шекспир"? Специальный интерес приобретает эта проблема, когда возникает подозрение в плагиате.
Особое звучание задачи такого сорта приобретают при исследовании ДРЕВНИХ текстов, данные об авторах которых утрачены или сомнительны.
Укажем лишь на некоторые подходы к решению таких задач.
Например, в работе В.Фукса [р1] изучался вопрос об авторстве некоторых древних текстов на основе статистического анализа различных ГРАММАТИЧЕСКИХ структур их языка.
Много исследований посвящено обнаружению количественных закономерностей, позволяющих различать между собой РАЗНЫЕ ЛИТЕРАТУРНЫЕ ЖАНРЫ - поэзию, драматургию, публицистику и пр. [р2].
Попытка использования точных математических приемов для решения проблемы плагиата изложена, например, в книге [р10].
Проблеме обнаружения авторских инвариантов посвящена значительная научная литература. Так например, структура языка различных авторов изучалась с помощью отдельных распорядительных слов, в частности, предлога "в", частицы "не" [р3], или при помощи длины предложений и слов [р4]. Однако, как показали эксперименты, использование лингвистических спектров ОТДЕЛЬНЫХ распорядительных слов не позволяет обнаружить устойчивые инварианты. На это указал еще в 1916 году академик А.А.Марков [р5], отметивший что при больших объемах выборок результаты такого типа должны "колебаться около среднего числа, подчиняясь общим законам языка", что естественно затрудняет различение авторов.
Полезный подход продемонстрирован в ряде работ В.Фукса, где каждому автору сопоставляются такие его характеристики, как среднене количество слогов и среднее количество слов в предложении. Этот прием позволяет изобразить текст (автора) точкой на плоскости в случае использования двух параметров, или же точкой в многомерном пространстве (если число параметров возрастает).
Интересные исследования ведутся и в отечественной филологии (см., например, [р6]-[р9]).
Следует отметить общую характерную особенность этих и многих других (не упомянутых нами здесь) исследований. Обычно изучаются индивидуальные количественные параметры текстов и путем их сравнения ученые старались выявить "значимые различия", опираясь на которые можно было бы отличить друг от друга разных авторов. Однако главным вопросом здесь является - какие различия следует считать значимыми, а какие - нет. Тут открывается простор для субъективизма. И здесь коренятся главные трудности применения статистических методов к задачам такого сорта.
2. ЧТО ТАКОЕ АВТОРСКИЙ ИНВАРИАНТ?
Под АВТОРСКИМ ИНВАРИАНТОМ мы понимаем количественную характеристику литературных текстов (некий параметр), который
а) однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов", и
б) принимает существенно разные значения для произведений разных групп авторов.
Желательно, чтобы число "разных групп" было достаточно велико, и чтобы каждая группа объединяла относительно мало похожих, близких по стилю авторов.
Однако многообразие грамматических структур, участвующих в формировании литературных текстов, сильно затрудняет поиски таких инвариантов. Уже простые вычислительные эксперименты показывают, что обнаружение числовых характеристик, различающих разных авторов, - сложная задача. Дело в том, что когда человек пишет книгу, то существенную роль играют не только подсознательные, но и сознательные факторы. Например, частота употребления автором РЕДКИХ И ИНОСТРАННЫХ СЛОВ может, конечно, служить неким показателем его стиля, эрудиции. Однако этот показатель ЛЕГКО КОНТРОЛИРУЕТСЯ автором на СОЗНАТЕЛЬНОМ уровне, поскольку редкие и иностранные слова вставляются в текст нечасто и каждый раз автор специально отмечает про себя: "здесь я вставляю иностранное или редкое слово". В результате, как неопровержимо свидетельствуют конкретные подсчеты, использовать эту числовую характеристику в качестве авторского инварианта НЕЛЬЗЯ. Она контролируется автором, "скачет" и писатель может легко менять ее от произведения к произведению.
Отсюда видно, что количественная оценка индивидуальных отличительных особенностей автора - весьма нетривиальная задача. Сформулируем точнее - какими свойствами должен обладать авторский инвариант.
Искомая числовая характеристика должна удовлетворять следующим естественным требованиям.
1) Она должна быть достаточно "массовой", интегральной, чтобы СЛАБО КОНТРОЛИРОВАТЬСЯ автором на сознательном уровне. Другими словами, она должна быть его "бессознательным параметром", коренящимся настолько глубоко, что автор даже не задумывается о нем. А если бы даже задумался, то не смог бы долго его контролировать и в результате довольно быстро вернулся бы в прежнее устойчивое и ТИПИЧНОЕ для него состояние.
2) Искомый параметр должен сохранять "постоянное значение" для произведений данного автора. То есть, иметь небольшое отклонение от среднего значения (слабо колебаться) на протяжении всех его книг. Именно это свойство и позволяет говорить, что данный параметр является ИНВАРИАНТОМ.
3) Наконец, параметр должен уверенно различать между собой разные группы писателей. Другими словами, должно существовать достаточное число авторских групп, заметно отличающихся друг от друга значениями инварианта.
Третье условие важно. Ведь может случиться так, что некий параметр окажется слабо колеблющимся вдоль произведений каждого отдельного писателя, однако в то же время принимает ОДНО И ТО ЖЕ ЗНАЧЕНИЕ, будучи вычислен для РАЗНЫХ авторов. Другими словами, он не позволяет различать писателей.
ТОЛЬКО СОЧЕТАНИЕ ВСЕХ ТРЕХ ПЕРЕЧИСЛЕННЫХ УСЛОВИЙ ПОЗВОЛЯЕТ ГОВОРИТЬ, ЧТО МЫ ОБНАРУЖИЛИ АВТОРСКИЙ ИНВАРИАНТ.
3. НАШ ПОДХОД. ВЫБОРКИ И ШАГИ,
ЭВОЛЮЦИЯ ПАРАМЕТРА ВДОЛЬ ТЕКСТА.
Пусть в нашем распоряжении оказалось какое-то количество произведений одного писателя. Для удобства упорядочим их хронологически (т.е. в порядке написания) и для краткости назовем получившуюся совокупность - ТЕКСТОМ ДАННОГО АВТОРА. Таким образом, текст автора (в нашем определении) может состоять из нескольких различных произведений - романов, повестей, рассказов и т.п.
Выделим теперь из этого текста отдельные фрагменты выборки одинакового объема, т.е. состоящие из одного и того же (фиксированного заранее) количества слов. Это количество слов естественно назвать ОБЪЕМОМ ВЫБОРКИ.