Кондратов Александр Михайлович. Звуки и знаки

TheLib.Ru » Кондратов Александр Михайлович » Звуки и знаки » онлайн-чтение (стр. 9)

Эти олова основоположника теории информации прекрасно иллюстрируют ситуацию, что сложилась в языкознании, когда человеческую речь стали рассматривать в качестве своеобразного кода. Изучение языка как кода началось уже на заре теории информации. Но только сейчас, по мере того как растут наши знания, мы начинаем постигать, насколько сложен, специфичен, можно сказать, удивителен код — наш язык, с помощью которого мы общаемся.

Биты и буквы

   Сколько информации несет одна буква? Вопрос этот возник в первые же годы рождения теории информации. Простейший ответ на него найти легко. Надо взять число букв в том или ином алфавите мира, а затем выразить его в двоичных логарифмах. Ведь каждая буква — это один из возможных исходов, вроде выпадения герба или решетки монеты, одной из граней кубика и т. д. Число же этих исходов равно числу различных букв.
   В русском алфавите тридцать три буквы, плюс еще нулевая — пробел между словами. Но так как е и ёсейчас практически не различаются, то их можно считать одной буквой. Можно объединить мягкий знак с твердым. В итоге получаем тридцать две буквы, тридцать два кодовых знака нашего языка. Двоичный логарифм тридцати двух равен пяти. Получаем величину в пять бит. Столько информации несет одна буква нашего алфавита.
   В языках, пользующихся латинским алфавитом, число букв равно двадцати шести. Прибавим еще пробел, нулевую букву, а затем выразим это в двоичных логарифмах, то есть в битах. Получаем величину в 4,76 бит. Столько информации несет одна буква английского, испанского, немецкого, французского языков.
   В алфавите самоанского языка, на котором говорят жители одного из полинезийских архипелагов, всего лишь шестнадцать букв. Двоичный логарифм шестнадцати равен четырем, значит, одна буква самоанского алфавита несет информацию в четыре бита, на один бит меньше, чем буква русского.
   Все это было бы совершенно правильно, если бы буквы алфавита встречались с одинаковой вероятностью, если бы языки не имели свойства, называемого в теории информации избыточностью. Избыточность позволяет определять, насколько разнится максимальная информация, которую может нести знак кода, от реальной, которую он несет. Иными словами, это своеобразная мера «неэкономности» кода, в том числе и любого языка мира.
   Интуитивно, не производя подсчетов, мы догадываемся, что одни буквы, вроде о или с,встречаются часто, другие, вроде фили э— реже. То же самое и со словами: союз иили местоимение явесьма часты, а прилагательное сиятельныйили глагол выковыривать— гораздо реже. Мы согласуем нашу речь в роде, числе, падеже, залогах, наклонениях и т. д. Наша речь осмысленна, значит, не всякое слово может соединяться с другим… Короче говоря, на язык наложены ограничения, начиная с употребительности отдельных букв и кончая сочетаемостью слов по смыслу.
   Подсчитать частоту употребления букв в различных алфавитах мира нетрудно. Выше приводилась величина информации, которую несет одна буква различных языков мира. Но если учитывать, что буквы имеют разную вероятность появления в тексте, то эта величина будет иной. Причем даже в языках, которые пользуются одним и тем же латинским алфавитом. В немецком она равна 4,1 бита, в английском — 4,03 бита, в испанском — 3,98 бита, во французском — 3,96 бита (исходная величина для всех них была, как вы помните, 4,76 бита). Для русского языка величина информации, которую несет одна буква, сократилась до 4,35 бита, для самоанского — до 3,4 бита.
   Но это — лишь первое приближение. Ведь различные вероятности имеют не только отдельные буквы, но и сочетания двух, трех и т. д. букв (в русском языке, например, невозможно сочетание гласная плюс мягкий знак и другие подобные сочетания). Если учесть вероятности двухбуквенных сочетаний, то величина информации, которую несет одна буква русского алфавита, будет равна 3,52 бита, английского — 3,32 бита, французского— 3,17 бита, а самоанского — 2,68 бита. Учет вероятностей трехбуквенных сочетаний для русского алфавита дает величину в 3,01 бита, для английского — 3,1 бита, для французского — 2,83 бита.
   Вы, вероятно, заметили, что по мере того, как мы учитываем все более и более «дальние» связи между буквами, уменьшается количество информации на одну букву и соответственно увеличивается избыточность языка. Возможно, вы заметили и другое: одновременно происходит сближение величины информации в языках, пользующихся различными алфавитами, по мере того, как мы все точнее и точнее описываем наш код-язык.
   Действительно, когда была определена величина информации, приходящаяся на одну букву осмысленного текста в разных языках мира, она оказалась примерно одинаковой.

Методом отгадывания

   Каким образом удалось определить эту величину? Ведь учет даже трехбуквенных сочетаний, частоты их „употребления в текстах того или иного языка требует работы огромного объема. Между тем статистические связи между буквами, конечно, не ограничиваются триграммами, учетом частот всех этих тся, сть, щийи т. п. Надо знать частоты сочетаний четырех, пяти и более букв.
   Однако на этом пути мы заходим в тупик. Число возможных комбинаций из девяти букв, например, измеряется триллионами. Сколько же текстов мы должны исследовать, чтобы получить достоверную статистику! А ведь и девять букв — не предел. Мы пишем и говорим предложениями, значит, в пределах этого предложения будут существовать статистические связи между буквами, задаваемые лексикой, грамматикой, синтаксисом. Длина же предложения измеряется десятками букв.
   Задача, казалось бы, неразрешимая… Однако Клод Шеннон, одним из первых занявшийся изучением языка как кода, предложил остроумный способ решения этой задачи с помощью так называемого метода отгадывания. Метод этот был усовершенствован крупнейшим математиком нашей страны А. Н. Колмогоровым. С помощью этого метода была определена величина информации, приходящаяся на одну букву русского, английского, французского, польского, румынского, азербайджанского и других языков мира. (Первоначально опыты проводились в МГУ, а затем были продолжены ленинградским лингвистом Р. Г. Пиотровским, описавшим их в книге «Информационные измерения языка».)
   Мы уже говорили о том, что информация — это то, что снимает неопределенность, уничтожает незнание… Где существует неопределенность, которую снимают буквы того или иного языка? Разумеется, в голове читателя осмысленного текста на этом языке. Вот этого-то читателя и надо использовать в качестве своеобразного измерителя величины информации, которую несет одна буква алфавита.
   На одном полюсе будет человек, который не знает языка. Для него все буквы равновероятны, избыточность алфавита равна нулю, и один знак несет максимальную информацию кода (и никакой осмысленной информации не дает!). На другом полюсе—носитель языка, превосходно знающий его, интуитивно чувствующий вероятность появления того или иного слова в тексте. Такому человеку дается определенный текст, он прочитывает несколько страниц, вникает в стиль, сюжет, манеру повествования. Затем текст закрывается, и далее начинается процедура отгадывания. Предлагается найти продолжение этого текста: какая буква должна появиться?
   Например, в опытах Пиотровского предлагался отрывок из статьи, опубликованной в газете «Известия»: «И вот, приехав в тот город, где друг мой в свое время справлял свадьбу, я встретил его жену и сына, который учится уже в пятом классе. И сын его меня расспрашивает, правда ли, что я служил с его отцом, на каких кораблях плавали, где бывали. Я отвечаю на эти как будто нехитрые на первый взгляд…»
   Дальше текст закрывался и предлагалось угадать букву, которая должна последовать. Отгадчик мог отказаться от ответа (в самом деле, мало ли какое слово может последовать после слов «на первый взгляд») или мог предложить какую-либо букву (например, в,считая, что следующим словом будет вопросы).Вслед за тем отгадчику называлась эта буква (в данном случае ею была буква р).Процедура вновь повторялась, причем отгадчик мог называть предполагаемую букву с малой или большой степенью уверенности, назвать две возможные в данном контексте буквы, имеющие, по его мнению, равную вероятность, или же отказаться от угадывания (в нашем примере требовалось угадать слово ребячьи— угадывание его шло безошибочно, когда известны стали три первые буквы; вероятно, столь же нетрудно угадать и дальнейшее продолжение — слово вопросы).
   Полученные результаты обрабатывались математически. В итоге можно было получить величину информации, приходящуюся на одну букву осмысленного русского текста. Опыты, проведенные в МГУ, показали, что для классической русской прозы (отгадывались «Детские годы Багрова-внука» Аксакова и «Литературные вечера» Гончарова) она равна примерно одному биту. Сходную величину дали и опыты Р. Г. Пиотровского. Если сравнить эту величину в пятью «исходными» битами, мы увидим, что избыточность литературного русского языка классической прозы равна восьмидесяти процентам. Иными словами, четыре из пяти букв — «лишние»!
   В пределах семидесяти-восьмидесяти процентов оказалась величина избыточности и для английского, французского, румынского, польского, азербайджанского, казахского языков. Весьма вероятно, что и во всех других языках мира избыточность, которую называют еще своеобразным запасом прочности языка, находится в этих пределах. Если бы в языке не было избыточности, то любое сочетание кодовых знаков, букв, образовало бы осмысленное слово, и тогда почти невозможно было бы исправить ошибку в написании. Не существовало бы и правил грамматики, и сочетаний смыслов слов… Так что избыточность это не излишество, не показатель несовершенства языка по сравнению с техническими кодами, а его важное и нужное свойство, которое возникло многие тысячи лет назад, но лишь сейчас начинает нами осознаваться благодаря теории информации.

Биты, стили, «подъязыки»

   Во всяком ли русском тексте четыре пятых букв — «лишние»? Нет, не во всяком. Вспомните телеграммы: в текстах телеграмм мы стараемся уменьшить избыточность языка, опускаем предлоги, глагольные связки и т. п. Однако эта экономия имеет свой предел, иначе получатель нашей телеграммы не поймет текст. Ленинградские исследователи О. Л. Смирнов и А. В. Екимова, используя метод отгадывания, попробовали определить величину информации, приходящуюся на одну букву «телеграфного языка» (или если применять лингвистическую терминологию, подъязыка телеграмм). Для этого были взяты телеграфные тексты общим объемом в пятнадцать тысяч букв. Оказалось, что величина информации почти в полтора раза превышает ту, что несет одна буква литературного русского языка!
   На другом полюсе находятся деловые тексты. Величина избыточности здесь, в отличие от телеграмм, наоборот, завышается для большей надежности. Деловые тексты имеют стандартные обороты, словосочетания, синтаксические конструкции. Да и содержание их также вращается в строго заданной сфере — будь это химия, геология, метеорологическая сводка или бухгалтерский отчет. Так, например, опыты по угадыванию специального текста — документации финансового отдела одного из рудоуправлений Донецкой области — показали, что величина избыточности здесь доходит до девяноста процентов.
   Правда, девять из десяти букв текста документации угадывали только специалисты, хорошо знакомые с бухгалтерским делом, имевшие опыт работы с подобного рода текстами изо дня в день. Когда же в эксперименте приняли участие специалисты, знакомые с текстом в меньшей степени, они смогли угадать не девять, а восемь букв из каждых десяти (то есть избыточность равна не девяноста, а восьмидесяти процентам). А неспециалисты могли угадать лишь четыре — шесть букв из каждых десяти букв этого бухгалтерского текста, в котором встречалось много обособленных слов, сокращений, стандартных формулировок, понятных лишь знатокам.
   Здесь мы переходим к интереснейшему вопросу, связанному уже не только с языком-кодом, но и тем, как пользуется получаемой информацией человек. Один и тот же текст может содержать разное количество информации в зависимости от того, кто получает эту информацию: насколько владеет языком получатель, каков его прошлый опыт, какова его психологическая настройка и т. п. Иными словами, от информации объективной мы переходим к информации субъективной.
   Работы в этом направлении только-только начинаются. С помощью теории информации делаются попытки выразить в числах различные аспекты деятельности человека, которые казались прежде чисто субъективными, неподвластными мере и числу. Например, восприятие, понимание, обучение, запоминание, принятие решений и многие другие психические процессы.
   Причем делается это уже не в стиле бандвагона от науки, о котором иронично писал Шеннон, а на основании детальных и серьезных исследований. На первых этапах терминами, взятыми из арсенала теории информации, назывались явления, норой давным-давно известные специалистам в данной области, лишь получавшие модное наименование. Ныне речь идет о точных мерах, не об «информации вообще», которую перерабатывает мозг, а о величине, выраженной в битах, определенной по формуле Шеннона.
   Идеи и методы теории информации оказались плодотворными не только в языкознании и психологии, но и в биологии. Они позволили биохимикам расшифровать сложнейший код, посредством которого передается наследственная информация. Находят применение эти методы и в изучении искусства, прежде всего поэтического. Ведь материалом для поэта служит язык со всеми его статистическими закономерностями.

Формулы стиха

   Первые исследования русского стиха методами математики были проведены в начале нашего века. В 1910 году известный поэт и теоретик Андрей Белый опубликовал свои работы, посвященные статистическому анализу четырехстопного ямба. В двадцатые годы математику в стиховедении успешно применяли профессиональные литературоведы Г. Шенгели, В. Чудовский, Б. Ярхо и особенно Б. Томашевский.
   Новый этап начался в 1960 году, когда идеи теории информации и кибернетики начали применяться в изучении стиха. Во главе этого направления стал А. Н. Колмогоров. В настоящее время над математическим анализом стиха работают как профессиональные стиховеды и лингвисты, так и математики. Используя богатый опыт русских стиховедов, «стихометрам» удалось внести в поэтику математические характеристики, на основании которых можно точно судить о богатстве и своеобразии ритмики различных русских и советских поэтов. Не так давно вышла в свет монография М. Л. Гаспарова «Современный русский стих», где на основании статистических подсчетов дан подробный анализ таких современных размеров, как дольник, тактовик, акцептный стих, основоположником которого считается Маяковский.
   Делаются попытки применить математику в изучении более «высокого этажа», чем ритмика, — рифмы и звуковой инструментовки стиха. И, что самое интересное, начинают ставиться вопросы, в традиционном литературоведении даже не возникавшие. Например, об информационной «емкости» стиха (тех, кто интересуется «стихометрией» отошлем к книге Гаспарова, вышедшей в 1974 году в издательстве «Наука», а также к статьям, публиковавшимся в журнале «Вопросы языкознания», и брошюре автора этой книги «Математика и поэзия», выпущенной издательством «Знание» в 1962 году).
   Речь подчиняется определенным статистическим закономерностям. Поэзия накладывает на язык еще ряд ограничений: требования ритмики, рифмовки, звуковой инструментовки и т. д. Подсчеты показывают, что современный стих более «легок», чем классический, в отношении ритмических требований. Вероятность случайного возникновения в обычной речи строки четырехстопного ямба равна примерно трем сотым — в последовательности из ста русских слов автоматически может образоваться в среднем три строки четырехстопного ямба. Вероятность случайного образования современного че-тырехдольника (которым написаны «У самого моря» Ахматовой, «Люблю» Маяковского, «Февраль» Багрицкого, «Победитель» Симонова, пьесы В. Гусева и многие другие произведения) равна двум десятым — уже не три, а двадцать строк может автоматически образоваться в последовательности из ста русских слов. Вероятность же образования «акцентного», четырехударного стиха равна единице, ибо любая последовательность из четырех русских слов может служить строкой этого стиха, безразличного к числу безударных слогов в промежутке между ударными.
   Но раскрепостив стих по ритму, сделав его «легче» для языка, современное стихосложение налагает более строгие ограничения по рифме. «Грамматические» рифмы (типа стоять — лежать, окном — пероми т. п.) образовать легко. А рифмы этого типа практически не встречаются в современном стихе. Его организует рифма, это по преимуществу рифменный стих — вспомните слова Маяковского о том, какую большую роль в его творчестве играют поиски глубоких и неожиданных рифм. Сняв одни ограничения — ритмические, поэты налагают другие ограничения — в области рифмовки. И все эти ограничения можно выразить на языке точных чисел.
   Сравнение «степени трудности» различных стихотворных размеров логичнее всего проводить, вычисляя информационные «траты» на ритм и рифму, а не просто сопоставляя вероятности их случайного возникновения в прозе (так, в упомянутой выше брошюре «Математика и поэзия» автор ошибочно полагал, что требования классической рифмовки от десяти до ста раз «труднее», чем требования рифмовки современной, а требования ритма соответственно от десяти до ста раз «легче»).
   Затраты информации на образование двух строк четырехстопного ямба равны примерно десяти битам. Затраты на связывание этих ямбических строк классической рифмой равны семи битам.
   Обратимся к современному стиху. Затрата на ритм в четырехдольнике равна пяти битам, то есть в два раза меньше, чем в ямбе. А на рифму? Так как «грамматические» рифмы современными поэтами не употребляются, траты будут большими, чем в классическом стихе — не семь, а восемь бит. Суммируем траты на ритм и рифмы: в классическом четырехстопном ямбе это составит семнадцать бит, в современном четырехдольнике — тринадцать бит.
   Вполне понятно, что у каждой поэтической школы, большого поэта и, быть может, отдельного произведения имеется свое специфическое распределение «трат» информации на ритм, рифму, звуковую выразительность. Однако, несмотря на все эти траты, в распоряжении поэта есть достаточно средств, чтобы выразить свои мысли, чувства, свою «модель мира»… «Поэт может вложить в сообщение из 400 букв (сообщение чисто «цифровой природы», несущее информацию порядка тысячи битов, т. е. количественно ничтожную с точки зрения современной техники), — пишет академик Колмогоров, — целый мир чувств, который справедливо признается не поддающимся формализации в понятиях, и создать с такими скромными средствами «канал связи» непосредственного общения со своими современниками и потомками, раскрывающий, разрывая ограничения пространства и времени, его неповторимую индивидуальность».
   Мы рассказывали о том, как была определена величина информации, которую несет одна буква русского текста. Она равна примерно одному биту, причем меняется в зависимости от того или иного стиля.
   Опыты по определению количества информации, содержащейся в одной букве поэтического текста, показали, что величина эта превосходит величину, которую несет одна буква прозаического текста.
   На первый взгляд это кажется странным. Ведь речь поэта подчиняется правилам ритма, она рифмована и т. п. (и выше мы приводили величины «трат» по этим правилам). Однако поэтический синтаксис более свободен, чем синтаксис прозы. Да и сочетания слов в поэзии более свободны, неожиданны. Кроме того, наша речь позволяет иам выражать мысли многими способами. В обычной практике мы безразличны к этому множеству. Однако в художественной речи люди сознательно используют богатые возможности, которые предоставляет язык. Это означает, что при сохранении главного требования речи — передачи смысла — достигается еще и дополнительное воздействие через ритм, звучание рифм, звуковую инструментовку. То, что в обычном языке «пропадает зря» (например, ритмическое построение фразы, скопление однородных звуков, случайная рифмовка, возникающая порой в нашей прозаической речи), в поэзии находит применение, и благодаря этому художественная речь несет больше информации, чем речь нехудожественная.
   Разумеется, это относится к стихам больших поэтов, умело и творчески использующих возможности, которые предоставляет им родной язык. Когда же мы имеем дело с ремесленными поделками, то здесь величина информации, которую несет одна буква стиха, гораздо меньше той, что несет одна буква прозы. На кафедре теории вероятностей МГУ сопоставили информационную емкость «Поединка» Куприна и весьма скромного по своим поэтическим высотам стихотворения, напечатанного на обороте листка отрывного календаря. Оказалось, что проза в два раза более емка, чем отштампованный по шаблону стих!

Скорость устной речи

   Поскольку основное средство общения — разговорная речь, то, вероятно, важно знать не только число бит, приходящихся на тот или иной звук, но и скорость передачи информации при разговоре.
   И в нашей стране, и за рубежом было проведено множество исследований, посвященных этой теме. Кодовой единицей для письменного текста является буква. Для устной речи — фонема, своеобразный атом звукового языка (о нем рассказывает очерк «Формулы фонемы»). Опыты по угадыванию фонем, подсчеты частоты их употребления, наконец, анализ спектрограмм фонем и сравнение их с изображениями букв в машинописном тексте — все это позволило определить величину избыточности звукового кода языка. Она оказалась примерно такой же, как и величина избыточности алфавитного кода. Только в зависимости от «подъязыка», от стиля и характера разговора эта избыточность может варьировать в еще больших пределах, чем «запас прочности» письменного текста.
   Возьмем разговор двух друзей, понимающих, как говорится, друг друга с полуслова. В их речи будут умолчания, намеки, пропуски слов и «съедания» отдельных звуков и даже грамматических окончаний (в письменной речи это недопустимо). Вполне понятно, что избыточность такого разговора будет, пожалуй, еще меньше, чем избыточность телеграфного стиля, о котором мы рассказывали.
   А вот другой разговор: диалог между дежурным на аэродроме и пилотом, находящимся в воздухе. Во-первых, этот разговор по радио имеет определенные стандарты. Во-вторых, тематика его ограничена. В-третьих, он происходит в условиях шума, который создает самолет, поэтому приходится повторять нерасслышанные или нечетко услышанные слова и фразы. В-четвертых — и это самое главное, — ошибка в одно слово может стоить жизни пилоту. В итоге избыточность такого разговора равна девяноста шести процентам. Иными словами, из ста слов пилот и диспетчер предпочитают говорить девяносто шесть «лишних», зато это гарантирует им надежность связи и, стало быть, безопасность жизни пилота, ведущего самолет.
   Скорость передачи информации при таком разговоре очень невелика. Она равна примерно двум десятым бита в секунду. Обычная скорость передачи информации при разговоре примерно в двадцать — тридцать раз больше, она равна пяти — шести битам. Но это при нормальном темпе речи. Как известно, этот темп можно значительно увеличить: очень медленная речь почти в пять раз медленней, чем очень быстрая. Сколько же информации за секунду может передать человек при очень быстром разговоре?
   Вот любопытный расчет. Человеческое ухо может воспринять, а человеческий рот произнести чудовищно много различных звуков. Пропускная способность человеческого уха, то есть количество информации, которое может быть передано в единицу времени, равна пятидесяти тысячам бит в секунду (по телефону мы можем передать только тридцать тысяч бит в секунду, он сужает диапазон). Величина эта огромна. Но, конечно, мозг получает не всю звуковую информацию, он ее фильтрует, просеивает сквозь сито фонем.
   Сколько же информации доходит до мозга? Насколько частым является это сито? Оказывается, оно очень частое. Настолько частое, что количество информации уменьшается в тысячу раз: уже не пятьдесят тысяч, а просто пятьдесят бит в секунду получает мозг, воспринимая предельно быструю речь.
   Но и это величина немалая. Опыты показывают, что большее количество информации наш мозг и не в силах обработать сознательно (например, опытная машинистка или пианист передают сигналы со скоростью двадцать пять бит в секунду). Таким образом, скорость передачи информации при предельно быстром разговоре (сорок — пятьдесят бит в секунду) в двести—триста раз превышает скорость передачи информации при разговоре диспетчера с летчиком и в десять раз скорость разговора в нормальном темпе.

Измерение фонации

Главная задача письменной речи — передача смысла. В устной речи, кроме смысловой, содержится еще немало «несмысловой» информации: в интонации, громкости, индивидуальных особенностях голоса говорящего и т. д. Иногда же она может даже противоречить информации смысловой. Например, когда мы говорим иронически «Спасибо!» или «Здравствуйте!» Очень часто мы больше доверяем интонации, с которой произносится фраза, чем прямому смыслу слов этой фразы.