TheLib.Ru » Компьютеры » Кан Дэвид » Взломщики кодов » онлайн-чтение (стр. 28)

   Но названию месяца должно предшествовать упоминание о дне. Так как в 14-й строке чисел не было, в группе «s?s» я узнал название числа и сначала принял эту группу за «sls», что означает «три». После некоторых безуспешных попыток пристроить куда-нибудь согласный звук «l» я понял, что в действительности это было не «sls» («три»), a «sds» («шесть»). К отождествленным знакам добавилось «d»…
   Всякий занимавшийся такого рода дешифрованием, в котором беспрестанно приходится пускать в ход то карандаш, то резинку, когда разносишь сначала одни предполагаемые значения, потом вместо них другие, уступающие место окончательным решениям, – поймет, ценою каких усилий мне удалось составить слоговый алфавит и прочесть финикийские слова, скрывавшиеся в этом непрочитанном письме, которое, по мнению специалистов, не поддавалось дешифрованию…»
   Дорм считал, что поскольку латинский алфавит произошел от греческого, греческий – от финикийского, а финикийский – от египетских иероглифов, то проведенная им дешифровка является новым связующим звеном «между иероглифами и латинским алфавитом». Некоторые ученые оспаривают это толкование, но мало кто сомневается в том, что благодаря работе Дорма в распоряжении историков появились доселе неизвестные документы.
   Что же касается задач для варианта II, то их решение к дешифрованию никакого отношения не имеет. В действительности это восстановление языка. Таких задач было решено много, особенно в пору бурного развития лингвистических наук в XIX веке.
   Одной из самых известных задач, относящихся к варианту III, является загадка иероглифов майя. Ее удалось разгадать при помощи современного всепобеждающего оружия криптоаналитиков – компьютера. Три советских математика Е.В. Евреинов, Ю.Г. Косарев и В.А. Устинов первыми применили компьютерную технику для дешифрования древней письменности. Они предположили, что наиболее часто высеченные на камнях знаки представляют запись самых частых звуков языка майя. А этот язык и его звуки были известны, во-первых, из двух майя-испанских словарей, составленных в период завоевания земель майя европейцами, во-вторых, из переродившегося языка майя, на котором все еще говорят на Юкатане, и в-третьих, из текстов, записанных жрецами племени майя с помощью алфавита конкистадоров.
   Советские математики записали 60 тысяч слов, взятых из этих текстов, в память компьютера. В результате произведенных вычислений они установили, что в исследованных словах имеются 70 пар букв, которые приходятся на половину начал этих слов. Они также нашли 73 иероглифа, которые присутствуют в половине начал слов, высеченных на камнях, и отождествили обе группы. После этого в ходе 40-часовой электронной «блицдешифровки» ученые из СССР установили аналогичные соотношения для средних и конечных групп в словах. На основании найденных соотношений они пришли к окончательному выводу о том, что им удалось успешно дешифровать письменность майя. Вот образцы прочитанных ими прекрасных древних афоризмов на языке племени майя: «Молодой бог маиса обжигает сосуды из белой глины» и «Бремя, возложенное на женщину, – это бог войны».

Анатомия криптоанализа

   Криптографию и криптоанализ иногда называют науками-двойниками. И действительно, на практике они взаимно дополняют друг друга: то, что одна наука создает, другая разрушает, и наоборот. Однако но своей природе криптография и криптоанализ различаются весьма существенно. Шифровальное дело абстрактно и до предела теоретизировано. Взлом же шифров эмпиричен и конкретен.
   Голландский криптограф Моуриц Фрис так написал о теории шифрования: «Вообще криптографические преобразования имеют чисто математический характер. Например, перестановки набора первичных элементов (букв алфавита), преобразования координат узлов решеток, сложение и вычитание в конечных кольцах, линейные алгебраические преобразования. Простым примером таких математических преобразований, используемых для засекречивания, служит равенство: у = ах+b, где x – буква сообщения, у буква шифртекста, полученная в результате операции шифрования, а и b являются постоянными величинами, определяющими данное преобразование. Таким образом, вычисления над буквами легко выполняются после определения для них соответствующего алгебраического закона».
   Операции шифрования и их результаты настолько же универсальны и справедливы, насколько это свойственно законам математики. Отрицать, что при применении классического шифра Виженера¹¹³ буква «d» открытого текста дает знак «F» шифрованного, невозможно точно так же, как и заявлять, что 4 + 2D 6. Эта истина была справедлива в XIV веке во Франции, когда Виженер изобретал свой шифр. Будет она верна и десять веков спустя на Марсе. Различные шифры, как и разные геометрии, дают отличные друг от друга, но одинаково действительные результаты.
   В криптоанализе положение несколько иное. Эта наука пользуется методологией других наук, изучающих материальный мир. Ее методы основаны не на неизменных законах математической логики, а на подмеченных фактах реального мира. Криптоаналитик получает эти факты с помощью экспериментов и измерений. В противоположность криптографу, который может вывести уравнение шифрования для классического шифра Виженера, не прибегая к дополнительным опытам, криптоаналитик, имея любое число высказываний об английском языке, априори не может сказать, какая буква встречается в нем наиболее часто. Он должен сперва подсчитать частоту встречаемости всех букв. В криптоанализе факты могут быть постоянными в каждом конкретном случае, но они логически не обусловлены и зависят от обстоятельств, от реальной действительности.
   Эмпирический характер криптоанализа наиболее отчетливо проявляется в его операциях. Последние проделываются в четыре этапа, которые можно найти в других науках, занимающихся материальным миром. Эти этапы включают:
   1) анализ (подсчет букв);
   2) выдвижение гипотезы (знак х в шифртексте, возможно, заменяет букву «е» открытого текста);
   3) предсказание (если х означает «е», то появляются некоторые возможности для нахождения открытого текста);
   4) проверку (такие возможности существуют) или опровержение (таких возможностей нет, так что х вовсе не означает «е»).
   Данный научный метод, общий для криптоанализа и для других естественных наук, оправдывает употребление метафор вроде: «Он пытался дешифровать историю Земли, изучая отложения пород».
   В криптоанализе применяются два метода – дедуктивный и индуктивный. Дедуктивные решения основываются на анализе частот встречаемости и используются при вскрытии любого шифра. Индуктивные решения основываются на вероятных словах или на благоприятном стечении обстоятельств, например наличии двух шифртелеграмм с одним и тем же открытым текстом.
   Типичный силлогизм при анализе частот встречаемости букв в телеграмме на английском языке, засекреченной шифром простой однобуквенной замены, имеет в качестве универсальной посылки утверждение о том, что самым частым знаком в шифртелеграмме, вероятно, является замена для буквы «е», а в качестве частной – заявление о том, что знак х встречается в шифртелеграмме наиболее часто. Вывод: знак х шифртекста, вероятно, заменяет букву «е» открытого текста. Поскольку всем языкам присущи строго определенные характеристики частот встречаемости букв, этот дедуктивный метод, как известно, применим к любой шифрованной телеграмме еще до ее изучения.
   По своему характеру такой подход к дешифрованию является априорным. При наличии достаточного объема шифртекста он всегда дает правильный ответ и поэтому представляет собой общее решение.
   С другой стороны, вскрытие шифра индуктивными методами может быть успешным лишь при выполнении определенных условий. Поскольку криптоаналитик не может сказать, действительно ли выполнены определенные условия, пока он не получит шифртелеграмму и не познакомится с ее особенностями, индуктивные методы вскрытия шифров по своему характеру являются апостериорными.
   Если противник посылает шифрованное сообщение сразу же после того, как он был подвергнут массированному артиллерийскому обстрелу, за которым последовала танковая атака, криптоаналитик вполне может предположить, что в открытом тексте посланной шифровки содержатся слова: «артиллерийский обстрел» или «атака». Он может использовать эти вероятные слова для того, чтобы прочесть шифровку¹¹⁴. Рассуждения криптоаналитика основываются на множестве конкретных фактов, связанных с перехваченным шифрованным сообщением, и кристаллизуются всего в один вывод относительно открытого текста этого шифрсообщения. Такие рассуждения чисто индуктивны.
   То же можно сказать и о криптоаналитических рассуждениях, используемых при вскрытии шифров в других особых случаях.
   Так как наличие вероятных слов и особые случаи позволяют криптоаналитику добыть дополнительную информацию, такое вскрытие шифров является весьма эффективным и плодотворным. Поэтому криптоанализ новых шифрсистем чаще всего начинают именно с них. К сожалению, этот подход ограничен конкретными ситуациями, и от него криптоаналитики, как правило, затем переходят к поиску общего дедуктивного решения, основанного на частоте встречаемости букв.
   Представление о криптографии как о математической науке, которое впервые сформулировали в своих работах Бэббидж¹¹⁵ и Фрис, позволило глубоко изучить ее. Осознание этого факта породило также новые способы аналитического вскрытия шифров.
   Применение принципа частот встречаемости букв в криптоанализе постепенно ширилось. В результате были вскрыты шифры, которые вначале казались ему неподвластными. Затем этот принцип столкнулся с явлением, на котором основывается современный криптоанализ, – с постоянством частотных характеристик текстов. Только после Первой мировой войны в криптоанализе возникла новая замечательная теория, которая дала объяснение этому явлению и всему процессу самого криптоанализа. Она позволила, наконец, ясно и четко понять, почему вообще возможно аналитическое вскрытие шифров.
   Часто не учитывают поразительной стабильности и универсальности частот букв. Кроме криптоанализа есть и другие виды человеческой деятельности, в которых постоянство частот букв всегда принимается во внимание, поскольку пренебрежение этим явлением может причинить большие материальные убытки. Для иллюстрации этого положения обратимся к некоторым забавным фактам, прямо не связанным с криптоанализом.
   В 1939 г. в США был напечатан 267-страничныи роман со скромными литературными достоинствами, но настолько оригинальный, что в своем роде у него нет равных во всей многовековой истории английского языка.
   Само название романа указывает на его уникальность: «Гэдсби – роман, содержащий более 50 тысяч слов без буквы „е“. Это – поразительное творение. Пусть скептически настроенный читатель убедится сам, как долго приходится подбирать хотя бы одно предложение на английском языке без использования буквы „е“. Автор „Гэдсби“, Эрнст Райт, перечислил некоторые трудности, с которыми он столкнулся при написании „Гэдсби“. Ему приходилось избегать употребления большинства правильных глаголов в прошедшем времени, так как они оканчиваются на „ed“. Он не мог использовать определенный артикль „the“ или местоимения „he“, „she“, „they“, „we“, „me“ и „them“¹¹⁶. В «Гэдсби» надо было отказаться от просто незаменимых глаголов «are», «have», «were» и «be»¹¹⁷ и крайне необходимых слов, как «there», «these», «those», «when», «then», «more», «after» и «very»¹¹⁸.
   Строго придерживаясь избранного им принципа, Райт отказался от использования числительных между 6 и 30 даже в цифровом написании, так как буква «е» используется при их написании прописью. Райт жаловался: «Почти непреодолимая трудность возникла при введении в повествование молодых женщин: ведь про них не напишешь, что им за тридцать». Были изъяты также сокращения «Mr.»¹¹⁹ и «Mrs.»¹²⁰ из-за присутствия «е» в полном написании этих слов. Сложную задачу приходилось решать в конце почти каждого длинного абзаца: будучи не в состоянии найти слово, не содержащее «е», которым можно было бы закончить мысль, автор возвращался назад и переписывал весь абзац.
   Райт так часто испытывал искушение использовать запрещенное слово, что ему пришлось заклинить рычаг буквы «е» на пишущей машинке, чтобы исключить ее попадание в текст. В предисловии к своей книге автор сообщает:

«Часто буква „е“ пыталась-таки проскользнуть незамеченной. Когда я писал, первоначально от руки, вокруг моего стола столпилась целая армия крохотных „е“, нетерпеливо ожидавших, когда их позовут. Но постепенно, наблюдая, как я пишу, не замечая их, они забеспокоились и, возбужденно перешептываясь, стали вскакивать верхом на мое перо, постоянно посматривая вниз в надежде улучить момент и прыгнуть в какое-нибудь слово. Они вели себя, как морские птицы, удобно рассевшиеся для охоты за проплывающей рыбой. Но когда они увидели, что я уже отмахал 138 страниц на бумаге машинописного формата, они соскользнули на пол и, взявшись за руки, удалились с поникшими головами, а потом, обернувшись, прокричали: „Представляем, какую тарабарщину ты там нацарапал без нас. Вот уж, право, человек! В любом рассказе нас всегда пишут сотни тысяч раз! А сейчас нас гонят прочь! Впервые за всю нашу жизнь!“

   Райт говорил, что для написания романа ему потребовалось «пять с половиной месяцев упорного труда, причем в тексте пришлось сделать столько подчисток и поправок, что при воспоминании о них меня до сих пор бросает в дрожь». Эти эмоции Райта наглядно свидетельствуют о всепроникающей распространенности одной только буквы английского языка. Остальные буквы тоже держатся цепко.
   Не только Райт, но и другие авторы написали, в качестве литературных курьезов, липограммы, то есть сочинения, из которых намеренно исключается одна или несколько букв. Древнегреческий писатель Трифиодор сочинил «Одиссею», в первой книге которой не встречалась буква «?», во второй «?» и т. д.
   Несмотря на постоянство частот встречаемости букв и на большое различие частот отдельных букв во всех языках, они не настолько заметны, чтобы об их существовании знали все. Одним из людей, которые, очевидно, и не подозревали об этом, был Латам Шоулс, изобретатель пишущей машинки, увековечивший ее ужасную клавиатуру.
   Такая клавиатура с неудобным размещением букв впервые появилась в опытном образце, изготовленном в 1872 г. Остатки алфавитного порядка сохранились в расположении букв «d», «f», «g», «h», «j», «k», «l» во втором ряду, а в верхний ряд были включены буквы слова «typewriter»¹²¹, чтобы торговцы могли их легко найти при демонстрации работы.
   Клавиатура с неудачным подбором букв первого ряда «q», «w», «е», «г», «t», «у», «u», «i», «о», «р» оборачивается для предпринимателей потерями времени и денег. Несмотря на то, что основная рабочая нагрузка у большинства людей приходится на правую руку, при такой клавиатуре левая рука делает более половины всех ударов. Получается, что для печатания слов вроде «federated»¹²² и «addressed»¹²³ левая рука лихорадочно мечется по клавишам, а правая тем временем пребывает в абсолютном покое. Кроме того, получается, что два самых «работящих» пальца правой руки приходятся на клавиши с наиболее редкими буквами английского алфавита – «j» и «k».
   Ввиду этих вопиющих недостатков было разработано множество других, более удачных клавиатур. Однако все нововведения были отвергнуты машинистками, не захотевшими переучиваться для работы на новой клавиатуре, и фирмами, не желающими платить за переделку печатающих машинок, имеющих стандартную клавиатуру Шоулса.
   В тех случаях, когда изобретатели и предприниматели учитывают явления, связанные с частотами встречаемости букв, они могут получить значительную дополнительную прибыль. Наиболее ярким примером является Ф. Морзе. В 1838 г. он решил использовать алфавитную систему сигналов для своего только что изобретенного электромагнитного телеграфа. Морзе сосчитал буквы в наборной кассе типографии одной филадельфийской газеты и присвоил наиболее короткие сочетания из точек и тире самым частым буквам.
   За небольшими исключениями Морзе придерживался этого правила и при создании своего знаменитого кода, поставив в соответствие самый короткий знак (точку) самой распространенной букве («е»), другой короткий знак (тире) – следующей часто встречающейся букве («t») и т. д. При использовании современного кода Морзе, слегка отличающегося от его первоначального варианта, на передачу телеграммы из 100 букв на английском языке требуется около 940 знаков. Если бы код Морзе был составлен произвольным образом, то на такую же телеграмму потребовалось бы около 1160 знаков, или примерно на 23% больше. Благодаря проницательности изобретателя, принесшей, кстати, значительные денежные выгоды его потомкам, стало возможно передавать за один сеанс почти на 25% больше телеграмм, чем в случае, если бы Морзе составлял свой код наугад.
   Из этих примеров видно, что частоты букв действительно довольно постоянны. Неоднократно проведенные опыты по их подсчету подтверждают этот факт. Например, восемь немецких криптоаналитиков независимо друг от друга подсчитали частоту буквы «е» в различных текстах на родном языке объемом примерно в тысячу букв. Полученные ими результаты колеблются от 16 до 19,2%. Эти цифры можно сравнить с подсчетом частот встречаемости букв, проведенным в лингвистических целях немецким филологом Ф. Кёдингом в 1898 г. Его подсчет можно принять за эталон: Кёдинг обработал 59298274 буквы, извлеченные из 20 миллионов слогов немецкого языка. Среди них он насчитал 10598015 букв «е», или 17,9%. Интересно, что средняя цифра от восьми результатов аналогичных подсчетов на текстах меньшего объема составляет 18%, то есть отклонение от нормы, полученной Кёдингом, составляет лишь одно «е» на тысячу букв. Получается, что любой человеческий язык укладывается в строгие статистические нормы!
   В чем причина этого поразительного явления? Ответ можно найти с помощью разработанной после Второй мировой войны теории, которая называется «теория информации». Предметом ее изучения являются математические законы, которым подчиняются системы передачи данных. Созданная для решения проблем телефонии и телеграфии, она оказалась применима практически ко всем устройствам, передающим информацию, включая компьютеры и нервную систему животных. Ее идеи оказались настолько плодотворными, что были взяты на вооружение другими науками – психологией, лингвистикой, молекулярной генетикой, историей, статистикой и нейрофизиологией. Создатель этой теории стал также родоначальником ее применения в криптографии.
   Клод Шеннон родился в городе Петоски в штате Мичиган 30 апреля 1916 г. Поступив в Мичиганский университет, Шеннон занялся серьезным изучением электротехники и математики. Именно там у него впервые проявился интерес к теории связи и криптографии.
   В Массачусетском технологическом институте Шеннон написал диссертацию, в которой содержалось множество новаторских идей, связанных с разработкой телефонных систем. Получив степень доктора математических наук, Шеннон поступил на службу в лабораторию компании «Белл», которая была заинтересована в реализаций этих идей на практике.

«Во время Второй мировой войны,

– рассказывал Шеннон, -

компания «Белл» работала над засекречиванием информации. Я тогда занимался системами связи и был назначен в несколько комиссий, изучавших криптоаналитические методы. Начиная примерно с 1941 г., исследования в области математической теории связи и теории шифров велись мной одновременно. Я трудился в обеих областях сразу, и кое-какие идеи в одной из них возникали у меня, когда я работал в другой. Я не хочу сказать, что одна из этих областей доминирует над другой. Просто они настолько тесно связаны, что их невозможно разделить».

   Хотя разработка обеих теорий была в основном завершена примерно к 1944 г., Шеннон продолжал уточнять полученные результаты до 1948-1949 гг., когда они были опубликованы в виде двух отдельных статей в солидном теоретическом журнале «Белл систем текникал джорнэл».
   В обеих статьях Шеннона – «Математическая теория связи» и «Теория связи в секретных системах» – идеи излагаются в краткой, математической форме. Обе они изобилуют выражениями вроде «должно существовать единственное обратное преобразование» и формулами вида «TjRj(TkRl)-1TmRn». Тем не менее точный и выразительный стиль изложения Шеннона вдохнул в них жизнь. В результате его первая статья породила теорию информации, а вторая – теорию шифров.
   Главной в работах Шеннона является концепция избыточной информации. В его интерпретации слово «избыточность» сохраняет свое основное значение ненужного избытка, но оно уточняется и расширяется. Избыточность, по Шеннону, означает, что в сообщении содержится больше символов, чем в действительности требуется для передачи информации. В простом примере, который привел сам Шеннон, входящая в сочетание «qu» буква «u» – лишняя, поскольку в английских словах «u» всегда стоит после «q». По его мнению, также не обязателен и определенный артикль, употребляемый перед существительными во множественном числе. Ведь, посылая телеграммы, англичане прекрасно обходятся без него.
   Насколько велика избыточность английского языка, наглядно демонстрируют некоторые из военных сообщений, которые спрессовываются в «черную магию» сокращенных слов и выражений вроде: «off pres on AD for an indef per». Человек посвященный без особых затруднений прочтет: «officer present on active duty for an indefinite period»¹²⁴. Эта избыточность связана с излишком правил, обременяющих все языки.
   Одни правила, приводящие к избыточности, можно найти в грамматике («I am», а не «I is»), другие – в фонетике (ни одно из английских слов не может начинаться на «ng»), третьи – в идиомах (после глагола «believe» не может стоять глагол в инфинитиве). Четвертые основаны на различного рода ограничениях, налагаемых на словарь. Пользуясь языком, гораздо более избыточным и ограниченным, чем речь взрослых, подросток говорит «swell»¹²⁵ для выражения одобрительного отношения, передать которое старший по возрасту может с помощью доброго десятка других слов. Как писал Шеннон: «Две крайности избыточности в английском языке представлены словарным запасом „бэйсик инглиш“¹²⁶ и книгой Джеймса Джойса¹²⁷ «Поминки по Финнегану». Словарь первого ограничен 850 словами, его избыточность очень велика. Это отражается в расширении, происходящем при переводе какого-нибудь отрывка из «Поминок по Финнегану» на «бэйсик инглиш». Со своей стороны, Джойс увеличивает словарь и этим самым, как утверждают, достигает сжатости семантического содержания».
   Еще два источника избыточности имеют особое значение, учитывая их влияние на таблицу частот встречаемости букв. Один из них берет свое начало от различных связей, к которым так часто обращаются люди и которые, естественно, отражаются в языке. Это связи одного лица или предмета с другим («the son of John»¹²⁸ или «the book on the table»¹²⁹) и какого-то предмета с действием («put it down»¹³⁰). Английский язык выражает такие связи отдельными словарными единицами, называемыми «словами-функциями». Местоимения, предлоги, артикли и союзы – все это слова-функции. Некоторые из них служат для задания чисто грамматических связей, являясь своего рода лингвистической стенографией: говорят «я» вместо того, чтобы все время повторять свое имя. Слова-функции самостоятельного значения не имеют. Но они входят в число наиболее распространенных слов английского языка, так как передаваемые ими связи встречаются чаще других. Всего лишь десяток английских слов («the», «of», «and», «to», «a», «in», «that», «it», «is» и «I») занимает более ? любого текста. Преобладание этих слов неизбежно влияет на таблицу частот встречаемости. Например, своим появлением в ней буква «h» в большинстве случаев бывает обязана только определенному артиклю «the».