Страница:
Но если уравнения правильные, из этого отнюдь не вытекает верность исходных предпосылок. Ведь математика, подобно жернову, перемалывает все, что в нее засыплют. Но теоретики не дремали: появились расчеты, доказывающие, что «эгоистичные» последовательности, раз возникнув, могут закрепляться в геноме, «даже если их влияние на приспособленность особей в значительной степени отрицательно».
Термин «эгоистичная» ДНК в общем-то не нов, раньше была в ходу ДНК «избыточная» и «ненужная». Теперь ее называли «паразитической» и «мусорной» (junk). Чуть ли не комплиментом звучал термин «несведущая» ДНК (она же «невежественная»). Так называли последовательности, которые в принципе могли выполнять какую-либо деятельность независимо от состава.
Увлекшиеся теоретики не замечали, что грешат против логики. Они требуют доказательств функционального значения ДНК, не кодирующей белок, принимая ее бесполезность как нуль-гипотезу. А на деле обе концепции, пока не получено экспериментальных данных в пользу той или иной, вполне равноправны.
Мне это напомнило давний мой спор с одним коллегой – антидарвинистом, к сожалению, ныне покойным. Он отрицал полезность окраски белого медведя. С его точки зрения, чтобы доказать это, нужно достаточно представительную выборку, скажем 100 или 200 медведей выкрасить в красный или зеленый цвет, а затем выпустить в природу и проследить, снизилась ли у них вероятность выжить и оставить потомство. Он тоже принимал бесполезность, нейтральность структуры за нуль-гипотезу. Я в свою очередь постулировал «презумпцию приспособительности» – пока не будет доказано обратное. Так мы и не смогли убедить друг друга ни в чем.
Здесь ситуация та же, только речь идет о признаках не фенотипа, а генотипа.
В результате у многих молекулярных генетиков сложилось представление о геноме высших, ядерных организмов – эукариот, на мой взгляд, довольно дикое. В их представлении геном, например, человека – куча мусора, в которой ползают паразиты. Это так называемые «прыгающие гены» – мобильные, подвижные последовательности ДНК – потомки вирусов. В эту же массу, как жемчужные зерна в кучу навоза, вкраплены «настоящие» гены, т. е. кодирующие белки и РНК.
Как говаривал друг Винни-Пуха ослик Иа-Иа – «душераздирающее зрелище»! Геном бактерии построен куда рациональнее. Тогда что же такое прогресс?
Моя точка зрения на эту проблему проста: с получением новых экспериментальных данных термин «мусорная» будет применяться не к ДНК, а к той литературе, где он всерьез употребляется. Это я говорил еще в 1980 году, прочитав знаменитый номер «Nature», говорю и сейчас – с гораздо большим основанием. А тогда единственным моим доводом была аналогия с передачей лингвистической информации, и ссылаться приходилось только на самые общие положения теории Шеннона.
Дело в том, что в любом канале передачи информации существуют помехи. Канал без помех – такая же невозможная абстракция, как и двигатель со 100% КПД. Поэтому сигнал на пути от передатчика к приемнику искажается – порой настолько, что не может быть использован в практической деятельности. Информация, в общем, просто теряется, обращаясь в шум. Один из законов Шеннона это постулирует: в процессе передачи информация может только теряться, но не увеличиваться. Этот закон – точный аналог второго начала термодинамики, согласно которому энтропия замкнутой системы может только возрастать.
И в нашем случае возрастает энтропия передаваемого текста и энтропия на символ. Например, энтропия на символ в диктанте второгодника существенно выше соответствующей величины для орфографического словаря. Чтобы сохранить информацию в сигнале, необходимо построить его таким образом, чтобы он был помехоустойчивым.
И теория связи, придуманная людьми, и те закономерности, по которым формирует свои сигналы живая природа, предусматривают немало способов повышения помехоустойчивости информационных каналов. Все их нельзя рассмотреть в общедоступной книге. Но важно подчеркнуть одно – все они в той или иной мере сводятся к удлинению сигнала, увеличению времени его передачи – короче, к понижению плотности кодирования генетической информации. К чему это сводится на практике?
Письмо капитана Гранта. Полагаю, в детстве все вы читали захватывающую историю Жюль Верна, которая начиналась с того, что в брюхе акулы была найдена бутылка, а в той бутылке – три записки. Море смыло часть текста, но можно было догадаться, что они написаны на разных языках – английском, немецком и французском. Остаток английского текста гласил:
Сопоставим это с тем фактом, что каждый из нас имеет двойной, диплоидный, набор генов – от отца и от матери. Как говорят генетики, наши организмы на всем протяжении развития от оплодотворенной яйцеклетки, зиготы, находятся в диплофазе. Только наши гаметы – спермии и яйцеклетки гаплоидны, имеют один набор генов.
Но это не общий для всей природы закон. Высшие растения имеют две стадии развития – гаплофазу и диплофазу. Но и у них гаплофаза редуцирована и, в конце концов, паразитирует на диплофазе, являясь частью цветка. Мужской гаплоидный организм цветковых состоит всего-то из трех клеток (пыльцевое зерно). А многие простейшие, грибы и водоросли на протяжении большей части жизни живут в гаплофазе. У них диплоидна только зигота. Гаплоидны и бактерии.
Какой вывод можно сделать из этого? По-видимому, дублирование, а то и многократное повторение генетической информации необходимо для прогрессивной эволюции. И необходимо именно потому, что повышает помехоустойчивость. Если генетический текст повторен трижды, возникают триплоиды. Они бесплодны при половом размножении, но отличаются мощностью роста, высокой жизненной устойчивостью. Таковы гигантская триплоидная осина, бессемянный культурный банан и многие другие сорта растений, а также триплоидные земноводные и рыбы.
Но это не единственный вывод, который можно сделать, анализируя с точки зрения теории информации письмо капитана Гранта. Возьмите русский перевод. В нем 48 слов, из коих можно восстановить 25. Но для понимания смысла текста многие слова лишние, такие как «трехмачтовое судно», «в тысяче пятистах лье от Патагонии» (обрывок последнего слова вынудил Гленарвана со спутниками пересечь Анды и пампасы), «в южном полушарии» (моряк так бы не написал, он ограничился бы аббревиатурой Ю. Ш., точнее s.l.), «здесь они бросили этот документ». Так что для понимания смысла достаточно было 32 слов, многие из которых восстанавливаются по обрывкам: Bri, gow, stra, aland, contin, indi… ongit и т. д.
Получается, что многие символы в тексте письма лишние? Ведь и без них можно обойтись?
Да, лишние. А значит, следуя логике авторов модной гипотезы, их бы следовало назвать «эгоистическими, паразитическими, мусорными» и т. д.
Вы скажете, конечно, что здесь что-то не так. Вот мы и подошли к важному выводу теории информации: все человеческие языки построены со значительной избыточностью. Как оценить степень этой избыточности? Абсолютно точное определение этой величины нереально, хотя бы потому, что избыточность – свойство не языка, а написанного на нем текста. Но, сопоставив много разных текстов, мы можем вывести нечто среднее, характеризующее язык, что-то вроде средней температуры по больнице. Метод определения доступен каждому. Его можно назвать хотя бы методом Паганеля, а суть его – моделирование письма капитана Гранта.
В такую игру удобнее играть вдвоем. Один, по возможности случайно, выбирает кусок текста, неизвестного партнеру. Достаточно примерно тысячи знаков. Затем, пользуясь таблицей случайных чисел, из него вычеркивают 10, 20, 50 и т. д. процентов знаков. Второй игрок должен текст восстановить. Так определяется избыточность текста, выражающаяся в процентах «лишних» символов, без которых задачу можно решить. Хорошо для этой цели использовать персональный компьютер.
Подобные опыты, проведенные в разных странах, на разноязычных текстах, дают близкие цифры: примерно до 80% символов в лингвистической информации оказываются лишними. Мы могли бы говорить и писать в пять раз экономнее – но сколько времени мы бы тогда тратили на расшифровку сообщения?
В принципе, возможно построить совершенно безызбыточный язык, так называемый оптимальный код. В нем каждое случайное сочетание букв означало бы осмысленное слово. Но пользоваться им было бы невозможно. Как в свое время заметил И. А. Полетаев, «никакой аптекарь не рискнул бы выполнить рецепт, написанный типичным врачебным почерком, если бы ошибка в одной букве меняла слово «аспирин» на слово «стрихнин»». Да и жизнь машинисток и наборщиков, телеграфистов и редакторов была бы сплошным мучением.
Конечно, в одном и том же канале можно встретить разные по избыточности тексты. Хорошо бы таким способом сравнить плотность информационного содержания в текстах, например, Хемингуэя и Проскурина. Убежден, что не только теория информации, но и теория литературы почерпнула бы от таких экспериментов немало полезного. Напомню, что Проспер Мериме, отчаявшись перевести пушкинский «Анчар» на французский язык, сделал это по-латыни. Значит ли это, что французский язык избыточнее русского? Вряд ли: в стихотворениях хотя бы Франсуа Вийона плотность информации не меньше пушкинской:
Соответствующие исследования показали чудовищную избыточность языка диспетчеров – до 96%! Только столь низкая информационная плотность сигнала позволяет преодолеть высокий уровень помех. И хорошо, что никому в голову не приходит объявить 96% слов в радиопереговорах лишними, мусорными и наказывать пилотов и диспетчеров за многословие.
А каковы условия передачи генетической информации? Не надо забывать, что она передается на молекулярном уровне. Лучше всего эти условия охарактеризовал С. Э. Шноль: «Молекулярная машина существует в оглушительном тепловом шуме, „целесообразные“ движения ее деталей происходят среди теплового беспорядка и являются статистическим итогом разнонаправленного „броунирования“». Впервые об этом сказал Н. И. Кобозев, рассматривая принципы действия молекул ферментов. Но они полностью применимы и к действию генов. Ведь и синтез РНК на ДНК (транскрипция), и синтез белка на РНК (трансляция), и синтез ДНК на ДНК (репликация) – все это химические реакции, катализируемые ферментами. Львиная доля мутаций – изменений структуры наших генетических программ – определяется именно тепловым шумом – хаотическим движением молекул в клетке. С точки зрения теории информации он полностью аналогичен шуму в репродукторе приемника (тот вызывается тепловыми флуктуациями электронов в цепях усилителя).
Согласно теории Шеннона любой механизм повышения помехоустойчивости информационного канала неизбежно приводит к повышению избыточности текста. Стоит ли удивляться, что избыточность наших генетических программ столь велика? И имеем ли мы право называть избыточную ДНК эгоистичной и паразитической?
Иное дело – выяснить, каковы механизмы, с помощью которых избыточность генетического текста превращается в его помехоустойчивость. Несомненно, их несколько. Далеко не все мы успели установить. Наконец, вряд ли мы найдем здесь полную аналогию с каналами передачи мемофондов: слишком уж различается материальная основа обеих каналов. Но на некоторых следует остановиться особо, потому что анализ их приводит к любопытным и важным выводам. Прежде, однако, рассмотрим структуру самих генетических текстов.
Как устроены наши программы. С чего начинает исследователь, если ему в руки попадает закодированный на неизвестном языке текст? Сначала он определяет, сколько в нем знаков (символов, букв), и какова частота встречаемости каждого знака по отдельности и в сочетаниях с другими. Большой удачей считается на этой стадии выявить символ, обозначающий пробел между словами. Но его может и не быть. Древние римляне и греки, средневековые новгородцы писали без пробелов. Вообще открытие пробела было своего рода революцией, чуть ли не вдвое повысившей скорость считывания информации.
Далее наш дешифровщик будет стараться найти устойчивые группы, устойчивые сочетания знаков (слова), которым он будет приписывать какой-либо смысл. На этой же стадии выявляется тип языка – имеет ли он флексии, каковы закономерности изменения начал и окончаний слов, и так далее. Теперь, в эпоху компьютеров, подобные работы проводятся относительно быстро – при условии, что исследуемый текст достаточно велик. Этрусский язык, например, до сих пор не расшифрован, потому что в распоряжении исследователей имеются лишь короткие, неинформативные надгробные надписи.
Казалось бы, этот метод вполне подходит для дешифровки текстов на языке ДНК. К сожалению, перед молекулярными биологами встали трудности, неведомые этрускологам.
Еще двадцать лет назад мы практически не умели читать ДНК-тексты. Было известно лишь, что они «написаны» 4-буквенным алфавитом (А, Т, Г, Ц) и что аминокислоты в белках и пробелы между белковыми «словами» кодируются сочетаниями из этих четырех букв по три. Даже сейчас, когда прочитаны уже миллионы этих букв, в распоряжении расшифровщиков нет ни одного достаточно представительного куска сообщения (ведь в геноме человека 3,2 миллиарда букв). И, тем не менее, о структуре наших программ мы знаем уже немало. Молекулярным биологам помогло то, что ДНК – двойная спираль комплементарных друг другу последовательностей. Между собой нуклеотиды в последовательности связаны довольно устойчивыми фосфодиэфирными связями. А сами цепи ДНК в двойной спирали скрепляются так называемыми водородными связями, неустойчивыми уже при высокой (100°) температуре или рН ~ 11. Используя один из этих факторов, ДНК можно разделить на две комплементарные половинки (денатурировать). Если понизить температуру или рН, начинается обратный процесс – ренатурация. Комплементарные половинки находят друг друга и восстанавливают двойные спирали. Денатурируя и отжигая ДНК, предварительно «поломанную» ультразвуком на куски разной длины, исследователи пришли к важнейшим выводам о структуре генетического текста – не прочитав пока ни единой буквы!
Прежде всего, чем более разнородны последовательности в геноме, тем медленнее идет реассоциация, отжиг. Это вполне понятно. Хотя тепловое движение молекул осуществляет миллионы сталкиваний половинок ДНК в секунду, в большой совокупности генов далеко не каждая одноцепочечная ДНК сталкивается с комплементарной половинкой. Грубо говоря, чем больше обуви в прихожей, тем труднее найти башмак под пару.
И сразу ДНК высших организмов, имеющих оформленное ядро, преподнесла сюрприз. Часть ее (до 10%) ренатурировала крайне быстро, как простая, содержащая мало генов ДНК вирусов. Другая (20-30%) – отжигалась медленнее, в зависимости от концентрации многими часами. И, наконец, для отжига, восстановления двойной спирали 60-70% ДНК требовалось несколько суток.
Объяснить этот факт можно было так: в ДНК эукариотных организмов имеются три переходящие друг в друга фракции:
Все это далеко не так просто, и вот почему. У ядерных организмов и архебактерий структурные гены имеют сложное строение. Куски ДНК, кодирующие аминокислотные последовательности (экзоны), перемежаются последовательностями, не кодирующими ничего (интронами). При созревании информационной РНК интроны вырезаются специальными ферментами и отбрасываются, а экзоны сшиваются другим ферментом – лигазой в зрелую РНК, на которой может транслироваться белок. Интроны дружно объявили ненужными частями гена – ведь белка они не кодируют! Но этому мешает одно неприятное обстоятельство.
В УП часто встречаются точные копии структурных генов разных белков, но они не содержат интронов. Как они возникают, в общем, неясно. Скорее всего, это ДНК-копии информационных РНК, встроившиеся обратно в геном. Так делают ретро-вирусы, в том числе знаменитый СПИД. Но РНК ретровирусов содержит интроны и, включаясь в геном в виде ДНК, остается активной.
А безинтронные копии генов неактивны. На них не идет синтез РНК, белков они не вырабатывают. Потому их назвали лжегенами – псевдогенами. Что же, получается, что ген теряет активность, если из него вырезать ненужные части?
Но, может быть, в категорию «мусорной» и «мертвой» ДНК следует отнести псевдогены? Так, в общем, считает большинство теоретиков. Экспериментаторы не столь единодушны. Есть факты, которые никак не запихнуть в мешок модной гипотезы.
Возьмем хотя бы ген глобина «дельта». Этот ген активен у низших обезьян Нового Света (широконосых). У более высокоразвитых узконосых обезьян Старого Света, таких как мартышки, макаки, павианы, нет гемоглобина «дельта» – но ген, кодирующий эту форму белка, есть. Однако у него нет интронов, он неактивен и попадает в категорию псевдогенов. Казалось бы, ясно: ген «умер», попал в разряд «мусорных». Однако у человека он обретает интроны и вновь становится активным. Так что же такое псевдогены – свалка мусора или запас на будущее, так сказать «гены в творческом отпуске»?
Есть и более странные факты. Один и тот же ген в мозговой ткани активен и нарабатывает белок. А в почках он же представлен безинтронным псевдогеном.
Полагаю, что нужно воздержаться от преждевременных суждений и бранных эпитетов, пока мы не разберемся до конца в этой сложной ситуации. Думаю, что, пока выйдет в свет эта книга, многое уже будет ясно.
А пока посмотрим, не поможет ли нам, хотя бы в построении гипотез, аналогия с лингвистическими текстами.
Монморенси – последовательность уникальная. Еще 10 лет назад в статьях по структуре генома были модными графики, по которым можно было определить распределение нуклеотидных последовательностей по скорости отжига, реассоциации. На оси абсцисс (ось Х) у них обычно откладывалась не скорость реассоциации, а величина c0t – произведение начальной концентрации денатурированной ДНК на время отжига. А так как эта величина в одном геноме изменяется на пять порядков, давали ее логарифм.
Читается c0t как «це-ноль-тэ», но на лабораторном жаргоне говорили – «кот» («мы отожгли ДНК до ста котов»). Жаргонное словцо хорошо свидетельствует о популярности метода. В самом деле, при равных объемах геномов c0t связано с копийностью (числом повторов) прямой зависимостью.
На оси ординат (ось Y) откладывали процент данной фракции в геноме, только шкала была перевернута.
Эти так называемые кривые кинетики реассоциации сыграли свою роль, да и сейчас часто используются. Вспомнил я о них вот по какой причине. Любой человеческий язык несколько условно можно трактовать как состоящий из двух категорий слов (или частей слов). Первая категория состоит из слов, за которыми стоят какие-то объективные реалии. Это корни существительных, прилагательных и глаголов.
Вторая категория – флексии, предлоги, приставки, артикли, окончания – то, что придает смысл корням, но без них самих смысла не имеет. С другой стороны, один корень без соответствующих «добавок» становится невразумительным. Например, что значит английское слово strike? Не спешите с ответом. The strike – забастовка (существительное). A to strike – бастовать (глагол). Отдельно же взятый артикль ни о чем не говорит, как и частица to.
А если в генетических текстах структурные гены выполняют функцию корней слов первой категории (ведь за ними стоят реалии – аминокислотные тексты белков), а повторы и некодирующие белков УП играют роль слов второй категории? Тогда станет ясно, что они столь же необходимы в ДНК-тексте, как и структурные гены. Попробуйте в разговоре и письме обойтись одними корнями.
Эгоистичность повторов иногда доказывают таким доводом: у вида А такой повтор есть, а у вида Б нет. Значит, он не нужен.
Аналогичное рассуждение: в немецком языке есть артикли, характеризующие род существительного. Родственные артикли в английском превратились в детерминативы существительных (категория рода в английском языке отмирает). А в русском языке артиклей нет вообще, они не нужны. Значит ли это, что они не нужны и в немецком, английском и французском языках?
Вопрос мой явно риторический. Приведу пример из мемуаров французского подводника Ж. Уо. Погружаясь в батискафе с директором биостанции Вильфранш Трегубовым, русским по происхождению, Уо сокрушенно называет его блестящим собеседником, по непонятной причине опускавшим решительно все артикли. Сорок лет прожив во Франции, он так и не привык к ним – по той причине, что в русском языке их заменяют другие вспомогательные слова.
Термин «эгоистичная» ДНК в общем-то не нов, раньше была в ходу ДНК «избыточная» и «ненужная». Теперь ее называли «паразитической» и «мусорной» (junk). Чуть ли не комплиментом звучал термин «несведущая» ДНК (она же «невежественная»). Так называли последовательности, которые в принципе могли выполнять какую-либо деятельность независимо от состава.
Увлекшиеся теоретики не замечали, что грешат против логики. Они требуют доказательств функционального значения ДНК, не кодирующей белок, принимая ее бесполезность как нуль-гипотезу. А на деле обе концепции, пока не получено экспериментальных данных в пользу той или иной, вполне равноправны.
Мне это напомнило давний мой спор с одним коллегой – антидарвинистом, к сожалению, ныне покойным. Он отрицал полезность окраски белого медведя. С его точки зрения, чтобы доказать это, нужно достаточно представительную выборку, скажем 100 или 200 медведей выкрасить в красный или зеленый цвет, а затем выпустить в природу и проследить, снизилась ли у них вероятность выжить и оставить потомство. Он тоже принимал бесполезность, нейтральность структуры за нуль-гипотезу. Я в свою очередь постулировал «презумпцию приспособительности» – пока не будет доказано обратное. Так мы и не смогли убедить друг друга ни в чем.
Здесь ситуация та же, только речь идет о признаках не фенотипа, а генотипа.
В результате у многих молекулярных генетиков сложилось представление о геноме высших, ядерных организмов – эукариот, на мой взгляд, довольно дикое. В их представлении геном, например, человека – куча мусора, в которой ползают паразиты. Это так называемые «прыгающие гены» – мобильные, подвижные последовательности ДНК – потомки вирусов. В эту же массу, как жемчужные зерна в кучу навоза, вкраплены «настоящие» гены, т. е. кодирующие белки и РНК.
Как говаривал друг Винни-Пуха ослик Иа-Иа – «душераздирающее зрелище»! Геном бактерии построен куда рациональнее. Тогда что же такое прогресс?
Моя точка зрения на эту проблему проста: с получением новых экспериментальных данных термин «мусорная» будет применяться не к ДНК, а к той литературе, где он всерьез употребляется. Это я говорил еще в 1980 году, прочитав знаменитый номер «Nature», говорю и сейчас – с гораздо большим основанием. А тогда единственным моим доводом была аналогия с передачей лингвистической информации, и ссылаться приходилось только на самые общие положения теории Шеннона.
Дело в том, что в любом канале передачи информации существуют помехи. Канал без помех – такая же невозможная абстракция, как и двигатель со 100% КПД. Поэтому сигнал на пути от передатчика к приемнику искажается – порой настолько, что не может быть использован в практической деятельности. Информация, в общем, просто теряется, обращаясь в шум. Один из законов Шеннона это постулирует: в процессе передачи информация может только теряться, но не увеличиваться. Этот закон – точный аналог второго начала термодинамики, согласно которому энтропия замкнутой системы может только возрастать.
И в нашем случае возрастает энтропия передаваемого текста и энтропия на символ. Например, энтропия на символ в диктанте второгодника существенно выше соответствующей величины для орфографического словаря. Чтобы сохранить информацию в сигнале, необходимо построить его таким образом, чтобы он был помехоустойчивым.
И теория связи, придуманная людьми, и те закономерности, по которым формирует свои сигналы живая природа, предусматривают немало способов повышения помехоустойчивости информационных каналов. Все их нельзя рассмотреть в общедоступной книге. Но важно подчеркнуть одно – все они в той или иной мере сводятся к удлинению сигнала, увеличению времени его передачи – короче, к понижению плотности кодирования генетической информации. К чему это сводится на практике?
Письмо капитана Гранта. Полагаю, в детстве все вы читали захватывающую историю Жюль Верна, которая начиналась с того, что в брюхе акулы была найдена бутылка, а в той бутылке – три записки. Море смыло часть текста, но можно было догадаться, что они написаны на разных языках – английском, немецком и французском. Остаток английского текста гласил:
… 62… Bri… gow… sink… stra… aland… skipp… Gr…… that monit… of long… and… ssistance… lost…To же на немецком:
… 7 Juni… Glas… zwei… atrosen… graus… bringt ihnen…Видимо, Жюль Берн знал немецкий хуже английского. По той же причине лучше всего сохранился французский текст документа:
… troi… ats… tannia… gonie…austral… abor… contin… pr… cruel… indi…jete… ongit et 37°11'… lat…Казалось бы, немного. Но герои романа во главе с Жаком Паганелем в конце концов, ошибаясь и в процессе кругосветного путешествия исправляя ошибки, уверенно восстановили текст, за исключением одного слова. Вот как выглядел текст в переводе на русский язык:
«27 июня 1862 года трехмачтовое судно «Британия» из Глазго потерпело крушение в тысяче пятистах лье от Патагонии, в Южном полушарии. Два матроса и капитан Грант добрались до острова Табор. Здесь, постоянно терпя жестокие лишения, они бросили этот документ под 153° долготы и 37°11" широты. Придите им на помощь".Я подчеркнул те слова и части слов, которые сохранило море. Чем для нас примечательна эта выдуманная история? Прежде всего, тем, что текст повторен трижды. Будь копии одноязычными, результат был бы тот же: помехоустойчивость сигнала возросла бы. Примечательно, что Паганель споткнулся на слове «Табор» – оно имелось только во французском тексте и, значит, не обладало трехкратной избыточностью. Впрочем, будь оно расшифровано, героям романа не пришлось бы совершать кругосветное плавание, и роман вообще бы не состоялся.
Сопоставим это с тем фактом, что каждый из нас имеет двойной, диплоидный, набор генов – от отца и от матери. Как говорят генетики, наши организмы на всем протяжении развития от оплодотворенной яйцеклетки, зиготы, находятся в диплофазе. Только наши гаметы – спермии и яйцеклетки гаплоидны, имеют один набор генов.
Но это не общий для всей природы закон. Высшие растения имеют две стадии развития – гаплофазу и диплофазу. Но и у них гаплофаза редуцирована и, в конце концов, паразитирует на диплофазе, являясь частью цветка. Мужской гаплоидный организм цветковых состоит всего-то из трех клеток (пыльцевое зерно). А многие простейшие, грибы и водоросли на протяжении большей части жизни живут в гаплофазе. У них диплоидна только зигота. Гаплоидны и бактерии.
Какой вывод можно сделать из этого? По-видимому, дублирование, а то и многократное повторение генетической информации необходимо для прогрессивной эволюции. И необходимо именно потому, что повышает помехоустойчивость. Если генетический текст повторен трижды, возникают триплоиды. Они бесплодны при половом размножении, но отличаются мощностью роста, высокой жизненной устойчивостью. Таковы гигантская триплоидная осина, бессемянный культурный банан и многие другие сорта растений, а также триплоидные земноводные и рыбы.
Но это не единственный вывод, который можно сделать, анализируя с точки зрения теории информации письмо капитана Гранта. Возьмите русский перевод. В нем 48 слов, из коих можно восстановить 25. Но для понимания смысла текста многие слова лишние, такие как «трехмачтовое судно», «в тысяче пятистах лье от Патагонии» (обрывок последнего слова вынудил Гленарвана со спутниками пересечь Анды и пампасы), «в южном полушарии» (моряк так бы не написал, он ограничился бы аббревиатурой Ю. Ш., точнее s.l.), «здесь они бросили этот документ». Так что для понимания смысла достаточно было 32 слов, многие из которых восстанавливаются по обрывкам: Bri, gow, stra, aland, contin, indi… ongit и т. д.
Получается, что многие символы в тексте письма лишние? Ведь и без них можно обойтись?
Да, лишние. А значит, следуя логике авторов модной гипотезы, их бы следовало назвать «эгоистическими, паразитическими, мусорными» и т. д.
Вы скажете, конечно, что здесь что-то не так. Вот мы и подошли к важному выводу теории информации: все человеческие языки построены со значительной избыточностью. Как оценить степень этой избыточности? Абсолютно точное определение этой величины нереально, хотя бы потому, что избыточность – свойство не языка, а написанного на нем текста. Но, сопоставив много разных текстов, мы можем вывести нечто среднее, характеризующее язык, что-то вроде средней температуры по больнице. Метод определения доступен каждому. Его можно назвать хотя бы методом Паганеля, а суть его – моделирование письма капитана Гранта.
В такую игру удобнее играть вдвоем. Один, по возможности случайно, выбирает кусок текста, неизвестного партнеру. Достаточно примерно тысячи знаков. Затем, пользуясь таблицей случайных чисел, из него вычеркивают 10, 20, 50 и т. д. процентов знаков. Второй игрок должен текст восстановить. Так определяется избыточность текста, выражающаяся в процентах «лишних» символов, без которых задачу можно решить. Хорошо для этой цели использовать персональный компьютер.
Подобные опыты, проведенные в разных странах, на разноязычных текстах, дают близкие цифры: примерно до 80% символов в лингвистической информации оказываются лишними. Мы могли бы говорить и писать в пять раз экономнее – но сколько времени мы бы тогда тратили на расшифровку сообщения?
В принципе, возможно построить совершенно безызбыточный язык, так называемый оптимальный код. В нем каждое случайное сочетание букв означало бы осмысленное слово. Но пользоваться им было бы невозможно. Как в свое время заметил И. А. Полетаев, «никакой аптекарь не рискнул бы выполнить рецепт, написанный типичным врачебным почерком, если бы ошибка в одной букве меняла слово «аспирин» на слово «стрихнин»». Да и жизнь машинисток и наборщиков, телеграфистов и редакторов была бы сплошным мучением.
Конечно, в одном и том же канале можно встретить разные по избыточности тексты. Хорошо бы таким способом сравнить плотность информационного содержания в текстах, например, Хемингуэя и Проскурина. Убежден, что не только теория информации, но и теория литературы почерпнула бы от таких экспериментов немало полезного. Напомню, что Проспер Мериме, отчаявшись перевести пушкинский «Анчар» на французский язык, сделал это по-латыни. Значит ли это, что французский язык избыточнее русского? Вряд ли: в стихотворениях хотя бы Франсуа Вийона плотность информации не меньше пушкинской:
Но оставим это литературоведам и перейдем к специальным языкам. Строго говоря, к ним нельзя применить это название. Специальные языки – это способы построения текстов, подлежащих передаче по каналу со специфическими свойствами, например, при наличии высокого уровня помех. Особенно часто они используются там, где ошибка в расшифровке сообщения стоит чересчур дорого. С этой точки зрения для нас наиболее интересен язык аэродромных диспетчеров, на котором они общаются по радио с пилотами взлетающих и идущих на посадку самолетов.
На помощь только враг придет,
Лишь о святом дурная слава,
Всего на свете горше мед,
И лишь влюбленный мыслит здраво.
Соответствующие исследования показали чудовищную избыточность языка диспетчеров – до 96%! Только столь низкая информационная плотность сигнала позволяет преодолеть высокий уровень помех. И хорошо, что никому в голову не приходит объявить 96% слов в радиопереговорах лишними, мусорными и наказывать пилотов и диспетчеров за многословие.
А каковы условия передачи генетической информации? Не надо забывать, что она передается на молекулярном уровне. Лучше всего эти условия охарактеризовал С. Э. Шноль: «Молекулярная машина существует в оглушительном тепловом шуме, „целесообразные“ движения ее деталей происходят среди теплового беспорядка и являются статистическим итогом разнонаправленного „броунирования“». Впервые об этом сказал Н. И. Кобозев, рассматривая принципы действия молекул ферментов. Но они полностью применимы и к действию генов. Ведь и синтез РНК на ДНК (транскрипция), и синтез белка на РНК (трансляция), и синтез ДНК на ДНК (репликация) – все это химические реакции, катализируемые ферментами. Львиная доля мутаций – изменений структуры наших генетических программ – определяется именно тепловым шумом – хаотическим движением молекул в клетке. С точки зрения теории информации он полностью аналогичен шуму в репродукторе приемника (тот вызывается тепловыми флуктуациями электронов в цепях усилителя).
Согласно теории Шеннона любой механизм повышения помехоустойчивости информационного канала неизбежно приводит к повышению избыточности текста. Стоит ли удивляться, что избыточность наших генетических программ столь велика? И имеем ли мы право называть избыточную ДНК эгоистичной и паразитической?
Иное дело – выяснить, каковы механизмы, с помощью которых избыточность генетического текста превращается в его помехоустойчивость. Несомненно, их несколько. Далеко не все мы успели установить. Наконец, вряд ли мы найдем здесь полную аналогию с каналами передачи мемофондов: слишком уж различается материальная основа обеих каналов. Но на некоторых следует остановиться особо, потому что анализ их приводит к любопытным и важным выводам. Прежде, однако, рассмотрим структуру самих генетических текстов.
Как устроены наши программы. С чего начинает исследователь, если ему в руки попадает закодированный на неизвестном языке текст? Сначала он определяет, сколько в нем знаков (символов, букв), и какова частота встречаемости каждого знака по отдельности и в сочетаниях с другими. Большой удачей считается на этой стадии выявить символ, обозначающий пробел между словами. Но его может и не быть. Древние римляне и греки, средневековые новгородцы писали без пробелов. Вообще открытие пробела было своего рода революцией, чуть ли не вдвое повысившей скорость считывания информации.
Далее наш дешифровщик будет стараться найти устойчивые группы, устойчивые сочетания знаков (слова), которым он будет приписывать какой-либо смысл. На этой же стадии выявляется тип языка – имеет ли он флексии, каковы закономерности изменения начал и окончаний слов, и так далее. Теперь, в эпоху компьютеров, подобные работы проводятся относительно быстро – при условии, что исследуемый текст достаточно велик. Этрусский язык, например, до сих пор не расшифрован, потому что в распоряжении исследователей имеются лишь короткие, неинформативные надгробные надписи.
Казалось бы, этот метод вполне подходит для дешифровки текстов на языке ДНК. К сожалению, перед молекулярными биологами встали трудности, неведомые этрускологам.
Еще двадцать лет назад мы практически не умели читать ДНК-тексты. Было известно лишь, что они «написаны» 4-буквенным алфавитом (А, Т, Г, Ц) и что аминокислоты в белках и пробелы между белковыми «словами» кодируются сочетаниями из этих четырех букв по три. Даже сейчас, когда прочитаны уже миллионы этих букв, в распоряжении расшифровщиков нет ни одного достаточно представительного куска сообщения (ведь в геноме человека 3,2 миллиарда букв). И, тем не менее, о структуре наших программ мы знаем уже немало. Молекулярным биологам помогло то, что ДНК – двойная спираль комплементарных друг другу последовательностей. Между собой нуклеотиды в последовательности связаны довольно устойчивыми фосфодиэфирными связями. А сами цепи ДНК в двойной спирали скрепляются так называемыми водородными связями, неустойчивыми уже при высокой (100°) температуре или рН ~ 11. Используя один из этих факторов, ДНК можно разделить на две комплементарные половинки (денатурировать). Если понизить температуру или рН, начинается обратный процесс – ренатурация. Комплементарные половинки находят друг друга и восстанавливают двойные спирали. Денатурируя и отжигая ДНК, предварительно «поломанную» ультразвуком на куски разной длины, исследователи пришли к важнейшим выводам о структуре генетического текста – не прочитав пока ни единой буквы!
Прежде всего, чем более разнородны последовательности в геноме, тем медленнее идет реассоциация, отжиг. Это вполне понятно. Хотя тепловое движение молекул осуществляет миллионы сталкиваний половинок ДНК в секунду, в большой совокупности генов далеко не каждая одноцепочечная ДНК сталкивается с комплементарной половинкой. Грубо говоря, чем больше обуви в прихожей, тем труднее найти башмак под пару.
И сразу ДНК высших организмов, имеющих оформленное ядро, преподнесла сюрприз. Часть ее (до 10%) ренатурировала крайне быстро, как простая, содержащая мало генов ДНК вирусов. Другая (20-30%) – отжигалась медленнее, в зависимости от концентрации многими часами. И, наконец, для отжига, восстановления двойной спирали 60-70% ДНК требовалось несколько суток.
Объяснить этот факт можно было так: в ДНК эукариотных организмов имеются три переходящие друг в друга фракции:
1) Высокоповторяющиеся (до нескольких миллионов раз) последовательности – ВПП. Именно потому, что они представлены сотнями тысяч и миллионами копий, их комплементарные половины быстро находят друг друга при отжиге. Обычно они состоят из коротких единиц, следующих друг за другом тандемом, как вагоны в поезде. Белков они не кодируют, и что они делают в геноме – неизвестно. Высказывались предположения, что именно они ограничивают скрещивание между особями, принадлежащими к разным видам, однако доказать это пока не удалось. Любопытно, что создатель теории «эгоистичной» ДНК Дулиттл не считает их «эгоистами». По его мнению, это «невежественная» ДНК, т. е. такая, которая выполняет пока неясную нам функцию только своим наличием, независимо от содержания. То есть, ВПП нужны в хромосомах как инертный наполнитесь, вроде сахара в лекарственных таблетках.Часть их удается «пристроить» в качестве так называемых спейсеров-разделителей, разобщающих структурные гены. Но спейсерами бывают и СПП. «Эгоистичными» их тоже назвать нельзя: согласно этой теории гены-эгоисты защищаются от вырезания из хромосом и сохраняют свой состав. К большей части УП обычно применяют термины «мусорная» и «мертвая», иногда «умирающая» ДНК.
2) Средние повторяющиеся последовательности (СПП). Число их копий в геноме колеблется от десятков тысяч до сотен тысяч. Между этой фракцией и предыдущей нет резкой границы: например типичный средний повтор ДНК человека Alul представлен в наших геномах 300 тыс. копий и более. На мой взгляд, это самый интересный класс ДНК, позволяющий строить практически неограниченное число спекуляций. Именно СПП, во всяком случае значительную часть их, обвиняют в эгоизме.
3) Наконец, уникальные последовательности (УП). Судя по названию, они представлены в геноме (гаплоидном) только один раз, во всяком случае, не более десяти. Большинство структурных генов, кодирующих белки, относятся к этому классу. Но хотя доля их во фракции очень мала, УП в геномах высших организмов в 10—100 раз больше, чем нужно для того, чтобы записать информацию о всевозможных белках. Что же делают остальные УП?
Все это далеко не так просто, и вот почему. У ядерных организмов и архебактерий структурные гены имеют сложное строение. Куски ДНК, кодирующие аминокислотные последовательности (экзоны), перемежаются последовательностями, не кодирующими ничего (интронами). При созревании информационной РНК интроны вырезаются специальными ферментами и отбрасываются, а экзоны сшиваются другим ферментом – лигазой в зрелую РНК, на которой может транслироваться белок. Интроны дружно объявили ненужными частями гена – ведь белка они не кодируют! Но этому мешает одно неприятное обстоятельство.
В УП часто встречаются точные копии структурных генов разных белков, но они не содержат интронов. Как они возникают, в общем, неясно. Скорее всего, это ДНК-копии информационных РНК, встроившиеся обратно в геном. Так делают ретро-вирусы, в том числе знаменитый СПИД. Но РНК ретровирусов содержит интроны и, включаясь в геном в виде ДНК, остается активной.
А безинтронные копии генов неактивны. На них не идет синтез РНК, белков они не вырабатывают. Потому их назвали лжегенами – псевдогенами. Что же, получается, что ген теряет активность, если из него вырезать ненужные части?
Но, может быть, в категорию «мусорной» и «мертвой» ДНК следует отнести псевдогены? Так, в общем, считает большинство теоретиков. Экспериментаторы не столь единодушны. Есть факты, которые никак не запихнуть в мешок модной гипотезы.
Возьмем хотя бы ген глобина «дельта». Этот ген активен у низших обезьян Нового Света (широконосых). У более высокоразвитых узконосых обезьян Старого Света, таких как мартышки, макаки, павианы, нет гемоглобина «дельта» – но ген, кодирующий эту форму белка, есть. Однако у него нет интронов, он неактивен и попадает в категорию псевдогенов. Казалось бы, ясно: ген «умер», попал в разряд «мусорных». Однако у человека он обретает интроны и вновь становится активным. Так что же такое псевдогены – свалка мусора или запас на будущее, так сказать «гены в творческом отпуске»?
Есть и более странные факты. Один и тот же ген в мозговой ткани активен и нарабатывает белок. А в почках он же представлен безинтронным псевдогеном.
Полагаю, что нужно воздержаться от преждевременных суждений и бранных эпитетов, пока мы не разберемся до конца в этой сложной ситуации. Думаю, что, пока выйдет в свет эта книга, многое уже будет ясно.
А пока посмотрим, не поможет ли нам, хотя бы в построении гипотез, аналогия с лингвистическими текстами.
Монморенси – последовательность уникальная. Еще 10 лет назад в статьях по структуре генома были модными графики, по которым можно было определить распределение нуклеотидных последовательностей по скорости отжига, реассоциации. На оси абсцисс (ось Х) у них обычно откладывалась не скорость реассоциации, а величина c0t – произведение начальной концентрации денатурированной ДНК на время отжига. А так как эта величина в одном геноме изменяется на пять порядков, давали ее логарифм.
Читается c0t как «це-ноль-тэ», но на лабораторном жаргоне говорили – «кот» («мы отожгли ДНК до ста котов»). Жаргонное словцо хорошо свидетельствует о популярности метода. В самом деле, при равных объемах геномов c0t связано с копийностью (числом повторов) прямой зависимостью.
На оси ординат (ось Y) откладывали процент данной фракции в геноме, только шкала была перевернута.
Эти так называемые кривые кинетики реассоциации сыграли свою роль, да и сейчас часто используются. Вспомнил я о них вот по какой причине. Любой человеческий язык несколько условно можно трактовать как состоящий из двух категорий слов (или частей слов). Первая категория состоит из слов, за которыми стоят какие-то объективные реалии. Это корни существительных, прилагательных и глаголов.
Вторая категория – флексии, предлоги, приставки, артикли, окончания – то, что придает смысл корням, но без них самих смысла не имеет. С другой стороны, один корень без соответствующих «добавок» становится невразумительным. Например, что значит английское слово strike? Не спешите с ответом. The strike – забастовка (существительное). A to strike – бастовать (глагол). Отдельно же взятый артикль ни о чем не говорит, как и частица to.
А если в генетических текстах структурные гены выполняют функцию корней слов первой категории (ведь за ними стоят реалии – аминокислотные тексты белков), а повторы и некодирующие белков УП играют роль слов второй категории? Тогда станет ясно, что они столь же необходимы в ДНК-тексте, как и структурные гены. Попробуйте в разговоре и письме обойтись одними корнями.
Эгоистичность повторов иногда доказывают таким доводом: у вида А такой повтор есть, а у вида Б нет. Значит, он не нужен.
Аналогичное рассуждение: в немецком языке есть артикли, характеризующие род существительного. Родственные артикли в английском превратились в детерминативы существительных (категория рода в английском языке отмирает). А в русском языке артиклей нет вообще, они не нужны. Значит ли это, что они не нужны и в немецком, английском и французском языках?
Вопрос мой явно риторический. Приведу пример из мемуаров французского подводника Ж. Уо. Погружаясь в батискафе с директором биостанции Вильфранш Трегубовым, русским по происхождению, Уо сокрушенно называет его блестящим собеседником, по непонятной причине опускавшим решительно все артикли. Сорок лет прожив во Франции, он так и не привык к ним – по той причине, что в русском языке их заменяют другие вспомогательные слова.