Такие соображения привели меня лет десять назад к идее одного эксперимента (если его можно так назвать). Я взял английский текст (первую главу из общеизвестной книги Д. К. Джерома «Трое в одной лодке…») и на досуге выписал из нее все слова, определив частоту их встречаемости. А затем построил график, аналогичный кривой кинетики реассоциации ДНК – только вместо c0t взял частоту встречаемости слов в тексте.
   Получилась довольно наглядная кривая, которую коллеги принимали именно за этот образец. Четко выделились высокоповторяющиеся последовательности (the, a, an, to), средние повторы (in, on, into, – ing). И, наконец, уникальные. Туда же попал и Монморенси – ведь кличка знаменитого фокстерьера встречается в первой главе только один раз.
   Почему я взял англоязычный текст? С ним легче работать, легче отстраниться. Сейчас я думаю, что русскоязычный дал бы еще более четкую картину – за счет флексий. Человек, владеющий персональным компьютером, был бы способен на анализ более протяженных и сложных текстов, и аналогия выступила бы еще нагляднее.
   Повторяю, аналогия не доказательство, а лишь повод для выдвижения гипотезы (или спекуляции, если хотите). Структурный ген, кодирующий белок, – это только корень слова. Он обретает смысл лишь при взаимодействии с другими последовательностями, которые играют роль вспомогательных слов в языке. Вирусы и отчасти бактерии практически не имеют повторов в своих простых геномах. Их «язык» напоминает, если хотите, тот язык, на котором говорил Тарзан в некогда популярных фильмах. Но закодировать на нем достаточно большой объем информации о построении сложного фенотипа невозможно.
   Опираясь на этот нехитрый эксперимент, я мог уже целеустремленно искать в литературе сведения о функциональной роли повторяющихся последовательностей и тех механизмах, которые обеспечивают помехоустойчивость генетических сообщений.
   Но это уже другой вопрос, тема следующей главы. До сих пор мы говорили о статике, о структуре генетических сообщений. В следующей главе придется говорить и о динамике, об эволюции генетических текстов – начиная с момента происхождения жизни.
   В заключение хочу оговориться. Я отнюдь не считаю все последовательности ДНК функционально значимыми. Подобно тому, как все организмы имеют так называемые рудиментарные органы, ныне бесполезные, но свидетельствующие об их истории, так и их геномы могут содержать реликтовые последовательности, гены-рудименты, не играющие сейчас никакой роли или очень мало значимые. Все дело в количественной оценке феномена. Не только 96%, но и 30% ДНК «мусорной» и «эгоистической» в процессе эволюции в геноме не удержится.
   А сейчас перейдем к третьей главе. В начале ее нужно обсудить вопрос: нужен ли господь бог для синтеза первого гена или же, как сказал Лаплас Наполеону, можно обойтись без этой гипотезы?

Глава III.
Есть ли жизнь на Земле?

   Оро:…Как сказал один шутник, по теории вероятностей мы все должны были быть мертвецами. Тем не менее, мы живы.
   Чаргафф: Но мы все-таки умрем.
   Мора: В том-то и беда.
Из дискуссии на Флоридской конференции по происхождению жизни


 
Там, где вечно дремлет тайна,
Есть нездешние поля.
Только гость я, гость случайный
На горах твоих, земля.
 
Сергей Есенин

   В прошлой главе мы пришли к выводу, что так называемые структурные гены, кодирующие аминокислотные последовательности белков – это лишь, если угодно, корни слов, но не сами слова и тем более не осмысленные предложения. Тем самым вопрос о «лищней» ДНК в значительной мере снимается. Если же мы учтем, что в передаче информации по каналу с высоким уровнем шума код должен быть помехоустойчивым, становится ясной та непонятная щедрость природы, с которой она наделила ДНК наши клеточные ядра. Это не исключает возможности существования в геноме своего рода реликтовых последовательностей, не несущих в настоящее время определенной функции («гены на пенсии или в творческом отпуске»). Но доля их в геноме не может быть значительной, они не должны мешать генам активным, ибо довлеет дневи злоба его.
   На уровне построения фенотипа (клеток, тканей, органов) также существуют структуры, для организма в данный период эволюции бесполезные (рудиментарные органы вроде зачаточных тазовых костей у китов и удавов, мышцы, двигающие ушной раковиной у человека, человеческий аппендикс и многое другое).
   Аналогичная картина наблюдается и в мемофондах. Мы знаем лишние буквы в алфавите и слова в языках, рудименты старых технологий, обычаев и идеологий. Простой пример: раньше обшлага камзолов отворачивались и пристегивались на пуговицы. Теперь этого нет, но на рукавах каждого пиджака с упорством, достойным лучшего применения, пришивают по три пуговицы. Не столь уж безобидный рудимент, хотя бы для нашей страны. Сколько пиджаков в РФ, статистика не знает, как не знает и числа стульев. Допустим, что каждый гражданин мужского пола имеет хотя бы один пиджак (140 млн.). Это соответствует 840 млн. пуговиц, которые ничего не пристегивают. Без малого миллиард, а ведь это пример безобиднейшего реликта. Несравненно больше вреда «пуговицы на обшлагах» приносят не в технологиях, а в самых консервативных областях мемофондов – обычаях, обрядах, идеологиях. Но об этом у нас еще будет время поговорить.
   Сейчас рассмотрим несколько иной аспект проблемы. Существуют ли какие-нибудь связи в последовательности нуклео-тидов – в нуклеотидном «тексте»? И опять начнем с аналогии – рассмотрим лингвистические тексты.
   Как вы помните, энтропия на символ русского текста около 5 бит, но при условии, что все буквы одинаково вероятны. Такой текст можно получить, если 32 буквы кириллицы (без различения букв е и ё, ь и ъ, как на телеграфе) написать на бумажках, а затем вытаскивать их из урны, записывать вытянутый символ и возвращать бумажку обратно. Сначала я хотел сделать это сам, но потом решил воспользоваться моделью Р. Л. Добрушина (его примеры цитируются в ряде книг). Вот какая фраза у него получилась:
сухерробьдщяыхвщиюайжтлфвнзагфоенвштцр хгбкучтжюряпчькйхрыс (1)
   Как видите, получилось нечто такое, что нельзя и выговорить. Именно такой текст и содержит 5 бит/символ, он наиболее информативен, потому что вероятность появления каждого последующего знака определяется только случаем и всегда равна 1/32. Но мы-то знаем, что в русском тексте разные буквы встречаются с разной частотой. Чаще всего встречается буква «о» (частота 0,090.), но это только в письменной речи. В устной, в московском говоре, где безударное «о» выговаривается как «а» («с Масквы, с пасада, с калашнава ряда»), положение другое[4]. В других языках в фаворитах ходят другие буквы. Вспомните «Золотого жука» Эдгара По – там герой уверенно принимает наиболее часто встречающийся в тексте знак за букву «е». На пергаменте был английский текст, но и в испанском и во французском языке, которыми также пользовались пираты Карибского моря, «е» – чаще всего встречающаяся буква.
   Определить частоту встречаемости букв просто, нужно только учитывать характер текста. Буква «ф» в русскоязычных текстах относительно редка (частота 0,002, из согласных чаще всего встречаются «т» и «н») – за исключением математических (за счет таких слов как функция и дифференциал). Лучше использовать средние данные по различным источникам. Оказалось, что с учетом разной частоты встречаемости энтропия на символ уже 4,35 бит. Искусственный «текст» с этими поправками будет выглядеть по Добрушину примерно так:
еынт цияьа оерб однг ьуемлолйк збя енвтша (2)
   Как видите, этого приближения явно недостаточно, чтобы случайно подобранная фраза зазвучала по-русски. Мы подходим к важному феномену: наличию связей, корреляций между символами в тексте. В самом деле, не каждая буква может занимать любое место. После пробела никогда не встретится мягкий знак, а «и» – редко, лишь в заимствованных словах (Йорк, йод). Система корреляций между символами оказывается разной у разных языков. Русский язык относится к индоевропейским, в них возможны сочетания нескольких согласных (взвод, встреча, бодрствовать) и закрытые, оканчивающиеся на согласный слоги. А в японском и полинезийском языках гласные и согласные строго чередуются, и закрытых слогов нет. Это хорошо обыграл Г. Мелвил в повести «Тайпи», где герой представляется друзьям-канакам самым простым английским именем Том. Оказалось, что произнести его они не в состоянии. Томи, Томо – пожалуйста.
   Но и любая гласная не может появиться после любой согласной. «Я» после «г» в русском языке крайне редка (лишь в заимствованном слове «гяур»), только Марина Цветаева осмеливалась писать – «рвя и жгя».
   Добрушин учел корреляции между соседними буквами. Получилась следующая фраза:
умароно кач всванный рося ных ковкров недаре (3)
   Энтропия на символ снижается до 3,52 бит, но фразу уже можно прочесть, не запинаясь. Но ведь корреляции касаются не только соседних букв, но и третьих и четвертых за выбранными. Если учтем частоту трехбуквенных сочетаний, будет фраза вроде:
покак пот дурноскака наконепио зне стволовил се твой обниль(4)
   В ней уже встречаются вполне русские слова и части слов (энтропия 3,01 бит/символ). С учетом четырехбуквенных сочетаний получается фраза, которую, если ее быстро произнести, можно счесть за русскую:
весел враться не сухом и непо и корко (5)
   Ясно, что учет более дальних корреляций приведет к появлению чисто русских слов, в дальнейшем уже и не в бессмысленных комбинациях, а энтропия на символ будет снижаться. Расшифровка поврежденного или закодированного текста «по Паганелю» как раз и связана с учетом корреляций между символами.
   А как обстоит дело с символами в нуклеотидной последовательности ДНК или в аминокислотной – белка? Этот вопрос занимал меня давно, еще тогда, когда не был прочтен ни один ген, а за расшифровку первого белка – инсулина Сэнгер получил свою первую Нобелевскую премию. Поэтому я старался каждую появившуюся в литературе последовательность оценить с этой точки зрения. И уже первые результаты смущали и заставляли задуматься.
   Вероятность встречи в любом месте одного из четырех символов, слагающих последовательность гена, или одного из двадцати символов, слагающих белок, была пропорциональна только процентному содержанию этого символа в тексте и не зависела от соседних. То есть, генетический текст оказывался построенным согласно модели 2 Добрушина.
   Гены – дети случая. С какой-то стороны это меня огорчило. Я надеялся, что системы корреляций, паче чаяния они в нуклеотидных текстах окажутся, будут разными в разных геномах. А это принесло бы пользу новой отрасли систематики – геносистематике, развивающейся на наших глазах. Хороший пример из анализа лингвистических текстов. По-видимому, древнейшая или хотя бы одна из древнейших письменностей Европы – слоговое письмо А догреческого населения острова Крит – пока еще не расшифрована. Мы можем ее читать, но не понимаем языка. Однако мы знаем, что построен он был наподобие японского или полинезийского, в которых гласные и согласные строго чередуются. Греки-ахейцы, взявшие Трою, переняли это письмо и стали писать на нем по-гречески (линейное письмо В). Вряд ли это было удобно: название города Кносс читалось как Ко-но-со, имя богини любви Афродиты – А-по-ро-ти-та, медь (халкос) – ка-ко и так далее. Ведь греческий язык – индоевропейский, в нем согласные могут стоять рядом. В результате новая волна греков-дорийцев, затопившая Элладу, полностью это письмо забыла, и греки были неграмотными, пока не создали свой алфавит на основе финикийского слогового. Но мы теперь знаем, что предшественники греков, пеласги, индоевропейцами, скорее всего, не были. Есть, правда, и другие мнения на этот счет. Интереснейшие соображения о древних, тысячи лет назад отзвучавших языках и давным-давно сошедших с арены истории народах можно высказать, анализируя сочетания символов в письме А.
   В случае с ДНК и белками этот перспективный путь для нас, похоже, закрыт. Аналогия между информацией языковой и нуклеотидной не идет до конца. В чем же причина? Рискну высказать спекуляцию, не настаивая на ее справедливости.
   Попробуйте вслух прочитать фразу 2, по возможности быстрее, но чтобы было «понятно», чтобы произнесенное соответствовало написанному. Боюсь, что это вам не удастся. А ведь от верно произнесенного слова может зависеть многое, вплоть до жизни.
   Поэтому любой язык, усваивая новые слова, стихийно перерабатывает их для лучшего, четкого выговаривания. Результатом этого процесса и является как бы сама собой возникающая связь между символами в тексте, учитываемая Добрушиным система корреляций, в каждом языке своя. Человек, говоря на чужом языке, не усвоенном с раннего детства, лишь с большим трудом избавляется в устной речи от акцента. Ведь акцент – не что иное, как перенесение привычных правил произнесения фонем и их сочетаний в другой язык, для того не приспособленный. Каждый может вспомнить примеры из своей практики. В частности, я с великим трудом привык к московскому говору – на моей родине, на Урале, не «акают», не произносят безударное «о» как «а».
   Иное дело с текстами на языке ДНК. Фермент РНК-полимераза, синтезируя на матрице ДНК предшественник информационной рибонуклеиновой кислоты, «произносит» любые сочетания символов. То же можно сказать и о синтезирующей белок системе клетки рибосоме. В результате и текст ДНК, и аминокислотные тексты белков хранят до сих пор черты стохастического, случайного возникновения. Но и здесь есть исключения.
   О. Б. Птицын, решая эту задачу, находился в лучших условиях, чем я – у него уже был в распоряжении приличный банк «прочтенных» аминокислотных последовательностей и ЭВМ. И он пришел к четкому выводу: белки – это стохастические (т. е. сконструированные как фраза 2) тексты, лишь впоследствии отредактированные отбором.
   Как происходит это редактирование? Возьмем хотя бы ген глобина – белковой части всем известного гемоглобина. В нем, конечно, происходят мутации, приводящие к заменам аминокислотных остатков в конечном продукте. Некоторые из них «портят» белок, он уже не связывает кислород. Носители таких генов нежизнеспособны. Строгий редактор – отбор беспощадно вычеркивает их.
   Другие замены почти не нарушают функции гемоглобина. Но поскольку они и не полезны, в популяциях они не распространяются. Генетики их называют «семейными», ибо их можно найти в семьях, образованных потомками предка-мутанта.
   Но есть и другие мутации, которые распространяются в популяциях, как степной пожар. Если в том же глобине -цепи гемоглобина человека в шестом положении остаток глутаминовой кислоты заменится на другой – нейтральный или щелочной – в тропических и субтропических зонах Земли эта мутация будет распространяться. И это невзирая на то, что человек, унаследовавший мутантный ген от обоих родителей, как правило, страдает анемией (мутантный гемоглобин легко выпадает в осадок и поэтому плохо переносит кислород). Оказалось, что такие гемоглобины (их называют тропическими или аномальными) ядовиты для малярийного плазмодия. А в теплом и влажном климате малярия – мощный фактор отбора в человеческих популяциях. Так отбор перестраивает белки, и через них – отбирает нужные гены.
   Но этот пример (а можно привести немало других) касается белка – химического соединения, участвующего в реакциях, важных для организма и подверженных отбору. Отбор редактирует текст гена в данном случае не прямо, а опосредованно. А может ли он непосредственно влиять на ген, например, повышая точность считывания информации?
   Раньше на этот вопрос отвечали отрицательно. Но сейчас появились другие данные, о которых надо рассказать. Для этого вспомним структуру ДНК-текста. Спираль ДНК двойная, она состоит из двух комплементарных друг другу цепей и слагается четырьмя символами: двумя пуринами – аденином и гуанином (А и Г) и двумя пиримидинами – цитозином и тимином (Ц и Т). Пурин в одной цепи всегда присоединяется водородными связями к пиримидину, в другой – А к Т и Г к Ц. Поэтому в двойной спирали сумма всех пуринов равна сумме всех пиримидинов.
   А как распределены пурины и пиримидины в одиночной цепи? Если бы распределение было стохастическим, то с частотой 0.5 наугад выбранный нуклеотид оказывался бы, например, аденином или гуанозином. Это тип фразы 2.
   Сейчас, когда прочтены уже тысячи генов, проверить это предположение элементарно. Но оно было проверено задолго до того. Химики разработали методы разрушения в ДНК только пуринов или только пиримидинов.
   Пурины, например, разрушаются, если мы обработаем ДНК дифениламином в муравьиной кислоте. В результате ген распадается на смесь блоков – кусочков, в которых пиримидины (Ц и Т) повторяются 1,2,3,4 и более раз. И если бы распределение было случайным, моно– и динуклеотиды преобладали бы. На практике применяют так называемый коэффициент сблоченности β – отношение суммы длинных блоков (4 нуклеотида и выше) к сумме коротких (три нуклеотида и ниже).
   Мой коллега по лаборатории им. А. Н. Белозерского, А. Л. Мазин определил коэффициент β для ДНК разных организмов – от бактерий до млекопитающих. Получилась довольно четкая картина – в ряду от бактерий до человека β возрастает от 4 до 6 и выше. Сблоченность ДНК с усложнением организации неуклонно растет. А это значит, что снижается ее информационная емкость, как при возникновении корреляций между буквами в тексте. Генетический код становится все более и более неэкономичным. Возникает вопрос: почему это происходит?
   Намек на ответ содержится в других работах А. Л. Мазина. Вспомним, что в большинстве известных нам случаев информационная РНК синтезируется только на одной из нитей или цепей ДНК, которую называют смысловой. Вторая, комплементарная нить – антисмысловая. Пуриновому блоку в смысловой цепи соответствует пиримидиновый в антисмысловой (и наоборот).
   Исследования показали, что пиримидиновые, состоящие из Ц и Т, блоки имеют тенденцию скапливаться в смысловой цепи. Возникает асимметрия цепей ДНК. Значит, информационная РНК, на которой синтезируется белок, обогащается пуринами (А и Г). Конечно, она не может на 100% состоять из пуринов, ведь тогда в ней нельзя закодировать такие аминокислоты, как фенилаланин, серин, лейцин. Но тенденция явно имеется.
   Для объяснения ее А. Л. Мазин вспомнил о старой моей работе с Л. М. Галимовой, в которой мы изучали синтез белков у тутового шелкопряда. Уже первые исследователи передачи генетической информации с гена на белок подметили, что этот процесс (трансляция) подвержен сильным помехам. Рибосомы могут считывать кодоны в матричной, информационной РНК неправильно, и в белок включаются не те аминокислоты. Этот процесс (мисридинг) усиливается при повышенной температуре, подкислении среды, высокой концентрации магния и при действии антибиотика стрептомицина. Собственно, антибактериальный эффект стрептомицина тем и объясняется, что рибосомы стрептококков начинают «врать» при тех концентрациях антибиотика, при которых рибосомы человека остаются еще устойчивыми.
   Мы кормили гусеницу шелкопряда листьями шелковицы, смоченными раствором стрептомицина в лошадиной концентрации. Гусеницы ели, линяли, исправно завивали коконы. А кокон состоит всего из двух белков – фиброина и серицина – клейкого вещества, склеивающего фиброиновые нити.
   Серицин легко перевести в раствор кипячением – так мы без особых трудов получаем чистейший белок, без примеси других. Гидролизат его можно уже пустить в аминокислотный анализатор. Оказалось, что стрептомицин достоверно изменял состав белка: одних аминокислот становилось больше, других меньше[5]. Первые мы назвали плюс-, вторые минус-аминокислотами.
 
   Оказалось, что эти категории не случайны. Плюс-аминокислоты в матричной (информационной) РНК кодируются в основном пуринами (А и Г), а минус – пиримидинами (Ц и У– уридином, неметилированным тимином, который заменяет Т в РНК). Пурины и пиримидины тоже неоднородны по точности считывания. С учетом литературных данных У в результате неверного прочтения мог быть прочтен рибосомой как Ц, Г, А; Ц – как Г и А; Г– как А, и лишь аденин обычно считывался правильно.
   Естественно было связать повышенную помехоустойчивость с термодинамической устойчивостью символа. Последняя величина измеряется энергией резонанса – той энергией, которая потребна для изменения структуры вещества. В ряду У, Ц, Г, А эта величина соответственно 1.92, 2.22, 3.84, 3.89 (ккал/моль). Аденин наиболее устойчив, именно потому он легко полимеризуется в опытах (и, вероятно, на первозданной Земле) из цианистого водорода и потому входит в состав АТФ – универсального аккумулятора энергии в биологических системах.
   А. Л. Мазин предположил, что в ходе эволюции вместе с усложнением структур шло параллельное повышение помехоустойчивости информационного канала ген-белок. А это означало обогащение мРНК пуринами (и смысловой цепи ДНК – пиримидинами). Отбор мутаций, следовательно, идет и на уровне гена – такой вывод он сделал, проанализировав на ЭВМ 64 белка – цитохрома С.
   Справедлива ли эта гипотеза? Мне, конечно, приятно, что Александр Львович вспомнил через 17 лет о работе, которую я и сам за другими делами давно забыл. Но, увы, если это правда, то не вся правда. Вспомним, что у высших организмов белок кодирует лишь ничтожная доля ДНК – а тот же Мазин показал, что наиболее сблочены, наиболее отличаются от стохастических как раз те части генома, кои сейчас именуют лишними, ненужными и эгоистичными.
   Могу лишь предположить, что помехоустойчивость этих текстов не менее, если не более важна для организма. Некодирующие белок последовательности также должны быть прочтены – на уровне ДНК или РНК – узнающими их структурами, скорее всего, регуляторными белками.
   А в результате мы опять приходим к выводу об аналогии между лингвистической и генетической информациями. И в том и в другом случае помехоустойчивость каналов возрастает ценой снижения информационной значимости сигнала. Принцип одинаков, хотя в одном случае информацию считывает рибосома, а в другом – человеческая гортань. Гены просто сохранили больше следов своего случайного, стохастического возникновения.
   На этом можно бы и кончить главу: определением гена, как стохастической, возникшей в результате случайного перебора последовательности, лишь в незначительной степени отредактированной отбором. Но мог ли ген того же глобина или цитохрома С возникнуть случайно? И мы приходим к новому «проклятому вопросу» современной биологии, который называется:
   Парадокс миллиона обезьян. Вообще-то эта проблема отнюдь не нова. Философы еще в древности задавались вопросом: возможно ли возникновение достаточно сложной структуры, описываемой большим объемом информации, в результате случайных, стохастических процессов? И все давали отрицательный ответ. Еще Цицерон полагал, что из случайно брошенных знаков алфавита не могут сложиться «Анналы» Энния. Через полторы тысячи лет ему вторит Жан-Жак Руссо: «Если мне скажут, что случайно рассыпавшийся типографский шрифт сложился в „Энеиду“, я и шагу не сделаю, чтобы проверить эту ложь».
   Теперь эту проблему называют «парадоксом миллиона обезьян». За сколько лет миллион обезьян, посаженных за пишущие машинки, напечатают полное собрание сочинений Шекспира, или хотя бы одного «Гамлета»?
   «Обезьяний парадокс» переходит из одного философского трактата в другой. Странно, что никто не задался вопросом: может ли миллион людей, никогда о Шекспире не слыхавших, напечатать «Гамлета»? Отсюда недолго дойти до вопроса: а мог ли «Гамлета» написать сам Шекспир, если даже миллиону людей это не под силу? И применима ли вообще теория вероятности к этой категории явлений?
   Как видите, начав с вопроса о корреляциях между знаками в нуклеотидных последовательностях, мы пришли к проблеме философской, если хотите, гносеологической, затрагивающей коренные тайны мироздания.
   Еще в 1936 году Н. К. Кольцов писал, что вероятность случайного возникновения полипептида из 17 аминокислотных остатков (гептакайдекапептида) равна одной триллионной, и сделал из этого совершенно правильный вывод – гены синтезируются не заново, а матричным путем. Но как возникла первая матрица? Как говорила фонвизинская госпожа Простакова: «Один учился, другой учился – да первоет портной у кого учился?»
   Хватает ли времени на возникновение первого гена – протогена – случайным путем, стохастическим перебором нуклеотидов? Напомню, что солнечная система, Солнце со всеми планетами, сформировалась по самым последним оценкам 4,6 млрд. лет назад (плюс-минус 0,1 млрд.). Первые следы жизни на Земле имеют возраст более 3,8 млрд. лет. Добавлю и то, что значительный срок наша планета явно не годилась для возникновения жизни.