Синдром Паганини и другие правдивые истории о гениальности, записанные в нашем генетическом коде - Сэм Кин 10 стр.


ДНК особенно близко связана с весьма оригинальным разделом математики под названием «закон Ципфа», феноменом, который впервые описал не математик, а лингвист. Джордж Кингсли Ципф происходил из солидного немецкого рода (его семья управляла пивоварнями в Германии) и в конце концов добился должности профессора немецкого языка в Гарвардском университете. Несмотря на свою любовь к языку, Ципф не был библиофилом и, в отличие от своих коллег, проживал за Бостоном на семиакровой ферме с виноградником, свинарником и курятником, хотя особо хозяйством и не занимался. В дневное время он в основном отсыпался, так как большинство ночей проводил, штудируя библиотечные книги и изучая статистические закономерности языков.

Один из коллег как-то сказал про Ципфа, что тот «может ощипать прекрасную розу, чтобы сосчитать ее лепестки». С литературой Ципф обходился столь же бесцеремонно. Будучи студентом, он взялся за «Улисса» Джойса, и главное, что он вынес оттуда, – роман состоит из 260 430 слов, 29 899 из которых различны. Так же Ципф препарировал «Беовульфа», Гомера, тексты китайской литературы и творчество римского драматурга Плавта. Подсчитывая слова в каждом из произведений, он открыл закон Ципфа. Он гласит, что наиболее распространенное слово в языке встречается примерно вдвое чаще, чем второе по распространенности, примерно втрое чаще, чем третье, в сто раз чаще, чем сотое по распространенности, и т. д. В английском языке слово «the» составляет примерно 7 % от всех слов, «of» – примерно половину от этого, «a» – треть от этого и т. д., вплоть до экзотических слов типа «бустрофедон». Такое распределение соблюдается во всех языках – от санскрита и этрусского до современных хинди, испанского или русского (эти языки Ципф анализировал по прейскурантам каталогов от компании «Сирс»). Закон Ципфа действует даже по отношению к искусственным языкам.

Уже после смерти Ципфа в 1950 году ученые обнаружили свидетельства того, что его закон соблюдается отнюдь не только в языке. Его также можно проследить: в музыке (подробнее об этом расскажем чуть позже), списках городов по численности населения, распределении доходов, массовом вымирании живых существ, магнитудах землетрясений, соотношении различных цветов в картинах или мультфильмах и т. д. В каждом случае самый большой или самый распространенный из элементов был вдвое больше/распространеннее второго в списке, втрое – третьего и т. п. Внезапная популярность этой теории ожидаемо привела и к обратной реакции, особенно среди лингвистов, которые часто ставят под сомнение само существование этого закона[18]. В то же время многие другие специалисты защищают этот закон, так как он видится корректным – частота слов не кажется случайной – и, опытным путем, описывает языки со сверхъестественной точностью. Даже «язык» ДНК.

Конечно, соблюдение закона Ципфа в случае с ДНК на первый взгляд не кажется очевидным, особенно для носителей западноевропейских языков. В отличие от большинства языков ДНК не имеет очевидных пробелов, помогающих отличать каждое слово. Это скорее напоминает тексты древних рукописей, без каких-либо пробелов, пауз и без единого знака препинания, бесконечные строки букв. Можно предположить, что триплеты, состоящие из А, Ц, Г и Т, которые кодируют аминокислоты, могут выступать в качестве «слов», но их соотношение совсем не похоже на ципфианское. Чтобы найти действие закона Ципфа, ученым пришлось обратить внимание на группы триплетов, и в этих поисках некоторые специалисты обратились к необычным помощникам: китайским поисковым системам. Китайский язык создает сложные слова путем связи соседних символов. Так, если в китайском тексте написано АБВГ, поисковые системы могут выступать своеобразным раздвижным окном, в котором помещаются найденные значимые отрывки: сначала АБ, БВ и ВГ, затем АБВ и БВГ. Использование принципа «раздвижного окна» оказалось неплохой стратегией для поиска значимых отрывков ДНК. Оказалось, что, в каком-то смысле, ДНК выглядит даже более ципфианской, чем язык, в группах, каждая из которых насчитывает до двадцати оснований. В общем, возможно, что наиболее значимой единицей для ДНК может быть не триплет, а четыре триплета, работающих сообща, – додекаэдрный мотив.

Выражение ДНК и ее трансляция в белки также подчиняются закону Ципфа. Как и распространенные слова, некоторые гены в каждой клетке появляются снова и снова, в то время как большинство генов вряд ли примут участие в конверсии. На протяжении веков клетки учились полагаться на эти общие белки все в большей и большей степени, и наиболее распространенные из них появлялись вдвое, втрое, вчетверо раз чаще, чем белки, следующие по популярности. Честно говоря, многие ученые хмыкают, что эти ципфианские фигуры вовсе ничего не значат; но другие специалисты говорят, что уже самое время признать: ДНК не только аналогична языку, но и реально функционирует, как язык.

И не только язык: ДНК обладает теми же ципфианскими свойствами, что и музыка. Возьмем тональность какого-нибудь музыкального отрывка, например до мажор, и убедимся, что определенные ноты там встречаются чаще остальных. Ципф действительно как-то исследовал преобладание тех или иных нот у Моцарта, Шопена, Ирвинга Берлина и Джерома Керна – и (внимание!) нашел ципфианское распределение! Позже исследователи подтвердили справедливость этих выводов и в других музыкальных жанрах, от Россини до Ramones, и обнаружили подобные пропорции не только во встречаемости нот, но и в тембре, и в громкости звука.

Однако если ДНК демонстрирует ципфианские тенденции, можно ли сказать, что цепочки организованы в своего рода партитуру? Музыкантам на практике удалось перевести А-Ц-Г-Т последовательность серотонина – химической составляющей мозга – в небольшие песенки, заменяя четыре символа ДНК нотами: ля (А), до (С), соль (G) и, поскольку буква T никакой ноте не соответствует, ми (Е). Другие музыканты составляли ДНК-мелодии, присваивая ноты звукоряда определенным аминокислотам, которые встречаются чаще остальных: это привело к появлению более сложных и приятных звуков. Второй метод укрепил идею, что ДНК, как во многом и музыка, лишь частично представляет собой строгую последовательность «нот». Она также определяется мотивами и темами, показывает, как часто появляются определенные последовательности и хорошо ли они взаимодействуют. Один биолог даже доказывал, что музыка – это природный посредник в изучении того, как комбинируются частицы генома, с тех пор как люди обзавелись четким слухом, чтобы улавливать, как фразы сообща действуют в музыке.

Нечто еще более интересное произошло, когда двое ученых, вместо того чтобы превращать последовательность ДНК в музыку, решили осуществить обратный процесс и перевели ноты ноктюрна Шопена в ДНК. Итогом опыта стала последовательность, «поразительно похожая» на часть гена РНК-полимеразы. Эта полимераза, белок, не меняющийся на протяжении всей жизни организма, и есть то, с помощью чего из ДНК строится РНК. А это, если посмотреть внимательнее, обозначает, что ноктюрн копирует весь жизненный цикл. Смотрите сами: полимераза использует ДНК для построения РНК. РНК, в свою очередь, строит сложные белки. Эти белки образовывают клетки, а из клеток происходят люди – такие, как Шопен. Композитор выполняет свою работу – создает гармоничную музыку, которая завершает цикл, кодируя ДНК на постройку полимеразы. Так музыковедение обобщает всю онтологию.

Является ли это открытие случайностью? Не совсем. Ученые утверждают, что впервые гены появились в ДНК не случайным образом, по какому-нибудь старому участку хромосомы. Вместо этого они начали дублироваться сразу в виде повторяющихся фраз, десятка-другого оснований ДНК, дублированных снова и снова. Эти участки функционируют как основная музыкальная тема, куда композитор добавляет всякие приятные излишества, побочные мелодии, с помощью которых создает приятно звучащие вариации на основе оригинала. Продолжая оперировать этими понятиями, заметим, что гены с самого начала имеют определенную «мелодию», на основе которой они и построены.

Люди давно хотели связать музыку с какими-то более глубокими, более грандиозными природными процессами. В частности, астрономы – начиная от древнегреческих и заканчивая Кеплером – верили, что небесный путь планет проходит через рай земной и что планеты создали безумно красивую музыку небесных сфер – гимн во славу творения. И оказалось, что универсальная музыка существует на самом деле, только гораздо ближе, чем мы себе представляли, – в нашей ДНК.

* * *

Генетика и лингвистика связаны не только законом Ципфа, но еще глубже. Мендель, до того как стать монахом, пробовал себя в лингвистике, в том числе пытался вывести точный математический закон по поводу того, как немецкие фамильные суффиксы (такие, как «-манн» или «-бауэр») скрещиваются с другими именами и воспроизводят себя в каждом поколении (звучит знакомо, не правда ли?) И, черт возьми, сейчас генетики не могут даже говорить о своей работе безо всех этих терминов, позаимствованных из изучения языков. У ДНК есть синонимы, переводы, пунктуация, префиксы и суффиксы. Мутации с изменением смысла (с заменой аминокислот) и с утратой смысла (с вмешательством стоп-кодонов) – это, как правило, «опечатки», а мутации, связанные со сдвигом рамки считывания (искажающие смысл триплетов) – это старомодные ошибки, связанные с нарушением работы типографии. В генетике даже есть свои грамматика и синтаксис: правила для комбинирования «слов» из аминокислот и сложения белковых «предложений», которые может прочитать клетка.

Генетика и лингвистика связаны не только законом Ципфа, но еще глубже. Мендель, до того как стать монахом, пробовал себя в лингвистике, в том числе пытался вывести точный математический закон по поводу того, как немецкие фамильные суффиксы (такие, как «-манн» или «-бауэр») скрещиваются с другими именами и воспроизводят себя в каждом поколении (звучит знакомо, не правда ли?) И, черт возьми, сейчас генетики не могут даже говорить о своей работе безо всех этих терминов, позаимствованных из изучения языков. У ДНК есть синонимы, переводы, пунктуация, префиксы и суффиксы. Мутации с изменением смысла (с заменой аминокислот) и с утратой смысла (с вмешательством стоп-кодонов) – это, как правило, «опечатки», а мутации, связанные со сдвигом рамки считывания (искажающие смысл триплетов) – это старомодные ошибки, связанные с нарушением работы типографии. В генетике даже есть свои грамматика и синтаксис: правила для комбинирования «слов» из аминокислот и сложения белковых «предложений», которые может прочитать клетка.

Более конкретно говоря, генетические грамматика и синтаксис задают правила того, как клетка должна образовывать рабочий белок из цепочки аминокислот. Белки должны быть организованы в компактные формы, перед тем как они начнут работать, и если форма будет неправильной, то к работе они тоже не приступят. Правильная синтаксическая и грамматическая «укладка» – важная часть общения на языке ДНК. Тем не менее общение требует большего, чем правильная грамматика и синтаксис; белковая фраза должна что-то значить для клетки. Как ни странно, такие фразы могут быть синтаксически и грамматически безупречными, но не иметь никакого биологического смысла. Понять, что это значит, поможет обращение к словам лингвиста Ноама Хомского. Он пытался доказать независимость синтаксиса от смысла высказывания в человеческой речи. Его пример звучал как «бесцветные зеленые идеи разъяренно спят». О Хомском можно думать всякое, но это предложение – одна из самых замечательных фраз, когда-либо произнесенных. В нем нет никакого буквального смысла. Однако поскольку оно содержит реальные слова, и его синтаксис с грамматикой также корректны, мы можем проследить его смысл. Это совсем не бессмыслица.

Таким же образом мутации ДНК могут привести к появлению случайных аминокислотных «слов» или «фраз», и клетки автоматически соберутся в новую цепь, совершенно синтаксическим способом, основанным на физике и химии. Однако любые изменения слов могут привести к изменению как формы, так и содержания всего предложения, и от этого результата зависит весь смысл. Иногда новая белковая фраза содержит лишь небольшую помарку, маленькую поэтическую вольность, которую клетка, поработав, может исправить. Иногда же изменения (такие, как фреймшифт-мутации[19]) так искажает предложение, что оно начинает выглядеть как случайный набор символов (например, #$%^&@!), которыми обозначаются бранные слова героев комиксов. Клетка от этого заболевает и умирает. Но нередко случается и так, что клетка читает белковое предложение, захламленное всякой бессмыслицей… однако, как следует вникнув в такую неразбериху, все-таки находит в ней рациональное зерно! Совершенно неожиданно возникает нечто чудесное, вроде кэрролловских «хливких шорьков» или загадочного столового прибора[20] Эдварда Лира. Это одна из редких полезных мутаций, и благодаря таким удачным моментам эволюция и продвигается вперед[21].

Благодаря четким параллелям между строением ДНК и языка ученые могут анализировать литературные произведения и геномные «тексты», используя одни и те же инструменты. Эти инструменты кажутся особенно перспективными для изучения спорных текстов, чье авторство или биологическое происхождение точно не определено. Литературоведы, как правило, сравнивают текст с отрывком из другого произведения, чье авторство известно, и делают выводы, одинаковы ли их стиль и тон. Иногда применяется другой метод: систематизация и подсчет слов, которые используются в тексте. Оба подхода нельзя назвать совершенными: первый слишком субъективен, а второй – слишком безлик. В случае с ДНК сравнение спорных геномов часто включает соотнесение с несколькими десятками ключевых генов и поиски малейших различий. Но эта технология потерпела неудачу, причем в случаях с самыми разными биологическими видами. Причина провала в том, что различий можно найти чрезвычайно много, и непонятно, какие из них по-настоящему важны. Будучи сосредоточенной исключительно на генах, эта техника игнорирует полосы регуляторной ДНК, из которой гены выпадают.

Чтобы избежать этих проблем, ученые из Калифорнийского университета в Беркли в 2009 году разработали программное обеспечение, с помощью которого «окна» скользят вдоль цепочки символов в поисках сходств и образцов. В качестве эксперимента ученые таким образом проанализировали геномы млекопитающих и тексты нескольких десятков книг, таких как «Питер Пэн», «Книга Мормона» и «Государство» Платона. Было обнаружено, что одно и то же программное обеспечение способно, с одной стороны, классифицировать ДНК различных видов млекопитающих, а с другой – классифицировать книги по жанрам с идеальной точностью. Обратившись к спорным текстам, ученые погрузились в изучение постоянно вызывающего споры вопроса о том, получил ли Шекспир достаточно хорошее образование для того, чтобы написать свои пьесы. И программа показала, что классик действительно написал драму «Два знатных родича» – пьесу, авторство которой постоянно подвергалось сомнению, – но не написал «Перикла», другую пьесу спорного авторства. Затем команда из Беркли изучила геномы вирусов и архебактерий, самых старых и в массе своей чужеродных для нас форм жизни. Этот анализ выявил новые связи между этими организмами и другими микробами, в результате были выдвинуты новые предложения по их классификации. Из-за огромного объема данных анализ геномов мог получиться весьма глубоким: в течение года 320 компьютеров занимались только тем, что сканировали микробы и архебактерии. Однако анализ этих геномов позволил ученым выйти за рамки обычного пошагового сравнения генов и понять полную естественную историю этих биологических видов.

* * *

Расшифровка полной геномной истории, однако, требует более сложных навыков, чем работа с другими текстами. Расшифровка ДНК требует чтения и слева направо, и справа налево – так называемый бустрофедон. В противном случае можно пропустить важные палиндромы и морднилапы: соответственно слова, которые одинаково читаются с обеих сторон или же приобретают другой смысл при прочтении с конца.

Один из самых древних известных палиндромов – высеченный на стене в Помпеях (и других городах) магический квадрат, слова в котором читаются сверху вниз, снизу вверх, справа налево и слева направо:

S-A-T-O-R

A-R-E-P-O

T-E-N-E-T

O-P-E-R-A

R-O-T-A-S[22]

Насчитывая примерно две тысячи лет от роду, данная надпись на порядок младше, чем по-настоящему древние палиндромы в ДНК, которая создала целых два вида палиндромов. Во-первых, это фразы традиционного («А роза упала на лапу Азора») типа: например, Г-А-Т-Т-А-Ц-А-Т-Т-А-Г. Однако поскольку АТ и ЦГ – это парные основания, ДНК образовывает и другие, менее явные палиндромы, которые спереди читаются по одной нити, а сзади – по другой. Сравните нить Ц-Т-А-Г-Ц-Т-А-Г, затем представьте основания, которые должны появиться на другой нити: Ц-А-Т-Ц-Г-А-Т-Ц. Это совершенные палиндромы.

Безобидный на вид, этот второй тип палиндрома может нагнать страху на любого микроба. Давным-давно многие микробы выделяли специальные белки (под названием «ферменты рестрикции»), которые могли резать ДНК подобно кусачкам. И по какой-то причине эти ферменты могут разрезать ДНК только в ее симметричных, палиндромных участках. Подобные надрезы служат и полезным целям: к примеру, выбрасывают из спирали основания, пораженные радиацией, или снимают напряжение в сильно запутанной ДНК. Однако непослушные микробы в основном использовали эти белки, чтобы воевать друг с другом и перерабатывать чужой генетический материал. В результате микробы методом проб и ошибок научились избегать даже неочевидных палиндромов.

Впрочем, высшие существа, к которым относимся мы сами, тоже не то чтобы толерантны к палиндромам. Снова рассмотрим Ц-Т-А-Г-Ц-Т-А-Г и Г-А-Т-Ц-Г-А-Т-Ц. Отметим, что начало каждого из палиндромных сегментов может образовывать пары оснований со своей второй половиной: первая буква с последней (Ц…Г), вторая с предпоследней (А…Т) и т. д. Но для того, чтобы сформировать эти внутренние связи, одна сторона нити ДНК должна абстрагироваться от другой и выгнуться вверх, образовав выступ. Такая структура (так называемая шпилька) благодаря симметричному строению может образовывать ДНК-палиндром любой длины. Как и следовало ожидать, «шпильки» могут разрушать ДНК так же, как и узлы: разрушая клеточные механизмы.

Назад Дальше