Как же это может быть? Представьте себе, к вам в руки попала книга, в которой промежутков между словами нет, а слова разделяются стрелками. Сверху строк стоят одни стрелки, а внизу – другие. Деля текст на слова с помощью верхних стрелок, вы читали бы, допустим, «Анну Каренину», а по нижним – «Архипелаг ГУЛАГ». Скажете, это невозможно? Действительно, такого длинного текста, насколько я знаю, не существует. Но короткий текст такого типа я помню с детства. Вот он:
А как обстоит дело у ФХ174, показано на рис. 17.
Рис. 17. Участок ДНК ФХ174 и синтезируемые на нем белковые цепи
Мы видим, что последовательность гена Е находится целиком внутри последовательности гена D. При этом последовательности аминокислот белков Е и D не имеют между собой ничего общего, так как они считываются со сдвигом рамки считывания. В этом ситуация в ДНК ФХ174 неожиданнее и интереснее, чем приведенный выше лингвистический пример. Ясно, что теоретически возможна запись на одном и том же участке ДНК как максимум информации о трех белках. Такое перекрывание сразу трех генов, правда, на небольшом участке, происходит в фаге G4.
Хотя явление перекрывания генов было открыто еще в 1977 году, до сих пор нет никаких вразумительных объяснений, как такое может получиться в ходе эволюции. Если не считать этого удивительного феномена, то в остальном расшифровка первых вирусных последовательностей подтвердила ранее установленные факты. Была проведена проверка правильности расшифровки генетического кода путем прямого сопоставления последовательностей ДНК и белков. Оказалось, что код расшифрован без единой ошибки.
Новой, очень критической проверке подвергся и тезис об универсальности кода. В самом деле, ведь сама идея генной инженерии, т. е. возможность переносить гены из одного организма в другой, предполагает универсальность кода. Выяснилось, что гены, перенесенные в кишечную палочку из самых разных бактерий, прекрасно в ней работают, т. е. синтезируют те же белки, что и в исходной, родной бактерии. Когда брали мРНК, выделенную из животных, включая человека, по ней с помощью ревертазы синтезировали ген, а затем встраивали его в бактерию, то вырабатываемый бактерией белок имел ту же последовательность аминокислот, что и белок, выделенный из животных клеток. Казалось бы, какие еще нужны доказательства? И вот выяснилось, что у митохондрий код другой.
Коды митохондрий
Что это такое, митохондрии? Это не бактерии и не вирусы, не одноклеточные, это просто тельца, плавающие в цитоплазме клеток эукариот, т. е. организмов, клетки которых имеют ядра. Просто, да не совсем. Вообще-то, митохондрии выполняют очень важную для клетки функцию – в них идет процесс окислительного фосфорилирования, т. е. происходит переработка энергии, образующейся при «сгорании» пищи, в энергию АТФ. Иными словами, митохондрия – это энергетическая станция клетки. Подобно тому, как электричество – универсальный источник энергии у нас в быту, так и АТФ – универсальный источник энергии для всего внутриклеточного хозяйства.
АТФ – это адениновый нуклеотид, к фосфату которого присоединены еще две фосфатные группы. Его полное название – аденозинтрифосфат. Это молекула такого же типа, что и предшественники нуклеотидов, используемые в клетке и в лаборатории для синтеза РНК и ДНК (мы о них только что упоминали в связи с методом Сэнгера). Забирая энергию у АТФ, фермент отщепляет у него одну фосфатную группу, делая из него АДФ, т. е. аденозиндифосфат. В митохондриях происходит «подзарядка» – к АДФ вновь присоединяется фосфатная группа. Но к нашему рассказу все это не имеет прямого отношения. Для нас важно другое: митохондрии имеют свою собственную ДНК. Более того, митохондрии располагают своей собственной РНК-полимеразой, которая снимает мРНКовую копию с митохондриальной ДНК! Но и это не все. В митохондриях есть свои рибосомы, свой собственный аппарат белкового синтеза. Это уже совсем странно – ведь в той же цитоплазме масса нормальных клеточных рибосом. Но на этих рибосомах синтезируется белок только с мРНКовых копий ядерной ДНК. Митохондрии ими пользоваться почему-то не желают.
У митохондрии все – малого размера. Мини-рибосомы, мини-РНК-полимераза, мини-ДНК. И вроде бы это понятно – ведь митохондрия, разумеется, гораздо меньше клетки. Но умение самостоятельно строить белок вовсе не означает, что митохондрия – это автономная часть клетки, не зависящая от ядерной ДНК. ДНК митохондрии столь мала по размеру (она содержит всего около 15 тысяч пар оснований), что на ней никак не может уместиться вся информация о молекулах белков, необходимая для автономного существования митохондрий. Большая часть этой информации находится в ядре клетки, т. е. записана в виде последовательности нуклеотидов в ядерной ДНК. И вот ко всем странностям митохондрий добавилась еще одна, самая удивительная – у митохондрий свой собственный генетический код.
Обнаружилось все это, по-видимому, случайно. Б. Берелл и его сотрудники из Лаборатории молекулярной биологии в Кембридже (Англия) занимались расшифровкой последовательности митохондриальной ДНК человека. Кстати, это тот самый Берелл, который обнаружил впервые, что гены могут налезать друг на друга. Сравнили последовательность гена, кодирующего одну из субъединиц цитохромоксидазы, с белковой последовательностью, правда, не человеческой, а бычьей цитохромоксидазы. Последнее обстоятельство не помешало совершенно точно определить код митохондрий человека. Он изображен на рис. 18. Видно, что этот код в целом похож на код, уже известный ранее. Но четыре кодона изменили свой смысл. Кодон УГА отвечает триптофану, АУА – метионину, а кодоны АГА и АГГ стали терминирующими. Но на этом чудеса не закончились. Когда сравнили последовательности ДНК и белков у дрожжевых митохондрий, то оказалось, что у них код и не такой, как обычно, и не такой, как у митохондрий человека. К тем изменениям, которые имеются у кода митохондрий человека, добавилось еще такое: все четыре лейциновых кодона, начинающихся с ЦУ, перешли к треонину. Треонину стало отвечать восемь кодонов! У лейцина осталось только два: УУА и УУГ. Правда, кодоны АГА и АГГ вернулись к Арг, как в «универсальном» коде.
Рис. 18. Код митохондрий. Такой код имеют митохондрии человека. У митохондрий дрожжей кодоны, начинающиеся с ЦУ, кодируют треонин, а кодоны АГА и АГГ отвечают Apr. Стрелками указаны те места, в которых код митохондрий человека отличается от «универсального» кода, приведенного на рис. 7
Как же оценивать эти открытия? Безусловно, возможны разные трактовки. С одной стороны, можно сказать, что, собственно, ничего особенного и не произошло. Если бы сразу в процессе расшифровки были обнаружены маленькие вариации в коде, то они не вызвали бы большого удивления. Но, с другой стороны, шутка ли сказать, обнаружилось, что в одной клетке, причем в нашей собственной, человеческой клетке, сосуществуют два разных кода! Нет, открытие новых кодов не следует недооценивать. Ведь получены четкие доказательства того, что код эволюционировал, что он не сразу возник таким, каким мы его видим теперь.
Помните, когда генетический код обсуждался в главе 2, было сформулировано правило, которому универсальный код отвечает почти строго: не важно, какое из двух пуриновых оснований или какой из двух пиримидов находится в третьем положении кодона. А теперь взгляните опять на рис. 18. Код митохондрий человека и есть такой «идеальный» код, в котором это правило выполняется совершенно строго! Кстати, то же относится и к коду митохондрий дрожжей.
Неоднократно высказывалась точка зрения, что митохондрия – это остатки бактерии, очень давно образовавшей симбиоз с эукариотической клеткой. То, что у митохондрии даже код другой, служит еще одним очень веским доводом в пользу такого предположения. Быть может, у всех клеток был такой же код, как у нынешних митохондрий человека, а затем в коде произошли небольшие изменения. И, может быть, далеко не все живое на Земле произошло от клеток с уже изменившимся кодом? Может быть, часть видов – это прямые потомки древних клеток, имевших митохондриальный, «идеальный» код? А может быть, есть виды, которые эволюционировали от клеток, получившихся после каких-то других, пусть небольших, изменений «идеального» кода?
Но более привлекательным представляется другое объяснение того, что митохондрии имеют свой особый код. Согласно этой точке зрения, коды митохондрий не более древние, а наоборот, более молодые, чем основной код, и возникли, когда большая часть митохондриальных генов уже «утекла» в ядро. В митохондриальной ДНК осталось так мало генов, что изменение кода перестало быть обязательно смертельным событием для митохондрии и клетки в целом. После того, как такое изменение произошло из-за мутации в аппарате синтеза белка в митохондриях, в структурных генах произошли мутации, компенсирующие эти изменения кода. После этого процесс утечки генов из митохондрий в ядро прекратился, так как аппарат синтеза белка митохондрий не мог уже быть подменен аппаратом клетки. Эта гипотеза привлекательна тем, что объясняет, почему передача генов из митохондрий в ядро остановилась на полдороге.
Эра ДНКовых последовательностей
Изобретение Сэнгером в середине 1970-х годов метода секвенирования ДНК оказалось важнейшей вехой на пути создания базы данных о последовательностях ДНК всевозможных организмов. Но как раз в отношении создания таких баз данных это изобретение опередило свое время. Ведь тогда еще не был доступен Интернет, а без Интернета создание и использование базы данных о последовательностях ДНК практически немыслимо. Так что первые десять лет накопление знаний о различных геномах шло медленно, хотя и были сделаны важнейшие открытия, о которых мы говорили выше в этой главе и еще будем говорить в главе 6. Кроме Интернета, важнейшим изобретением, резко ускорившим и упростившим создание геномных баз данных, был метод полимеразной цепной реакции (ПЦР), который позволил амплифицировать, т. е. многократно приумножать любые выбранные участки генома. Но метод ПЦР заслуживает особого разговора, собственно, с него началась биотехнологическая революция, и мы о нем подробно поговорим в главе 10.
Метод Сэнгера позволяет секвенировать куски ДНК, содержащие около 1000 нуклеотидов, но они, конечно, гораздо короче геномной ДНК. Как же секвенировать целый геном, содержащий, в случае человеческого генома, 3 миллиарда нуклеотидов? Понятно, что геномную ДНК надо нарезать на короткие куски. Слава богу, у нас есть такой сверхточный инструмент: рестиктазы (см. главу 4). Итак, используя какую-нибудь рестриктазу или смесь двух рестриктаз, если хотим, чтобы куски были покороче, нарезаем ДНК на куски (рис. 19). Прекрасно, теперь можно прочесть каждый кусок методом Сэнгера. Но постойте, для метода Сэнгера нужен праймер. Откуда же нам знать, какой праймер использовать, ведь мы еще ничего не знаем о последовательности кусков? Как же быть? А очень просто. Ведь после действия рестриктазы у фрагментов, как правило, образуются «липкие концы». Например, после разрезания ДНК рестриктазой EcoRI образуются два взаимно комплементарных конца:
Но эти концы одинаковые, так что если мы сделаем на ДНК-синтезаторе такую искусственную молекулу:
то она прилипнет к обоим концам, образовавшимся под действием рестриктазы. Правда, в обоих случаях между нашей синтетической молекулой, которая называются адаптером, и куском неизвестной пока ДНК имеются два однонитевых разрыва, но это не беда: они легко залечиваются ферментом ДНК-лигазой. Теперь все наши фрагменты, полученные после нарезания геномной ДНК, оказываются снабженными по концам прекрасно известной нам последовательностью, ведь мы ее сами выдумали, когда делали дизайн адаптеров: все 20 нуклеотидов слева от концевого Г в верхней цепи адаптера я выдумал сам, совершенно произвольно. Так что теперь нет никакой проблемы с дизайном праймеров для чтения последовательностей кусков геномной ДНК методом Сэнгера. Снабженные адаптером фрагменты разделяются с помощью гель-электрофореза или каким-нибудь другим способом (рис. 19), а затем секвенируются.
Рис. 19. Секвенирование генома. Вся геномная ДНК подвергается разрезанию на фрагменты рестриктазой (то же самое повторяется с использованием другой рестриктазы, чтобы в дальнейшем на последней стадии провести сборку всей последовательности по перекрывающимся участкам фрагментов, полученных при разрезании разными рестриктазами). Рестрикционные фрагменты соединяются с синтетическими адаптерами, как объяснено в тексте, с использованием «липких» концов, создаваемых рестриктазой. Затем фрагменты разделяются, и каждый фрагмент отдельно секвенируется, после чего следует сборка всего генома
Итак, мы секвенировали все куски, на которые была порезана геномная ДНК рестриктазой EcoRI. Дело в шляпе? Не тут-то было! Мы же не знаем, в каком порядке расположены куски вдоль генома. Как их теперь правильно собрать? К сожалению, нет другого способа, как повторить все сначала, используя другую рестриктазу. Тогда мы получим другое разрезание и по перекрывающимся участкам сможем узнать, какой кусок, полученный с помощью первой рестриктазы, следует за куском, полученным с помощью второй рестриктазы (рис. 19). Конечно, такая сборка полной последовательности делается компьютером. Но повторное секвенирование так и так надо делать, чтобы избежать случайных ошибок, ведь, как бы ни была хороша ДНК-полимераза, она редко, но ошибается. В реальности, чтобы получить последовательность генома с очень малым количеством ошибок, всю процедуру повторяют 10 раз.
В общем, трудоемкое дело. Недаром прочтение первого человеческого генома, которое было осуществлено в рамках проекта «Геном человека» к 2000 году, обошлось американским налогоплательщикам в кругленькую сумму – в $3 млрд, по баксу за нуклеотид! Если бы такие цены сохранились, то эра ДНКовых последовательностей всерьез так бы и не наступила.
Поразительно, какие плоды приносит здоровая конкуренция при условии щедрого финансирования! Вскоре после завершения проекта «Геном человека» Национальный институт здравоохранения США объявил новый конкурс грантов под названием «Геном за $1000». Честно говоря, это звучало как насмешка: удешевить секвенирование в три миллиона раз! Это вы серьезно? Хотите верьте, хотите нет, но спустя 15 лет конкурс был остановлен, так как он выполнил свою задачу. За прошедшие годы какие только подходы ни напридумывали! Большинство идей не выдержало конкуренции, но несколько идей оказались суперуспешными. И даже те, что были оставлены, сыграли свою роль, заставляя совершенствоваться тем подходам, которые выжили, иначе им бы не удалось избежать печальной участи. Это была жесточайшая гонка! Как же теперь, после того, как ситуация более или менее устаканилась, выглядит «пейзаж после битвы»?
Лидирующее положение занимают методы, основанные на идее Сэнгера использования ДНК-полимеразы, они коллективно называются методами «секвенирования посредством синтеза». Самый успешный из них, который лежит в основе секвенатора, выпускаемого компанией «Иллюмина», даже использует идею Сэнгера по терминации синтеза. Но секвенатор «Иллюмины» примерно так же напоминает примитивный аппарат Сэнгера, как беспилотный электромобиль – ручную тачку. Все этапы в секвенаторе компании «Иллюмина» полностью роботизированы, это подлинный триумф инженерной мысли.
Остальные подходы в рамках «секвенирования посредством синтеза» не используют терминирования синтеза. В подходе, называемом пиросеквенирование, используется тот факт, что при присоединении ДНК-полимеразой очередного нуклеотида высвобождается дифосфатная группа, называемая пирофосфатом. Регистрация этого события, появление пирофосфата, лежит в основе метода пиросеквенирования. Метод был доведен до прибора, но он не выдержал конкуренции, и соответствующая компания обанкротилась. Более успешной оказалась сходная идея, основанная на том, что, кроме пирофосфата, при присоединении нуклеотида высвобождается еще один протон, т. е. ион Н+, что приводит к микроскопическому изменению pH в микролунке, сделанной в чувствительном к pH полупроводниковом материале, где идет ДНК-полимеразная реакция. В этом методе полупроводникового секвенирования изменение pH удается детектировать электроникой, так что в данном подходе последовательность читается непосредственно компьютером, а не путем превращения оптического сигнала в электрический, как это делается и в методе Сэнгера, и в машине «Иллюмины», и в случае пиросеквенирования. Это большое преимущество метода полупроводникового секвенирования, и соответствующая компания успешно конкурирует с компанией «Иллюмина».
Особняком стоит метод секвенирования индивидуальной молекулы ДНК, основанный на использовании нанопор. Вот уж воистину нанотехнология par excellence! Этот метод не принадлежит к разряду «секвенирования посредством синтеза». Если секвенаторы компании «Иллюмина» представляют собой громоздкие приборы, а приборы для полупроводникового секвенирования хоть и компактнее, но все же достаточно крупные, то устройство для секвенирования при помощи нанопор, MinION, выпускаемое компанией Oxford Nanopore, и прибором не назовешь, это устройство чуть больше обычной флешки, которое имеет USB-интерфейс. Подобно флешке, MinION вставляется в USB-порт компьютера, на него наносится капля, содержащая ДНК, и через короткое время в памяти компьютера оказывается записанной последовательность нуклеотидов этой ДНК. Как же работает это чудо-устройство?
Рис. 20. Прохождение ДНК через нанопору. В мембране, разделяющей ячейку на две половины, проделано отверстие диаметром около 4 нм. Это и есть нанопора. В обеих половинах ячейки находится солевой раствор (диссоциированные ионы соли обозначены точками), но молекулы ДНК первоначально находятся только в той половине, к которой приложено отрицательное напряжение. Ток в ячейке измеряется амперметром (А)