Проверка фактов: Новый «полный» геном шимпанзе показывает 14,9% отличие от генома человека
В новаторской статье в журнале Nature сообщается о «полном секвенировании геномов обезьян» («Complete sequencing of ape genomes»), включая геномы шимпанзе, бонобо, горилл, борнейских орангутангов, суматранских орангутангов и сиамангов. Я уже отметил это, сообщив, что икона эволюции – знаменитая «1-процентная разница» между геномами человека и шимпанзе, о которой твердят во всех популярных и других научных изданиях и учебниках, – рухнула. Исследователи, по какой-то причине – я не умею читать мысли – предпочли похоронить этот замечательный вывод в техническом жаргоне в разделе «Дополнительные данные». А теперь подробнее о научных деталях.
Вы можете подумать: «Эй, а разве эти геномы не были секвенированы давным-давно?». Ответ – да, но также и нет. Да, мы секвенировали геномы этих видов в прошлом, но, как объясняется в статье, «из-за повторяющейся природы геномов обезьян полные сборки не были достигнуты. В текущих источниках отсутствует анализ последовательностей некоторых наиболее динамичных геномных областей, включая области, соответствующие семействам генов, характерным для конкретной линии».
Или, как говорится в сопроводительной статье:
«В прошлом ученые расшифровывали фрагменты геномов нечеловекообразных обезьян, но им никогда не удавалось собрать полную последовательность для какого-либо вида. Однако в нынешнем исследовании Катерина Макова и ее коллеги использовали передовые методы секвенирования и алгоритмы, которые позволили им прочитать длинные сегменты ДНК и собрать их в последовательность, протянувшуюся от одного конца каждой хромосомы до другого, без каких-либо пробелов. "Такого еще не было", – говорит Макова».
Другими словами, полные геномы обезьян никогда не были полностью секвенированы. А в качестве эталонной последовательности они использовали геном человека, из-за чего геномы обезьян выглядели более похожими на человеческие, чем на самом деле.
Вы не верите мне?
Из технического документа:
«Большинство предыдущих сравнительных исследований геномов обезьян было ограничено отображением некачественных сборок на более качественный геном человека. Таким образом, были введены человеческие референтные предубеждения».
Это согласуется с тем, что Национальный центр биотехнологической информации заявил в 2007 году о раннем проекте генома шимпанзе:
«Контиги были собраны с использованием человеческого генома в качестве руководства, и поэтому они «очеловечены» в своей конструкции. Это важное различие, поскольку некоторые последовательности, такие как инсерции, делеции и дупликации генов, могут быть не совсем точно представлены в текущей сборке шимпанзе».
Таким образом, до сих пор большинство версий геномов шимпанзе и других обезьян были фактически «очеловечены», потому что они были «собраны с использованием человеческого генома в качестве руководства». Благодаря этому геномы шимпанзе и других обезьян выглядят более похожими на человеческий геном, чем они есть на самом деле. Могут ли эти новые чертежи геномов обезьян помочь решить эту проблему?
Проблема решена?
Очередная статья в Nature с пояснениями, похоже, предполагает, что эти «полные» планы геномов обезьян докажут, что они менее похожи на человеческий геном, чем утверждалось ранее:
«Вскоре после того, как в 2003 году была завершена работа над первой последовательностью генома человека, была опубликована сборка генома шимпанзе. За ней последовали сборки других человекообразных обезьян, таких как горилла, суматранский орангутанг и бонобо, а также мелких приматов, которые менее близки к человеку, чем человекообразные обезьяны. Эти геномы предоставили ценную возможность составить каталог генетических различий, накопившихся в ходе эволюции приматов, включая изменения, уникальные для человека. Но поскольку эти первые версии были неполными чертежами, сравнения можно было проводить только между правильно расшифрованными участками генома. Поэтому эти исследования были сосредоточены только на относительно небольших различиях и исключали чрезвычайно повторяющиеся последовательности и крупномасштабные структурные различия, такие как инверсии и дупликации геномных последовательностей». (Выделение добавлено)
Последнее предложение как бы намекает на то, что предыдущие сравнения геномов человека и обезьяны «фокусировались только на относительно небольших различиях» и «исключали» участки, которые влекут за собой «крупномасштабные структурные различия». В пояснительной статье отмечается, что в ходе исследования были «полностью секвенированы геномы шести видов живых обезьян, что позволило провести долгожданное сравнение трудносопоставимых геномных регионов». Таким образом, можно было бы ожидать, что эти новые «полные» геномы обезьян обнаружат гораздо больше различий по сравнению с геномом человека.
Новые геномы обезьян и геном человека
Что странно, так это то, что при чтении технического документа трудно найти прямое сравнение между геномами обезьян и человека. Похоже, что этот отрывок как нельзя более близок к этому:
«В целом, сравнение последовательностей полных геномов обезьян выявило большее расхождение, чем предполагалось ранее (Дополнительные примечания III-IV). Действительно, 12,5-27,3% геномов обезьян не выравнивались или не соответствовали простому выравниванию один к одному, тем самым внося пробелы».
Что именно это значит? Ну, во-первых, они признают, что «сравнение последовательностей полных геномов обезьян выявило большую дивергенцию, чем предполагалось ранее». Но в технической статье Nature человек рассматривается как «обезьяна», поэтому в этом заявлении подразумевается, что сравнение «геномов обезьян» включает в себя сравнение геномов человека и обезьяны (т. е. нечеловеческих гоминоидов). Поэтому до конца этой статьи я буду называть людей «людьми», а нечеловеческих гоминоидов – «обезьянами», как это делает большинство нормальных людей.
Интересно, что в двух препринтах статьи (v1 и v2), опубликованных в прошлом году на BioRxiv (которые, предположительно, являются версиями рукописи, представленной в Nature изначально и после одного раунда правок), этот результат предваряется двумя предложениями:
«Часто цитируемая статистика ∼99% идентичности последовательностей между шимпанзе и человеком применима к большей части генома, если учитывать однонуклеотидные варианты (SNV). Однако сравнение геномов T2T дает гораздо более тонкую оценку».
T2T означает исследование «от теломеры к теломере» – то есть исследование всей хромосомы на протяжении всего генома. Эти предложения, очевидно, были удалены во время редактирования опубликованной в Nature версии – интересное редакторское решение. Так что же говорится в статье о различиях между людьми и шимпанзе?
Как мы увидим, приведенное выше утверждение – что «сравнение последовательностей полных геномов обезьян выявило большее расхождение, чем предполагалось ранее» – верно. Но оно не раскрывает масштабов различий между геномами человека и обезьяны, которые обнаружило это исследование. Поэтому позвольте мне перейти к делу:
Посмотрите на эти цифры: «12,5-27,3%». Те же самые цифры снова появляются в «Дополнительных данных», где сравниваются различные геномы обезьян и человека. Их можно найти, если знать, где искать, но стоит ли говорить «похоронены» – или «спрятаны»? Насколько я могу судить, в «Дополнительных данных» сообщается, что геном обезьяны, наиболее похожий на геном человека, – это геном шимпанзе. И он показывает 12,5-процентное «gap-divergence» [расхождение за счет разрывов (несоответствия) – прим. перев.] – то есть отличие – от генома человека! А если посмотреть на «gap divergence», когда геном человека является целью, а шимпанзе – запросом, то разница составит 13,3 процента. Позвольте уточнить: согласно этому исследованию, геномы человека и шимпанзе совпадают на 98,8 % (или отличаются на 1,2 %), как, например, утверждает Национальный музей естественной истории Смитсоновского института. На самом деле они похожи не более чем на 87,5 % – то есть геномы человека и шимпанзе отличаются как минимум на 12,5 %, если не на 13,3 %! На самом деле, разница в 13,3 процента более значима, поскольку она отражает, насколько похожа вся сборка человеческого генома на геном шимпанзе.
Что именно представляет собой «gap-divergence»
Прежде чем мы продолжим, я хочу выяснить, что именно авторы подразумевают под «gap-divergence». В статье дается следующее определение:
«Gap divergence определяется как доля позиций в целевом гаплотипе, которые не выровнены с другим гаплотипом, что может быть вызвано биологическими процессами (например, потерей/приобретением генов и инсерциями/делециями), отсутствием данных или техническими проблемами (например, сбоем выравнивания из-за SVs [Structural Variants – структурные варианты – прим. перев.], повторяющихся элементов и т. д.)».
Как же они определяют расхождение (gap divergence)? Насколько я могу судить, это основано на разделении целевого генома в рамках выравнивания генома на сегменты по 1 миллиону пар оснований (1 Mbp) и на том, сколько оснований в каждом сегменте 1 Mbp не имеют выравнивания в геноме запроса, который был выровнен с ним. Если весь сегмент размером 1 Mbp не имеет выравнивания с целевым геномом, то его расхождение составляет 100 %. Если 10 000 п.о. не имеют выравнивания, то расхождение составляет 1 процент; если 1 000 п.о. не имеют выравнивания, то расхождение составляет 0,1 процента и т.д. Согласно результатам исследования, среднее расхождение в каждом сегменте генома человека (целевого) размером 1 Mbp, выровненном с геномом шимпанзе (запрос), составляет 12,5 %. Таким образом, 12,5 % оснований в геноме человека не имеют совпадающих оснований в геноме шимпанзе при выравнивании всего генома.
Приведенный ниже рисунок, созданный в иллюстративных целях и не являющийся результатом исследования, помогает показать различия между «SNV» и «разрывами» между двумя геномами:
Как видите, разрывы представляют собой нуклеотиды или сегменты нуклеотидов, которых просто нет в том или ином геноме, а SNV – нуклеотиды, которые существуют, но отличаются друг от друга. Эти два типа различий можно сложить, чтобы вычислить общую разницу между геномами.
Верхняя оценка
А почему в основном тексте указан диапазон от 12,5 до 27,3 процента? Потому что верхняя оценка несовпадения геномов гориллы и человека составляет внушительные 27,3 процента. На самом деле, если мы посмотрим на Дополнительный рисунок III.12, то обнаружим следующие проценты «расхождения» между различными геномами приматов по сравнению с геномом человека (не половые хромосомы):
● Суматранский орангутанг (Pongo abelii) vs человек: 15,4% и 16,5% «расхождения» (т.е. минимальная разница)
● Горилла (Gorilla gorilla) vs человек: 17,9% и 27,3% «расхождения» (т.е, минимальная разница)
● Бонобо (Pan paniscus) vs человек: 12,5 % и 14,4 % «расхождения» (т.е. минимальная разница)
● Шимпанзе (Pan troglodytes) vs человек: 12,5 % и 13,3 % «расхождения» (т.е. минимальная разница)
Видите, как легко обобщить эти данные? Это огромные открытия как для науки, так и для широкой культуры, однако в технической статье Nature и двух статьях-объяснениях Nature не удалось четко обозначить эти моменты. Они похоронили их в техническом жаргоне и отсутствии ясности глубоко в Дополнительных данных, а предложение о «часто цитируемой статистике ~99% идентичности последовательностей» было удалено при пересмотре статьи. Nature, смею вас заверить, не является бессистемно редактируемым журналом. Это был сознательный выбор, сделанный кем-то в процессе редактирования. Отсутствие ясности просто невероятно.
Технические подробности
Глубоко в Дополнительных данных мы находим рисунок III.12, который объясняет дивергенцию между различными видами:
Надпись гласит: «На графиках показаны сегменты размером 1 Mbp, отсортированные по расхождениям между ними для каждого парного выравнивания», где парное выравнивание – это попытка выровнять две последовательности, чтобы определить степень их сходства или различия. Таким образом, мы имеем дело с прямым показателем минимальной степени различия между двумя геномами.
Добавление однонуклеотидных вариаций (SNV)
Но есть еще один тип вариаций между геномами, также обнаруженный в работе, – однонуклеотидные различия (называемые «однонуклеотидными вариациями» или иногда «короткими нуклеотидными вариациями» или SNVs). Опять же, в Дополнительных данных мы находим рисунок III.11, на котором показан процент SNV между геномами человека и различных обезьян, представленных в этом исследовании. Вот что они обнаружили:
● Суматранский орангутан (Pongo abelii) vs человек: ~3,6 процента различий
● Горилла (Gorilla gorilla) vs человек: 1,9 процента - 2,0 процента различий
● Бонобо (Pan paniscus) vs человек: 1,5 процента - 1,6 процента различий
● Шимпанзе (Pan troglodytes) vs человек: 1,5 процента - 1,6 процента различий
Если к различиям SNV добавить расхождения в разрывах, то получатся такие общие степени различий между геномами человека и обезьян:
● Суматранский орангутан (Pongo abelii) vs человек: ~19% - 20,1% различий
● Горилла (Gorilla gorilla) vs человек: ~19,8% - 29,3% различий
● Бонобо (Pan paniscus) vs человек: ~14,0% - 16,0% различий
● Шимпанзе (Pan troglodytes) (цель) vs человек: ~14,0% различий
● Человек (цель) vs Шимпанзе (Pan troglodytes): ~14,9 % разницы
Итак, мы видим, что общая разница между геномом человека и геномом шимпанзе составляет 14,9 процента. Это гораздо больше, чем часто утверждаемая статистика о том, что мы всего на 1 процент генетически отличаемся от шимпанзе!
Является ли это последним словом?
Несомненно, необходимо провести дополнительный анализ, чтобы определить степень точного совпадения нуклеотидов между геномами человека и шимпанзе, даже в тех областях, которые легче поддаются выравниванию. Поэтому я подозреваю, что в будущем степень различий между геномами человека и шимпанзе может возрасти.
На данный момент мы можем с уверенностью сказать, что это последнее исследование показывает, что геномы человека и шимпанзе различаются как минимум на 14,9 процента. Это означает, что геномы человека и шимпанзе отличаются друг от друга как минимум на порядок больше, чем обычно говорят общественности.
Разумеется, речь идет о 44 неполовых хромосомах в геноме человека. Стоит также отметить, что по сравнению с шимпанзе Y-хромосома человека расходится на 56,6 % (и на 3,9 % по SNV), а X-хромосома человека расходится на 4,4 % (и на 1,1 % по SNV). Но все это тоже скрыто в Дополнительных данных.
Это революционные результаты, и очень жаль, что Nature не сообщила о них в явном виде и сделала все это таким труднодоступным, используя жаргон, который большинство неспециалистов не поймут. Почему они так поступили? Важно понимать, что публикация научных работ может быть похожа на приготовление колбасы: она часто бывает грязной, и окончательный вариант, который вы читаете, обычно представляет собой компромиссный язык, который все авторы, рецензенты и редакторы были готовы опубликовать – и может не отражать то, что чувствует каждый автор статьи. Так что, возможно, некоторые авторы этого исследования предпочли бы изложить последствия более ясно. Но мы все равно можем спросить: «Почему Nature не изложила результаты ясно и не позволила событиям развиваться естественным образом и принять их результаты, будь то положительные или отрицательные?»
Я подозреваю, что этот радикальный вывод имеет последствия – не только для науки, но и для человеческой исключительности, для надежности широко рекламируемых тезисов и многого другого – которые люди будут обсуждать еще долгое время. И, возможно, для некоторых представителей мира науки и научных репортажей, особенно для тех, кто распространял дискредитировавшую себя цифру о всего лишь 1-процентном отличии от шимпанзе, эти разговоры могут оказаться нежелательными.