На днях в англоязычном сетевом ресурсе «Генетика» вышла статья под названием «Как геномный тест исковеркал мою семейную родословную, и, вероятно, вашу тоже». Автор, проживающая в США, описывает, как разослала образец своей ДНК в несколько коммерческих тестирующих «геномных» организаций, и что из этого вышло. Об этой истории мы расскажем ниже. Для меня, например, эта история совсем не показалась удивительной. Уже немало лет я пишу о том же самом на Переформате, и рассказываю, насколько фантазийными являются «геномные истории», как личные, так и этнические, популяционные, или рассказы о том, кто куда направлялся в древние времена, то есть истории миграционные.
Сама методология этих охотнич…, пардон, геномных рассказов является порочной, а если совсем мягко, то фантазийной. Эту методологию следует подразделить на три части, и мои нелестные слова выше относятся в основном к последней, третьей части, именно она является фантазийной, но заказчик получает только выводы из этой третьей, беллетрической, художественной части. Напомню, что художественная литература в английском языке называется fiction, то есть фикция. Про первую, научную часть, и про вторую, компьютерную часть, заказчик никаких сведений не получает, и о них, как правило, понятия не имеет.
Итак, что же представляет собой первая часть геномных исследований, направленных на выяснение истории древнего мира, или персонального происхождения того или иного заказчика, который сдал слюну на ДНК (геномный) анализ, оплатил исследование и получил результаты? К первой части особых претензий нет, там задействовано сложное и дорогостоящее оборудование, там применяют дорогостоящие и хитроумные реактивы, в которых сложные молекулы помечены флюоресцентными метками, там «молекулярными ножничками» разрезают молекулы ДНК, состоящие из десятков и сотен миллионов химических соединений, или звеньев, или нуклеотидов (все три понятия здесь – в данном смысле синонимы), а если исследование «полногеномное», то и из миллиардов звеньев, и полученные фрагменты ДНК, большие и маленькие, разгоняют на «фракции», примерно как в самогонном аппарате. Только в самогонном аппарате главной задачей является выделить одну, самую желанную фракцию, а в геномном анализе ДНК таких фракций астрономическое количество, и все желанные. Вот – пример картины таких фракций, каждая из которых (светлые полоски) представляет собой цепочки нуклеотидов.
Эти цепочки нуклеотидов отличаются друг от друга протяженностью, нуклеотидным составом (они все состоят из набора всего четырех нуклеотидов), последовательностью нуклеотидов в цепочках, а также мутациями, когда при копировании этих цепочек, которое выполняется специализированными ферментными комплексами и прочими «ассистирующими» биологическими соединениями, происходят случайные замены одного нуклеотида на другой, или случайные выпадения нуклеотидов, и прочие сбои в биологической машине копирования и исправления допущенных ошибок.
До картинки, приведенной выше, никаких претензий ко всем описанным последовательностям лабораторных операций нет. Естественно, техника совершенствуется, разрешение таких картинок улучшается, «молекулярные ножнички» становятся все лучше и лучше, и так далее, но так развивается наука. Нельзя в науке критиковать исследования только потому, что в будущем будет еще лучше. Можно, впрочем, критиковать тогда, когда лучше стало уже сейчас, а авторы все еще используют устаревшую технологию, и получают «морально устаревшие» сведения, когда их коллеги уже ушли далеко вперед. И тем более надо непременно критиковать, когда авторы, понимая, что их сведения далеко не полные, а то и с хорошей вероятностью ошибочные, когда авторы выхватывают из многих возможных интерпретаций только одну, потому что им так хочется по некоторым причинам, далеким от науки, но при этом объявляют, что их выводы продвигают науку и являются единственно верными. Часто авторы это не объявляют в прямом виде, но так подают свой материал и выводы, что якобы никаких других объяснений нет. А другие объяснения – «псевдонаучные». Это – прямое указание, что авторы – жулики от науки. Начинаешь разбираться – а там других объяснений масса, но авторы предпочли их не упоминать. Это что, получается, что у самих авторов «псевдонаука»? Нет, это у них просто не наука. Наука – одна, либо она есть, либо ее нет. Как и осетрины «второй свежести».
Повторим еще раз – до картинки, приведенной выше, никаких претензий ко всем описанным последовательностям лабораторных операций нет. Как правило, это – хороший научный уровень. Правда, здесь – натяжка. Уровень-то хороший, а вот науки уже давно нет. Эту работу делают техники-лаборанты, пусть и на сложном оборудовании, и обрабатывают компьютеры по заданным программам. Полета мысли, так сказать, что и есть неотъемлемая часть науки, там нет.
Нет полета мысли и во второй части исследования, поскольку она выполняется компьютером по прописям, которые в тот компьютер закладываются. Главная задача этой, второй части – рассортировать фрагменты ДНК от разных людей так, чтобы отличить закономерные сходства фрагментов от случайных. Закономерные сходства наблюдаются тогда, когда фрагменты ДНК этих людей происходят от недавнего общего предка, где понятие «недавний» определяется поставленной задачей. Такие совпадения называют «идентичные по происхождению» (ИПП). В других случаях совпадения являются случайными, по статистическим причинам. Такие совпадения называют «идентичные по сходству» (ИПС). Можно было бы назвать «идентичными по факту», или «одинаковыми благодаря статистике», то есть ОБС, извините за ироническую игру слов, имеющих особое значение в русском языке. В категорию ИПС попадают также фрагменты ДНК, которые сходны не случайно, а отвечают за важные функции жизнедеятельности человека, которые сформировались и устоялись в результате эволюции человека. В категорию ИПС попадают также фрагменты ДНК, которые веками циркулируют в рамках определенного этноса, особенно если этнос относительно замкнутый (как, например, в еврейских сообществах прошлого).
Суть геномного анализа состоит в том, чтобы сопоставить ДНК от разных людей (если речь о геномном анализе человека), при том, что ДНК людей похожи буквально на 99%, хотя при этом ДНК испещрены мутациями, о которых шла речь выше – то есть заменами одних нуклеотидов на другие, и таких замен в ДНК миллионы. Часть из них обратимые, часть – необратимые. В итоге сравниваются доли процентов различий на фоне более чем 99% сходства. Но эти сравнения невозможно производить, пользуясь целыми, интактными молекулами ДНК, они производятся после расщепления ДНК на фрагменты разного размера, как показано на фото выше. Поэтому во второй части исследования компьютер ищет «матчи», то есть совпадения. «Матчи», как пояснено выше, имеют разную природу. Одни похожи потому, что происходят от одного, сравнительно недавнего общего предка (ИПП), другие похожи по другим причинам (ИПС), не имеющим никакого отношения к общему происхождению. Или имеющим лишь косвенное отношение, например, потому что отражают близкое этническое происхождение, но по комбинации происхождения по мужской и женской линии, где общего предка нет в принципе.
В итоге компьютер, подчиняясь определенным программам, которых в интерпретациях ДНК используют множество, сортирует фрагменты по разным критериям одновременно – по числу снипов (определенных и заранее классифицированных мутациях в ДНК), по размерам фрагментов, по степени сходства, и ни в одном варианте нет однозначных критериев. Фрагменты бывают «крупные», «менее крупные», «более средние», «менее средние», «умеренно малые», «малые», и всех между ними, а компьютер сам решает, кто кому родственник «по наследственности», а кто «просто похож». Попгенетики это не проверяют, санитар сказал – в морг, значит, в морг.
Всю эту кашу компьютер сортирует, и делает выводы, которые по понятным причинам могут быть совершенно далеки от реальности, или частично пересекаться с реальностью, причем степень этой «частичности» может варьироваться в любых пределах. Понятно, что нужны независимые критерии для перекрестной проверки выводов, но популяционные генетики так не работают. Обычно что получилось, то и получилось. Наиболее очевидным независимым критерием была бы гаплогруппа и субклады, которые тут же вводили бы запреты на происхождение ДНК одного субклада из другого, но популяционные генетики так тоже не работают. У них критерии простые – совпали относительно протяженные сегменты (фрагменты) ДНК – значит, вероятность ИПП выше, значит, общий предок жил не так давно. Совпадают только малые сегменты – значит, предобладает ИПС. Замечаете «качественный» (не количественный) принцип анализа данных? Размеры сегментов измеряют в сантиморганах (сМ), где один сантиморган равен примерно миллиону пар нуклеотидов, или такому расстоянию, на котором степень рекомбинации генов равна примерно 1%. Есть и ориентировочные формулы, согласно которым если в двух ДНК в среднем совпадают сегменты размером в 11 сМ, то там на 99% ИПП; если совпадают сегменты в 9 сМ, то вероятности ИПП и ИПС – 50% на 50%, а если совпадают только сегменты в 4 сМ, то там на 99% ИПС (случайные совпадения), и всего на 1% ИПП.
Понятно, что эти критерии весьма условны, как весьма условны и выводы. И вот с данными сортировки, проведенными компьютером, поскольку вручную такую сортировку делать невозможно, там размеры файлов в гигабайты и терабайты, популяционные генетики включают свой «полет мысли», что должно бы означать начало научной стадии в исследовании. Это и есть третья часть исследования – интерпретационная, превращение тех самых ИПП, ИПС и прочих «сходств и различий» в мутационной картине ДНК из разных источников (конкретных людей или усредненных групп людей, или целых популяций) в выводы – кто от кого, где и когда произошел, куда и когда передвигались группы людей в древности, и так далее, что захотят включить попгенетики в свои «интерпретации».
И вот здесь начинаются настоящие проблемы. Мало того, что критерии условны, как описывалось выше, они часто приводят к полной каше, а выводы надо делать. Вообще говоря, «надо делать» – такого не бывает, никто не заставляет, но выводы делать хочется, потому что надо убеждать мир, что наука на марше. Что клиент должен платить деньги. Если быть честными, то надо показывать, что то, что компьютер выдал, можно объяснить так, а можно и этак. А можно и по-другому, и многими вариантами. Но поступать честно – это признать, что методология еще совсем недоработана. А хочется публикаций, грантов, научного признания, денег. Причем хочется, чтобы это было быстро. «Мы хотим сегодня, мы хотим сейчас». Итог – как правило, «осетрина второй свежести». Причем это часто получается карасем третьей свежести, но в статью и в заявки на гранты идет, несомненно, утверждение, что это свежайшая осетрина. Царская рыба, то есть соответствующее исследование такой же категории.
Остается только удивляться, что иногда выводы разумны, но «разумность» здесь «по понятиям», проверить эту разумность, как правило, не получается. А когда применяется проверка с гаплогруппами-субкладами, вся «разумность», как правило, рассыпается. Поэтому попгенетики такой проверки не делают, ни к чему это, а то рассыпется, а это в их планы не входит. Но еще чаще бывает, что компьютер в целом описал ситуацию правильно, например, что геномы древнего байкальского мальчика (с датировкой 24 тысячи лет назад) и современных американских индейцев совпадают на 14-38% (так – в исходной публикации), и нам (но не авторам статьи) ясно, что это потому, что и у тех, и у других один общий предок – гаплогруппа Р (этого в исходной публикации не было). Но популяционные генетики делают свою интерпретацию – что популяция того байкальского мальчика перешла в Америку и стала предками американских индейцев. Это в корне неверно, но в арсенале попгенетики слова «неверно» нет. Есть «так получилось, значит, так оно и есть».
Подобные же абсурдные интерпретации делались во множестве случаев. Поскольку авторы соответствующих работ прекрасно понимают, что все их интерпретации построены на песке, то они излагают свои результаты и выводы в крайне вязком виде, практически никогда не напрямую, но в широкую прессу, в СМИ это уже идет в виде, вполне категоричном. Ясно, что подобные «выводы» откровенно дискредитируют науку. Более того, при подобном «анализе» авторы обычно «подтверждают» то, что уже устоялось в науке, даже когда устоялось неверно. Например, что ямная культура (гаплогруппа R1b) принесла индоевропейские языки в Европу. Или что срубная культура (R1a) якобы вышла из ямной (R1b), или что из ямной якобы вышла культура шнуровой керамики (R1a). Это противоречит многим наблюдениям и фактам, но на Западе устоялось (российские историки и лингвисты относятся к этому, как правило, скептически, или отрицательно). А раз устоялось, то генетические исследования «подтвердили». А подтвердили, потому что современная популяционная генетика ничего не оспаривает, если что известно или принято – она всегда подтверждает, только чтобы не подумали, что у них что-то не так. Многие примеры такого «подхода» популяционных генетиков приведены на Переформате, не будем повторять. Там же многократно повторялся вывод – что данные «геномного анализа» в популяционной генетике надо непременно проверять перекрестно. Если это пока невозможно, стоит воздержаться от слепого их принятия. Наиболее надежная проверка – с помощью подходов ДНК-генеалогии, сопоставлением гаплогрупп, субкладов, гаплотипов, расчетов датировок.
Поскольку геномные попгенетики такой перекрестной проверки не делают, и потому их результаты и выводы часто не являются убедительными для специалистов, то обстановка постепенно накаляется. Первый звоночек – две редакционные статьи, вышедшие 29 марта 2018 грода в журнале Nature (стр. 559 и 573-576). Первая имеет характерное название – «Use and abuse of ancient DNA», то есть примерно «Древние ДНК в пользу и во вред», вторая – «Битва за общую территорию». Битва – это между археологами-историками, с одной стороны, и генетиками, с другой. Авторы осторожно пишут, что генетики «упрощают», на самом же деле проблема не в упрощении, генетики слишком часто искажают. Авторы критических статей в Nature опять приводят в пример якобы образование культуры шнуровой керамики из ямной по данным генетиков, сообщая, что археологи «в шоке». Мы об этом на Переформате уже три года пишем, а на Западе только подходят к пониманию проблемы с «геномными попгенетиками». Но до понимания того, что дело не в «упрощении», а в фундаментальной проблеме того, как геномные данные анализируются и интерпретируются, на Западе еще, видимо, далеко. Но уже пишут о «disruptive influence», то есть разрушительном влиянии, которое генетики оказывают на изучение истории человека, на том, что это «irritating», то есть действует раздражающе. При этом речь идет не о прямых данных, данные есть данные, а о безответственных интерпретациях генетиков. О чем мы и пишем последние несколько лет.
Переходим теперь к «геномному анализу» родословных человека, как правило, заказчиков, направляющих образцы своей ДНК в коммерческую лабораторию. Все те проблемы, описанные выше, здесь присутствуют, но поскольку это не академические «геномные» исследования, которые попгенетики обычно пишут вязким языком, и ответа по сути не дают (см. многие примеры того на Переформате), то с персональными, частными, оплачиваемыми заказами так дело не пойдет. Там нужно давать выводы рубленым, конкретным языком. Если и включать типа «вероятно», то так, чтобы заказчик всё равно поверил – «вы похожи на…», и тут же «вы очень похожи на…». Проверить-то никто все равно не сможет, где там жил прапредок многие тысячи лет назад. Что написали, то и хорошо. Более того, заказчик сам часто подыгрывает тому, что ему выдали. Написали ему, что его корни в Италии, заказчик хлопает себя по лбу – так вот почему я пиццу люблю! Вообще вера «в науку» безгранична, и этим попгенетики широко пользуются. Мне прислали письмо, и дама, автор письма, была в восторге, как всё чудесно совпадает с ее родословной, так все здорово! Нашли, что у нее полпроцента полинезийской ДНК. И она пишет, что подтвердилась семейная легенда, что ее прадедушка был моряком и ходил в Полинезию. То, что в лучшем (для прадедушки) случае это его ДНК должна была остаться в Полинезии, а не он привез бы в Россию (что привез-то??), ей в голову не пришло. Вера в торжество науки всё затмила, включая здравый смысл. Я спросил даму – а что, он жену из Полинезии привез? – Нет, конечно, рязанские мы.
Ну вот, мы уже вплотную подошли к сути интересной истории, которую поведала американка, и что мы упомянули выше. Для начала – сухие сведения. Ее прадед по сведениям был сирийцем, прабабка родилась в Пенсильвании, происхождение неизвестно, но по воспоминаниям родственников она говорила на арабском языке. Дед унаследовал от отца (или от обоих родителей) темные глаза и темные, жесткие волосы, и женился на блондинке-американке норвежского происхождения. У них было двое детей – отец нашей героини, и его сестра, тетя нашей героини. Как мы видим, у них должно быть выражено сирийское и норвежское происхождение. Тетя отправила образец своей ДНК на анализ в американскую компанию AncestryDNA, и оттуда ей сообщили, что тетя на 16% имеет ближневосточное происхождение, на 15% имеет кавказское происхождение, и на 30% она греко-итальянка. То, что тетя любила макароны, было воспринято, как подтверждение отчасти итальянского происхождения, хотя тетя перелопатила всех своих родственников, но не нашла никого ни с итальянским происхождением, ни с греческим.
Это озадачило героиню нашего повествования, и она решила взять реконструкцию семейного генеалогического дерева в свои руки. Направила образец своей слюны в три компании – AncestryDNA, 23andMe, и National Geographic, и была удивлена, получив разные ответы из каждой компании. Первой была AncestryDNA:
Героиня опять была несколько удивлена своими 11% происхождения с Ближнего Востока, хотя у сестры ее матери, то есть тети, его нашли равным 16%. По соображениям героини, у нее ожидалось бы половина тетиного ближневосточного вклада, но что есть, то есть. Греко-итальянское происхождение (у тети 30%) в новом варианте описания стало, наверное, «южно-европейским», и оказалось 13%. Тетино 15%-ное «кавказское» происхождение, которое по соображениям героини, должно было уполовиниться при переходе к самой героине, оказалось несколько больше выражено. Поскольку ни одна тестирующая компания не привела погрешности в полученных числах, этот вопрос остался невыясненным. Аналогично, 22% генеалогии с Британских островов у героини осталось вообще невыясненным у тети.
Наша героиня пришла к промежуточному заключению, что ситуация с «геномной генеалогией» у нее и тети остается запутанной, и обратилась со своим образцом ДНК в компанию National Geographic. Результаты:
Героиню поразило, что в дело пошла Восточная Европа, которая в предыдущих тестах и не упоминалась, причем ее суммарное генеалогическое наследство потянуло на 18%. Интересно, как его могла пропустить компания AncestryDNA? Появилась Малая Азия с немалыми 16%, плюс Персидский залив, и что занятно, появилась еврейская генеалогия, с ее 9%. Пришлось обратиться в компанию 23andMe:
В свете столь огромных нестыковок с другими определениями, десятые доли процента вызывают умилительную улыбку. За кого, интересно, держат заказчиков-покупателей тестов? Как сообщает героиня нашего рассказа, она с удивлением нашла, что теперь она только на 3% скандинавка, в отличие от других данных и несмотря на отца-норвежца (как она пишет – very Norwegian father), и она уже понимает, что эти данные просто неверны. Зато она теперь только на 3.3% с Ближнего Востока, несмотря на прадеда-сирийца, и на 2.2% северная африканка, и ни много ни мало на 62.6% «северо-западная европейка» (включая Центральную и Западную Европу). И никакой Восточной Европы, несмотря на тесты других компаний.
Сама методология этих охотнич…, пардон, геномных рассказов является порочной, а если совсем мягко, то фантазийной. Эту методологию следует подразделить на три части, и мои нелестные слова выше относятся в основном к последней, третьей части, именно она является фантазийной, но заказчик получает только выводы из этой третьей, беллетрической, художественной части. Напомню, что художественная литература в английском языке называется fiction, то есть фикция. Про первую, научную часть, и про вторую, компьютерную часть, заказчик никаких сведений не получает, и о них, как правило, понятия не имеет.
Итак, что же представляет собой первая часть геномных исследований, направленных на выяснение истории древнего мира, или персонального происхождения того или иного заказчика, который сдал слюну на ДНК (геномный) анализ, оплатил исследование и получил результаты? К первой части особых претензий нет, там задействовано сложное и дорогостоящее оборудование, там применяют дорогостоящие и хитроумные реактивы, в которых сложные молекулы помечены флюоресцентными метками, там «молекулярными ножничками» разрезают молекулы ДНК, состоящие из десятков и сотен миллионов химических соединений, или звеньев, или нуклеотидов (все три понятия здесь – в данном смысле синонимы), а если исследование «полногеномное», то и из миллиардов звеньев, и полученные фрагменты ДНК, большие и маленькие, разгоняют на «фракции», примерно как в самогонном аппарате. Только в самогонном аппарате главной задачей является выделить одну, самую желанную фракцию, а в геномном анализе ДНК таких фракций астрономическое количество, и все желанные. Вот – пример картины таких фракций, каждая из которых (светлые полоски) представляет собой цепочки нуклеотидов.
Эти цепочки нуклеотидов отличаются друг от друга протяженностью, нуклеотидным составом (они все состоят из набора всего четырех нуклеотидов), последовательностью нуклеотидов в цепочках, а также мутациями, когда при копировании этих цепочек, которое выполняется специализированными ферментными комплексами и прочими «ассистирующими» биологическими соединениями, происходят случайные замены одного нуклеотида на другой, или случайные выпадения нуклеотидов, и прочие сбои в биологической машине копирования и исправления допущенных ошибок.
До картинки, приведенной выше, никаких претензий ко всем описанным последовательностям лабораторных операций нет. Естественно, техника совершенствуется, разрешение таких картинок улучшается, «молекулярные ножнички» становятся все лучше и лучше, и так далее, но так развивается наука. Нельзя в науке критиковать исследования только потому, что в будущем будет еще лучше. Можно, впрочем, критиковать тогда, когда лучше стало уже сейчас, а авторы все еще используют устаревшую технологию, и получают «морально устаревшие» сведения, когда их коллеги уже ушли далеко вперед. И тем более надо непременно критиковать, когда авторы, понимая, что их сведения далеко не полные, а то и с хорошей вероятностью ошибочные, когда авторы выхватывают из многих возможных интерпретаций только одну, потому что им так хочется по некоторым причинам, далеким от науки, но при этом объявляют, что их выводы продвигают науку и являются единственно верными. Часто авторы это не объявляют в прямом виде, но так подают свой материал и выводы, что якобы никаких других объяснений нет. А другие объяснения – «псевдонаучные». Это – прямое указание, что авторы – жулики от науки. Начинаешь разбираться – а там других объяснений масса, но авторы предпочли их не упоминать. Это что, получается, что у самих авторов «псевдонаука»? Нет, это у них просто не наука. Наука – одна, либо она есть, либо ее нет. Как и осетрины «второй свежести».
Повторим еще раз – до картинки, приведенной выше, никаких претензий ко всем описанным последовательностям лабораторных операций нет. Как правило, это – хороший научный уровень. Правда, здесь – натяжка. Уровень-то хороший, а вот науки уже давно нет. Эту работу делают техники-лаборанты, пусть и на сложном оборудовании, и обрабатывают компьютеры по заданным программам. Полета мысли, так сказать, что и есть неотъемлемая часть науки, там нет.
Нет полета мысли и во второй части исследования, поскольку она выполняется компьютером по прописям, которые в тот компьютер закладываются. Главная задача этой, второй части – рассортировать фрагменты ДНК от разных людей так, чтобы отличить закономерные сходства фрагментов от случайных. Закономерные сходства наблюдаются тогда, когда фрагменты ДНК этих людей происходят от недавнего общего предка, где понятие «недавний» определяется поставленной задачей. Такие совпадения называют «идентичные по происхождению» (ИПП). В других случаях совпадения являются случайными, по статистическим причинам. Такие совпадения называют «идентичные по сходству» (ИПС). Можно было бы назвать «идентичными по факту», или «одинаковыми благодаря статистике», то есть ОБС, извините за ироническую игру слов, имеющих особое значение в русском языке. В категорию ИПС попадают также фрагменты ДНК, которые сходны не случайно, а отвечают за важные функции жизнедеятельности человека, которые сформировались и устоялись в результате эволюции человека. В категорию ИПС попадают также фрагменты ДНК, которые веками циркулируют в рамках определенного этноса, особенно если этнос относительно замкнутый (как, например, в еврейских сообществах прошлого).
Суть геномного анализа состоит в том, чтобы сопоставить ДНК от разных людей (если речь о геномном анализе человека), при том, что ДНК людей похожи буквально на 99%, хотя при этом ДНК испещрены мутациями, о которых шла речь выше – то есть заменами одних нуклеотидов на другие, и таких замен в ДНК миллионы. Часть из них обратимые, часть – необратимые. В итоге сравниваются доли процентов различий на фоне более чем 99% сходства. Но эти сравнения невозможно производить, пользуясь целыми, интактными молекулами ДНК, они производятся после расщепления ДНК на фрагменты разного размера, как показано на фото выше. Поэтому во второй части исследования компьютер ищет «матчи», то есть совпадения. «Матчи», как пояснено выше, имеют разную природу. Одни похожи потому, что происходят от одного, сравнительно недавнего общего предка (ИПП), другие похожи по другим причинам (ИПС), не имеющим никакого отношения к общему происхождению. Или имеющим лишь косвенное отношение, например, потому что отражают близкое этническое происхождение, но по комбинации происхождения по мужской и женской линии, где общего предка нет в принципе.
В итоге компьютер, подчиняясь определенным программам, которых в интерпретациях ДНК используют множество, сортирует фрагменты по разным критериям одновременно – по числу снипов (определенных и заранее классифицированных мутациях в ДНК), по размерам фрагментов, по степени сходства, и ни в одном варианте нет однозначных критериев. Фрагменты бывают «крупные», «менее крупные», «более средние», «менее средние», «умеренно малые», «малые», и всех между ними, а компьютер сам решает, кто кому родственник «по наследственности», а кто «просто похож». Попгенетики это не проверяют, санитар сказал – в морг, значит, в морг.
Всю эту кашу компьютер сортирует, и делает выводы, которые по понятным причинам могут быть совершенно далеки от реальности, или частично пересекаться с реальностью, причем степень этой «частичности» может варьироваться в любых пределах. Понятно, что нужны независимые критерии для перекрестной проверки выводов, но популяционные генетики так не работают. Обычно что получилось, то и получилось. Наиболее очевидным независимым критерием была бы гаплогруппа и субклады, которые тут же вводили бы запреты на происхождение ДНК одного субклада из другого, но популяционные генетики так тоже не работают. У них критерии простые – совпали относительно протяженные сегменты (фрагменты) ДНК – значит, вероятность ИПП выше, значит, общий предок жил не так давно. Совпадают только малые сегменты – значит, предобладает ИПС. Замечаете «качественный» (не количественный) принцип анализа данных? Размеры сегментов измеряют в сантиморганах (сМ), где один сантиморган равен примерно миллиону пар нуклеотидов, или такому расстоянию, на котором степень рекомбинации генов равна примерно 1%. Есть и ориентировочные формулы, согласно которым если в двух ДНК в среднем совпадают сегменты размером в 11 сМ, то там на 99% ИПП; если совпадают сегменты в 9 сМ, то вероятности ИПП и ИПС – 50% на 50%, а если совпадают только сегменты в 4 сМ, то там на 99% ИПС (случайные совпадения), и всего на 1% ИПП.
Понятно, что эти критерии весьма условны, как весьма условны и выводы. И вот с данными сортировки, проведенными компьютером, поскольку вручную такую сортировку делать невозможно, там размеры файлов в гигабайты и терабайты, популяционные генетики включают свой «полет мысли», что должно бы означать начало научной стадии в исследовании. Это и есть третья часть исследования – интерпретационная, превращение тех самых ИПП, ИПС и прочих «сходств и различий» в мутационной картине ДНК из разных источников (конкретных людей или усредненных групп людей, или целых популяций) в выводы – кто от кого, где и когда произошел, куда и когда передвигались группы людей в древности, и так далее, что захотят включить попгенетики в свои «интерпретации».
И вот здесь начинаются настоящие проблемы. Мало того, что критерии условны, как описывалось выше, они часто приводят к полной каше, а выводы надо делать. Вообще говоря, «надо делать» – такого не бывает, никто не заставляет, но выводы делать хочется, потому что надо убеждать мир, что наука на марше. Что клиент должен платить деньги. Если быть честными, то надо показывать, что то, что компьютер выдал, можно объяснить так, а можно и этак. А можно и по-другому, и многими вариантами. Но поступать честно – это признать, что методология еще совсем недоработана. А хочется публикаций, грантов, научного признания, денег. Причем хочется, чтобы это было быстро. «Мы хотим сегодня, мы хотим сейчас». Итог – как правило, «осетрина второй свежести». Причем это часто получается карасем третьей свежести, но в статью и в заявки на гранты идет, несомненно, утверждение, что это свежайшая осетрина. Царская рыба, то есть соответствующее исследование такой же категории.
Остается только удивляться, что иногда выводы разумны, но «разумность» здесь «по понятиям», проверить эту разумность, как правило, не получается. А когда применяется проверка с гаплогруппами-субкладами, вся «разумность», как правило, рассыпается. Поэтому попгенетики такой проверки не делают, ни к чему это, а то рассыпется, а это в их планы не входит. Но еще чаще бывает, что компьютер в целом описал ситуацию правильно, например, что геномы древнего байкальского мальчика (с датировкой 24 тысячи лет назад) и современных американских индейцев совпадают на 14-38% (так – в исходной публикации), и нам (но не авторам статьи) ясно, что это потому, что и у тех, и у других один общий предок – гаплогруппа Р (этого в исходной публикации не было). Но популяционные генетики делают свою интерпретацию – что популяция того байкальского мальчика перешла в Америку и стала предками американских индейцев. Это в корне неверно, но в арсенале попгенетики слова «неверно» нет. Есть «так получилось, значит, так оно и есть».
Подобные же абсурдные интерпретации делались во множестве случаев. Поскольку авторы соответствующих работ прекрасно понимают, что все их интерпретации построены на песке, то они излагают свои результаты и выводы в крайне вязком виде, практически никогда не напрямую, но в широкую прессу, в СМИ это уже идет в виде, вполне категоричном. Ясно, что подобные «выводы» откровенно дискредитируют науку. Более того, при подобном «анализе» авторы обычно «подтверждают» то, что уже устоялось в науке, даже когда устоялось неверно. Например, что ямная культура (гаплогруппа R1b) принесла индоевропейские языки в Европу. Или что срубная культура (R1a) якобы вышла из ямной (R1b), или что из ямной якобы вышла культура шнуровой керамики (R1a). Это противоречит многим наблюдениям и фактам, но на Западе устоялось (российские историки и лингвисты относятся к этому, как правило, скептически, или отрицательно). А раз устоялось, то генетические исследования «подтвердили». А подтвердили, потому что современная популяционная генетика ничего не оспаривает, если что известно или принято – она всегда подтверждает, только чтобы не подумали, что у них что-то не так. Многие примеры такого «подхода» популяционных генетиков приведены на Переформате, не будем повторять. Там же многократно повторялся вывод – что данные «геномного анализа» в популяционной генетике надо непременно проверять перекрестно. Если это пока невозможно, стоит воздержаться от слепого их принятия. Наиболее надежная проверка – с помощью подходов ДНК-генеалогии, сопоставлением гаплогрупп, субкладов, гаплотипов, расчетов датировок.
Поскольку геномные попгенетики такой перекрестной проверки не делают, и потому их результаты и выводы часто не являются убедительными для специалистов, то обстановка постепенно накаляется. Первый звоночек – две редакционные статьи, вышедшие 29 марта 2018 грода в журнале Nature (стр. 559 и 573-576). Первая имеет характерное название – «Use and abuse of ancient DNA», то есть примерно «Древние ДНК в пользу и во вред», вторая – «Битва за общую территорию». Битва – это между археологами-историками, с одной стороны, и генетиками, с другой. Авторы осторожно пишут, что генетики «упрощают», на самом же деле проблема не в упрощении, генетики слишком часто искажают. Авторы критических статей в Nature опять приводят в пример якобы образование культуры шнуровой керамики из ямной по данным генетиков, сообщая, что археологи «в шоке». Мы об этом на Переформате уже три года пишем, а на Западе только подходят к пониманию проблемы с «геномными попгенетиками». Но до понимания того, что дело не в «упрощении», а в фундаментальной проблеме того, как геномные данные анализируются и интерпретируются, на Западе еще, видимо, далеко. Но уже пишут о «disruptive influence», то есть разрушительном влиянии, которое генетики оказывают на изучение истории человека, на том, что это «irritating», то есть действует раздражающе. При этом речь идет не о прямых данных, данные есть данные, а о безответственных интерпретациях генетиков. О чем мы и пишем последние несколько лет.
Переходим теперь к «геномному анализу» родословных человека, как правило, заказчиков, направляющих образцы своей ДНК в коммерческую лабораторию. Все те проблемы, описанные выше, здесь присутствуют, но поскольку это не академические «геномные» исследования, которые попгенетики обычно пишут вязким языком, и ответа по сути не дают (см. многие примеры того на Переформате), то с персональными, частными, оплачиваемыми заказами так дело не пойдет. Там нужно давать выводы рубленым, конкретным языком. Если и включать типа «вероятно», то так, чтобы заказчик всё равно поверил – «вы похожи на…», и тут же «вы очень похожи на…». Проверить-то никто все равно не сможет, где там жил прапредок многие тысячи лет назад. Что написали, то и хорошо. Более того, заказчик сам часто подыгрывает тому, что ему выдали. Написали ему, что его корни в Италии, заказчик хлопает себя по лбу – так вот почему я пиццу люблю! Вообще вера «в науку» безгранична, и этим попгенетики широко пользуются. Мне прислали письмо, и дама, автор письма, была в восторге, как всё чудесно совпадает с ее родословной, так все здорово! Нашли, что у нее полпроцента полинезийской ДНК. И она пишет, что подтвердилась семейная легенда, что ее прадедушка был моряком и ходил в Полинезию. То, что в лучшем (для прадедушки) случае это его ДНК должна была остаться в Полинезии, а не он привез бы в Россию (что привез-то??), ей в голову не пришло. Вера в торжество науки всё затмила, включая здравый смысл. Я спросил даму – а что, он жену из Полинезии привез? – Нет, конечно, рязанские мы.
Ну вот, мы уже вплотную подошли к сути интересной истории, которую поведала американка, и что мы упомянули выше. Для начала – сухие сведения. Ее прадед по сведениям был сирийцем, прабабка родилась в Пенсильвании, происхождение неизвестно, но по воспоминаниям родственников она говорила на арабском языке. Дед унаследовал от отца (или от обоих родителей) темные глаза и темные, жесткие волосы, и женился на блондинке-американке норвежского происхождения. У них было двое детей – отец нашей героини, и его сестра, тетя нашей героини. Как мы видим, у них должно быть выражено сирийское и норвежское происхождение. Тетя отправила образец своей ДНК на анализ в американскую компанию AncestryDNA, и оттуда ей сообщили, что тетя на 16% имеет ближневосточное происхождение, на 15% имеет кавказское происхождение, и на 30% она греко-итальянка. То, что тетя любила макароны, было воспринято, как подтверждение отчасти итальянского происхождения, хотя тетя перелопатила всех своих родственников, но не нашла никого ни с итальянским происхождением, ни с греческим.
Это озадачило героиню нашего повествования, и она решила взять реконструкцию семейного генеалогического дерева в свои руки. Направила образец своей слюны в три компании – AncestryDNA, 23andMe, и National Geographic, и была удивлена, получив разные ответы из каждой компании. Первой была AncestryDNA:
Героиня опять была несколько удивлена своими 11% происхождения с Ближнего Востока, хотя у сестры ее матери, то есть тети, его нашли равным 16%. По соображениям героини, у нее ожидалось бы половина тетиного ближневосточного вклада, но что есть, то есть. Греко-итальянское происхождение (у тети 30%) в новом варианте описания стало, наверное, «южно-европейским», и оказалось 13%. Тетино 15%-ное «кавказское» происхождение, которое по соображениям героини, должно было уполовиниться при переходе к самой героине, оказалось несколько больше выражено. Поскольку ни одна тестирующая компания не привела погрешности в полученных числах, этот вопрос остался невыясненным. Аналогично, 22% генеалогии с Британских островов у героини осталось вообще невыясненным у тети.
Наша героиня пришла к промежуточному заключению, что ситуация с «геномной генеалогией» у нее и тети остается запутанной, и обратилась со своим образцом ДНК в компанию National Geographic. Результаты:
Героиню поразило, что в дело пошла Восточная Европа, которая в предыдущих тестах и не упоминалась, причем ее суммарное генеалогическое наследство потянуло на 18%. Интересно, как его могла пропустить компания AncestryDNA? Появилась Малая Азия с немалыми 16%, плюс Персидский залив, и что занятно, появилась еврейская генеалогия, с ее 9%. Пришлось обратиться в компанию 23andMe:
В свете столь огромных нестыковок с другими определениями, десятые доли процента вызывают умилительную улыбку. За кого, интересно, держат заказчиков-покупателей тестов? Как сообщает героиня нашего рассказа, она с удивлением нашла, что теперь она только на 3% скандинавка, в отличие от других данных и несмотря на отца-норвежца (как она пишет – very Norwegian father), и она уже понимает, что эти данные просто неверны. Зато она теперь только на 3.3% с Ближнего Востока, несмотря на прадеда-сирийца, и на 2.2% северная африканка, и ни много ни мало на 62.6% «северо-западная европейка» (включая Центральную и Западную Европу). И никакой Восточной Европы, несмотря на тесты других компаний.