Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Этапы кладистического анализа

⇐ ПредыдущаяСтр 5 из 16Следующая ⇒

Кладистический анализ, построенный на основе рассмотренных выше принципов, включает следующие этапы:

1.Первый этап исследования включает кодирование множества признаков и внесение их в матрицу. Особенностью кладистического метода является опора на качественные признаки. Метрические показатели в кладистиче-ском исследовании ранжируют на группы, например «мелкий», «средний», «крупный».

Адекватное кодирование признаков представляет собой серьезную и самостоятельную задачу. От того, насколько точно код отражает существующие состояния признаков, во многом зависит результат анализа. Рассмотрим подробнее типы признаков и методы их кодирования.

Предположим, мы должны описать окраску венчика у двух видов растений, Пусть у вида А венчик имеет красную окраску, а у вида В – белую. Эта информация может быть закодирована в простой двоичной форме: состояние у А можно представить как 0, а у В – как 1 (табл. 1). Такое кодирование называется бинарным, а признаки, имеющие только два состояния, также называются бинарными. При бинарном кодировании не имеет значения, как обозначается тот или иной цвет – нулѐм или единицей. Значения могут быть легко изменены на противоположные (т. е. 0 = белый, а 1 = красный) без изменения смысла кодирования.

В тех случаях, когда число состояний превосходит два (признаки со многими состояниями), бинарное кодирование не в состоянии описать их разнообразие. Так, если краска венчика у таксонов A, B и C является, соответственно, красной, синей и белой, каждое состояние признака приходится кодировать соответствующим целым числом. Данный метод называется аддитивным кодированием (табл.2).

Таблица 2. Аддитивное кодирование признака «цвет венчика» для трѐх таксонов

При кодировании признака следует учитывать, является ли он упорядоченным или неупорядоченным. В первом случае состояния признака образуют последовательность типа «белый – серый – черный» или «сферический – эллиптический – цилиндрический». Во втором случае никакой упорядоченной связи между состояниями нет (например: красная, синяя и белая окраска; тип нуклеотида в данном локусе и т.п.).

Упорядоченные признаки можно кодировать особым образом. Например, признак, порядок которого 0–1–2, где 1 – это промежуточный шаг трансформации, может быть представлен в форме 00–01–11. Такое кодирование именуется аддитивным бинарным (табл. 3).

До сих пор мы рассматривали только линейную трансформацию состояний признаков, однако отношения между состояниями могут оказаться ветвящимися. Подобные признаки также могут быть закодированы в аддитивной бинарной форме (рис.6)

С помощью приведенной схемы можно закодировать состояние признака «строение кровеносной системы». Обозначим как состояние А (000) кровеносную систему костистых рыб с четырьмя парами приносящих жаберных артерий, как состояние В (001) – рептильный тип кровеносной системы с двумя дугами аорты, состояние С (011) – кровеносную систему млекопитаю-

щих с редукцией правой дуги аорты, и, наконец D (101) - кровеносную систему птиц с редукцией левой дуги.

Вернѐмся к примеру, приведенному в табл.1, где виды имеют либо красный либо белый венчик. Бинарное кодирование позволяет осуществляться трансформации в любом из двух направлений: 0^ 1 и 1-Х0. Если определено направление трансформации, то признак называют поляризованным и только одна из этих двух возможностей должна быть выбрана для анализа. Полярность признаков не следует путать с их упорядоченностью. Так, упорядоченная последовательность состояний 0-1-2 может быть поляризована тремя различными способами, не нарушающими заданного порядка:

0^1^2 0^1^2 0^1^2

С другой стороны, можно поляризовать и неупорядоченные признаки со многими состояниями. Неупорядоченный признак, имеющий состояния 0, 1 и 2, может быть поляризован путем выбора состояний 0, 1 или 2 в качестве стартовых точек трансформации: 1^0^2, 0^1^2, 0<-2->1. Остальные состояния при этом останутся неупорядоченными.

2.После подготовки матрицы программа приступает к поиску потенциально возможных путей эволюционной трансформации исходного фено- или генотипа во все остальные путем поочередного изменения состояний всех описанных признаков. В результате строятся древовидные схемы - кладограм-мы (или просто «деревья»). Они состоят из линий, называемых ветвями. Пересечения и концы ветвей образуют узлы. Узлы на концах ветвей соответствуют таксонам, которые были включены в анализ.

Деревья могут быть некорневыми (их называют также сетями или дендри-тами) и корневыми (именно они обычно называются кладограммами). Некорневые деревья отображают характер связи между таксонами, но ничего не говорят о направлении трансформации признаков.

Для того, чтобы сделать кладограмму корневой, производят процедуру под названием укоренение (англ. rooting). Укоренение может быть осуществлено двумя способами - непрямым и прямым. Непрямое укоренение проводится с помощью введения в анализ аутгруппы - таксона, обособленность которого от анализируемой совокупности (ингруппы) не вызывает сомнений. Желательно, чтобы аутгруппа не обладала апоморфиями, характерными для отдельных представителей ингруппы.

В результате укоренения происходит придание полярности, по крайней мере, одной трансформации признака, хотя часто бывает так, что поляризуются многие или все признаки. Полярности признаков, таким образом, считы-ваются с укорененного дерева (рис.7).

Прямой метод определения полярности требует использования онтогенетических данных: в случае онтогенетической трансформации признака от более распространенного состояния к менее распространенному, более распространенное рассматривается как плезиоморфное, а менее распространенное - как апоморфное.

Например, жаберные щели встречаются у эмбрионов всех позвоночных и у взрослых особей рыб, но не у взрослых особей тетрапод. Отсюда следует, что более распространенное состояние (обладание жаберными щелями) представляет плезиоморфию, а преобразование жабр в другие структуры у взрослых особей является апоморфным состоянием.

Кроме вышеперечисленных подходов, ранее был предложен целый ряд других методов определения полярности признаков. Все они в настоящее время отвергнуты кладистами. Эти подходы кратко охарактеризованы ниже.

• Обычный - это примитивный.Этот критерий подразумевает, что признаки более широко распространенные в исследуемой группе являются примитивными по отношению к признакам с более ограниченным распространением. Данный подход не имеет эмпирического обоснования, хотя иногда оказывается достаточно эффективен (Смирнов, 1960).

• Более сложные признаки являются производными по отношению к менее сложным признакам.Субъективность этого критерия очевидна. Редукция является столь же распространенным явлением, как и новообразование.

• Признаки, обнаруженные у ископаемых, являются примитивными по отношению к признакам, обнаруженным у ныне живущих организмов.Известны случаи, когда более

«прогрессивный » таксон появляется в палеонтологической летописи позже «примитивных». Примером могут служить самые примитивные насекомые щетинохвостки и крылатые насекомые. Поэтому, ископаемые следует рассматривать всего лишь как дополнительные таксоны, включаемые в анализ наравне с ныне живущими.

• Более продвинутые признаки обнаруживаются дальше от географического центра происхождения группыЦентры происхождения таксонов имеют такие же шансы на возникновение в них апоморфных признаков, как и периферийные участки ареалов. Биогеографические данные не могут служить убедительным средством оценки кладограмм, но при этом, сами кладограммы являются эффективными средствами проверки биогеографических гипотез.

3.Среди множества кладограмм необходимо выбрать наиболее краткие, «парсимонические». Но при анализе значительного объема данных, число возможных кладограмм становится поистине огромным. Так, для шести таксонов может быть построено 105 бескорневых кладограмм, для 20 таксонов - уже 2х10²⁰, а для 63 таксонов - более 10¹⁰⁰! Поиск парсимонических деревьев среди этого множества является самостоятельной, сложнейшей задачей, для решения которой разработано несколько методов.

Исчерпывающий поиск (англ. exhaustive search) заключается в анализе всех возможных кладограмм для всех исследуемых таксонов. Этот способ поиска гарантирует, что все наиболее короткие кладограммы будут найдены, но в силу вышеуказанных причин может быть применен только для анализа очень небольших групп таксонов по ограниченному числу признаков.

Метод ветвления и ограничения (англ. branch-and-bound method, BAB) основан на эвристическом (см. стр. 35) построении эталонной кладограммы, которая, предположительно, является кратчайшей. Длина этой кладограммы используется при дальнейшем построении кладограмм в качестве допустимого максимума. Длины незаконченных деревьев вычисляются на каждом шагу и сравниваются с длиной эталонной кладограммы. Как только длина незаконченного дерева превышает длину эталона, от данного пути построения отказываются, так как присоединение дополнительных таксонов может привести лишь к дальнейшему увеличению длины. При использовании этого метода число завершенных кладограмм, которые должны быть оценены, существенно уменьшается. Когда добавлены все таксоны, длина полученной кладограммы еще раз сравнивается с верхней границей. Если ее длина равна верхней границе, тогда эта кладограмма оставляется в качестве одной из оптимальных топологий, а процесс ветвления и ограничения продолжается. Однако если длина оказывается меньше верхней границы, то такая структура признается улучшением и ее длина принимается за верхнюю границу. Эта процедура замещения очень важна, так как она дает возможность быстрее отказаться от недостаточно кратких путей. Однако BAB-анализ все еще требует много времени и не может применяться для больших наборов данных.

Эвристический поиск (англ. heuristic search) основан на том, что при построении достаточно высокого числа кладограмм, вероятность обнаружения среди них кратчайшей из всех возможных становится достаточно большой. При использовании эвристического поиска, исследователь задает максимальное число кладограмм, которое должна построить программа (как правило, не менее 10 000), и затем работает только с этими деревьями. Несмотря на кажущуюся произвольность, эвристический метод, как правило, дает хорошие результаты.

Процесс построения дерева при эвристическом поиске слагается из двух стадий. Первая – это пошаговое добавление (stepwise addition), которое определяет последовательность присоединения таксонов к строящемуся дереву. Вторая, стадия – обмен ветвей (branch-swapping) – представляет собой различные способы перестановки ветвей дерева, полученного на первой стадии.

Остановимся сначала на пошаговом добавлении. Наименее сложная из процедур данного типа выбирает первые три таксона из набора данных, чтобы сформировать начальную сеть, и затем добавляет оставшиеся таксоны в том порядке, в каком они следуют в наборе данных. Подсчитывается увеличение в результате присоединения таксона к каждой ветви строящейся кладограм-мы и выбирается та ветвь, которая приведет к наименьшему увеличению длины. Одна из разновидностей этой процедуры использует генератор псевдослучайных чисел, чтобы «перетасовать» таксоны в наборе данных перед построением кладограммы.

Более сложная процедура была разработана Фаррисом и названа им «простым алгоритмом» (simple algorithm). При использовании этой процедуры сначала выбирается базисный таксон, обычно первый таксон в наборе данных. Затем вычисляется различие между этим таксоном и каждым из остальных как сумма абсолютных различий между их признаками. Этот показатель называется «индексом продвинутости» (advancement index). Затем строится начальная сеть из базисного таксона и двух ближайших к нему, то есть тех, которые имеют самые низкие индексы продвинутости. Остальные таксоны добавляются к строящейся кладограмме в порядке увеличения индекса продвинутости.

Во всех описанных выше методах порядок добавления таксонов определяется перед построением кладограммы. Своффорд (Swofford, 1993) предложил динамическую процедуру, которую он назвал «подробнейшей» (closest). Она отличается тем, что последовательность добавления переоценивается по мере построения кладограммы. Во-первых, вычисляются длины сетей для всех возможных триад таксонов, и выбирается самая короткая. Затем оценивается каждая комбинация таксон-ветвь и выбирается та, которая дает

наименьшее увеличение длины. Эта процедура требует намного больше времени, чем другие.

Менее сложные методы пошагового добавления осуществляются быстрее, но их неэффективность приводит к тому, что кладограммы могут быть далеки от оптимума. Время выполнения при динамическом пошаговом добавлении может быть чрезмерным при большом количестве таксонов, но это, по-видимому, решаемая проблема, так как скорость компьютерных процессоров постоянно увеличивается.

Стадия пошагового добавления может привести лишь к локальной оптимизации кладограммы. Полученный этим путем результат можно значительно улучшить, выполнив ряд перестановок в кладограмме в надежде найти более короткую топологию. Эти перестановки и называют «обменом ветвей», которые, как и пошаговое добавление, относятся к методам эвристического поиска.

Простейшая перестановка – это обмен ближайших соседей (nearest-neighbour interchange, NNI) или локальный обмен ветвей. Предположим, каждая внутренняя ветвь кладограммы соединяет четыре соседних ветви, по две на каждом конце. На Рис. 8 это A+B, C, D, E+F. В ходе процедуры локального обмена, производится обмен ветви с одного конца дерева на ветвь с другого конца, например C заменяется на E+F или на D. В данном случае для любой внутренней ветви существует только две перестановки подобного рода. Обмен ближайших соседей проводится для всех возможных внутренних ветвей, а длины полученных сетей подсчитываются, чтобы определить, какая из них короче.

С помощью процедуры отсечения и прививания субдеревьев (subtree pruning and regrafting, SPR) от дерева отсекается укорененная субкладограмма (Рис. 9). Затем она по очереди присоединяется к каждой ветви оставшейся кладограммы, и вычисляется длина полученных топологий. Оцениваются все возможные комбинации отсечения и присоединения («прививания»).

Метод рассечения и воссоединения (tree bisection and reconnection, TBR) заключается в том, что отрезанная субкладограмма преобразуется в сеть, а затем снова укоренятся перед тем, как присоединиться к каждой ветви оставшейся кладограммы (Рис. 10). Оцениваются все возможные рассечения, укоренения и воссоединения.

Эффективность этих процедур в обнаружении оптимального набора кладо-грамм возрастает в следующем порядке: обмен ближайших соседей, отсечение и прививание субдеревьев, рассечение и воссоединение. Следует учитывать, что чем более строгий метод обмена ветвей применяется, тем больше требуется времени для вычислений.

4.После того, как с помощью вышеназванных методов поиска программа строит множество возможных кладограмм, из всего их обилия производится отбор наиболее кратких, включающих наименьшее число эволюционных «шагов», т.е. изменений состояния признаков. Так в кладистическом анализе реализуется принцип парсимонии. С его помощью из множества теоретически возможных кладограмм выбираются десятки или даже единицы наиболее вероятных. Этот процесс можно условно назвать взвешиванием филогенетических гипотез. На рис.11 изображена матрица данных и парсимониче-ская кладограмма на ее основе.

Выбор кратчайшей кладограммы существенно усложняется тем фактом, что поведение признаков далеко не всегда так согласовано, как на рис.11. Существует три различных типа отношений признаков друг к другу. Если они в анализируемых группах ведут себя совершенно одинаково, то их именуют конгруэнтными. В том случае, если признаки, не противореча друг другу, определяют разные группы или группу и подгруппу внутри нее, то такие признаки называют консистентным (совместимыми). И, наконец, признаки, определяющие разные, противоречащие друг другу группы, называются конфликтными (противоречивыми).

Если мы добавим в матрицу рис.11 конфликтный признак 5 (рис. 12), то обнаружим, что на ее основе нам не удастся построить кладограмму, в которой признаки не появлялись бы независимо у различных таксонов. В кратчайшей из всех возможных кладограмм, состояние 5(1) возникает независимо у таксонов В и С. Такое независимое возникновение состояний является го-моплазией (см. выше), и рассматривается как результат конвергентной эволюции. Применение принципа парсимонии приводит к минимизации гомо-плазии в создаваемых кладограммах.

Следует учитывать, что вероятность возникновения гомоплазии существенно различается для конкретных признаков. Для того, чтобы адекватно оценить нежелательность гомопластического поведения данного признака, производится процедура оптимизации – усовершенствованное применение принципа парсимонии к оценке кладограмм. Основным критерием оптимизации является цена изменения – показатель числа лишних (гомопластических) шагов, совершаемых в данной кладограмме для достижения всех анализируемых таксонов. Было предложено несколько вариантов оптимизации:

Аддитивная оптимизация или оптимизация Фарриса (англ. Farris optimization) используется для анализа упорядоченных неполяризованных признаков. При этом не накладываются ограничения на возвращения в исходные состояния (реверсии) и повторные возникновения состояний. Цены изменений возрастают лишь в том случае, если изменения на кладограмме не соответствуют определенному порядку трансформации признаков, т.е., например, если производится переход от круглой формы к ланцетной, минуя овальную.

Неаддитивная оптимизация или оптимизация Фитча (англ. Fritch optimization) применяется в работе с неупорядоченными неполяризованными признаками. Любые трансформации состояний признаков признаются возможными без установления дополнительных цен для таких переходов.

Оптимизация Долло (англ. Dollo optimization) использует упорядоченные признаки, которые могут быть поляризованными или неполяризованными. Многократное независимое возникновение признака в разных группах признается недопустимым. Источником гомоплазии считаются реверсии.

Оптимизация Кемина-Сокела (англ. Camin-Sokal optimization) использует упорядоченные поляризованные признаки. Реверсии признаются недопустимыми. Источником гомоплазии считается многократное независимое возникновение признака.

Оптимизация Санкоффа (англ. Sankoff optimization) заключается в том, что ценам всех возможных трансформаций каждого признака заранее при-

дается определенное значение. Это позволяет включить в анализ различные модели эволюционных изменений, например модели замены нуклеотидов.

5.После проведения поиска и оптимизации, исследователь получает в свое распоряжение «парсимоническую» кладограмму. В большинстве случаев, кладограмм минимальной длинны оказывается несколько. На их основании приходится строить единую консенсусную кладограмму. Считается, что именно она наиболее точно отображает реальные филогенетические связи между изучаемыми таксонами.

Существует три основных способа построения консенсусных кладограмм (рис.13).

Строгий консенсус (англ. strict consensus): в обобщающее дерево включаются лишь те соотношения, которые во всех индивидуальных кладограммах выглядят совершенно одинаково. Таксоны, связи между которыми выглядят неоднозначно, оцениваются как нерешенные (англ. unresolved) и обозначаются на кладограмме пучком параллельных ветвей (рис.13б).

Консенсус большинства (англ. majority rule): обобщающее дерево включает монофилетические группы, имеющиеся у более чем 50% исходных деревьев.

Консенсус Адамса (англ. Adams consensus): нестабильные компоненты «сбрасываются» в ближайший объединяющий их узел кладограммы.

6.Полученная консенсусная кладограмма оценивается затем с точки зрения ее стабильности. Для этого используется две процедуры, известные под английскими названиями bootstrap («обувной шнурок») и jackknife («складной нож»)

Метод Bootstrap заключается в том, что в наборе данных часть признаков случайным образом замещается на другие признаки из этого же набора, в результате чего формируется псевдоматрица (рис. 14). Подобным образом генерируется большое число псевдоматриц, обычно 1000 или более. Затем для каждой псевдоматрицы строятся наиболее экономные кладограммы. На основании этих кладограмм по правилу большинства конструируется кон-сенсусное дерево. Это дерево содержит все группировки, встречающиеся более чем в 50% кладограмм, построенных по псевдоматрицам. Процент наиболее экономных кладограмм, в которых обнаружена определенная группа, может рассматриваться как доверительная оценка этой группы. Например, если группа встречается в 95% кладограмм, тогда можно заключить, что степень доверия для этой группы составляет 95%.

В метод складного ножа, признаки не замещаются другими, а просто изымаются из матрицы. В результате псевдоматрица оказывается меньше исходной матрицы. Кроме того, этот метод позволяет изымать из набора данных не только признаки, но и таксоны.

7.Помимо проверки кладограммы на стабильность, производится ее оценка с точки зрения соответствия. Это понятие в кладистике обозначает степень согласования всего комплекса анализируемых данных с полученной кладограммой. Наиболее широко используемой мерой соответствия для дискретных данных является индекс консистентности (ci,англ. consistency index). Он вычисляется по формуле:

где s – это наблюдаемое количество изменений состояний признака, а m – это минимальное количество таких изменений. Значения ci лежат в пределах от 1,00 для абсолютного соответствия до почти 0,00 для самого слабого соответствия.

Индекс консистентности может применяться как к отдельному признаку, так и ко всей совокупности признаков в кладограмме. Последняя мера называется совокупным индексом консистентности (CI). Она является суммой минимальных чисел возможных изменений, деленной на сумму наблюдаемых чисел изменений для всех признаков:

В качестве меры, указывающей на соответсвие полученной кладограммы поляризованности всех признаков в направлении от плезио- к апоморфии, используется остаточный индекс (ri, от англ. retention index). Для отдельного признака он вычисляется по формуле:

где g – это максимальное число шагов возможных для данного признака, s – наблюдаемое число шагов, а m – минимальное число шагов.

Совокупный остаточный индекс (RI), характеризующий все признаки кла-дограммы, может быть вычислен таким же образом, как и совокупный индекс консистентности:

Если ri равен 1, то это показывает, что полярность признака полностью отражена на кладограмме, а меньшие значения индекса указывают на то, что в кладограме допускается вторичное исчезновение апоморфных черт.

8.После проведения всех оценок полученной консенсусной кладограммы, ее узлы отождествляются с различными рангами таксонов. Так создаѐтся иерархическая классификация исследуемых организмов.

⇐ Предыдущая 1 2 3 456 7 8 9 10 11 12 13 14 15 16 Следующая ⇒

Поиск по сайту: