Матрица аминокислотных замен рам 250
Что такое матрицы аминокислотных замен?
Что бы понимать ответ на этот вопрос, нужно понимать смысл применения матриц.
Данные матрицы применяются чуть ли не в каждом алгоритме биоинформатики (а также других отделов вычислительной биологии, например структурной геномики ), хоть как-то связанном со сравнением белковых последовательностей. Именно с помощью этих матриц и происходит основная работа алгоритмов выравнивания, т.к. именно значения, взятые из матриц замен, определяют как будет идти выравнивание.
А именно: матрицы указывают алгоритму какова возможность замены того или иного элемента в последовательности на какой-либо другой с учетом биолого-химических особенностей: от маловероятной до вполне обыденной.
В основе самих матриц замен лежат эмпирические данные, отобранные на основе общих соображений о гомологии белковых последовательностей, т.е. по сути в основе лежат эталонные данные.
Так матрица типа PAM (Point Accepted Mutation, процент допустимых мутаций) основана на данных вероятностей мутаций, приводящих к расхождению в 1 %, после чего полученные данные экстраполируются на больший процент расхождений, путем возведения матрицы в степень n, где n характеризуется требуемым уровнем расхождения последовательностей. [1]
Этот тип матриц разработан Margaret Dayhoff в 1970-х годах.
Матрицы типа BLOSUM основаны на базе данных (матрица замен BLOCKS) эталонных выравниваний белков, заведомо обладающих гомологией.
Матрицы типа PHAT подобны матрицам BLOSUM, но в отличие от них, нормированы, путем выборки исходных последоваетельностей, на которых строится матрица исключително среди мембранных белков, с учетом их биологических и химических особенностей.
Цифры в названиях матриц замен
Для матрицы PAM цифра в названии означает уровень дивергенции исходных последовательностей, т.е. уровень предположительного расхождения последовательностей для которых будет применена матрица.
Для матрицы BLOSUM и PHAT цифра в названии означает процент, при котором (или больше которого) последовательности, на которых строится матрица замен, кластеризуются. Тут уже наоборот: Чем выше чило, тем на данных о более консервативных последовательностях построена матрица замен.
Реконструкция матрицы BLOSUM
Для реконструкции матрицы BLOSUM использовалась последняя база данных BLOCKS.
На основе этой базы данных была построена матрица вероятностей, после чего была нормирована по отношению к статистической вероятности и переводом собственно вероятности замены в вес, применяемый в алгоритмах.
замена на саму себя: велика, т.к. тирозин весьма специфичая и редкая аминокислота, чье сохраниеие на своем месте очень важно
замена на более-менее близкий по хим свойствам фенилаланин(Phe): явная колелляция между моей матрицей и матрицей BLOSUM62, значение матрицы PHAT отличается, но незначительно.
замена на аргинин (Arg),аминокислоту с другой функциональной группой: из таблицы явно видно, что такая замена не характерна ни для одной матрицы, что обусловлено сильным различием в химических свойствах заменяемых аминокислот.
Множественное выравнивание (multiple sequence alignment) – это выравнивание набора из трех и более последовательностей одновременно, при котором элементы в одинаковых позициях группируются в колонки.
Какой биологический смысл должно нести множественное выравнивание? С одной стороны, это эволюционная значимость. Правильное выравнивание должно отражать происхождение данных последовательностей из единой предковой последовательности. Если набор последовательностей не имеет единого предка, то и осмысленного выравнивания этих последовательностей не существует. Однако, в этом случае можно обнаруживать участки локального сходства анализируемых макромолекул. Консервативность этих участков свидетельствует об их функциональной важности – они могут являться элементами вторичной структуры, сайтами связывания лигандов, другими функциональными мотивами [2, 3].
С другой стороны, выравнивание последовательностей белков отражает сходство пространственных структур белков. Аминокислотные остатки, стоящие в одном столбце выравнивания, должны занимать довольно близкое пространственное положение. Множественное выравнивание последовательностей использует больше информации, чем парное, поэтому (теоретически) должно в среднем чаще получаться более биологически осмысленным.
Есть несколько негласных правил при использовании множественного выравнивания.
Выравнивайте белки, а не ДНК, если есть выбор
Лучше брать не более 15 последовательностей.
В выборке лучше избегать:
слишком похожих последовательностей (>90% identically)
слишком разных последовательностей (
неполных последовательностей (фрагментов)
Основная цель множественного выравнивания – это выявление доменов, содержащихся в изучаемой последовательности. Множественное выравнивание может быть как полным, так и частичным.
Реально не существует полных выравниваний. Даже очень хорошая выборка белков не может быть выровнена по всей длине последовательностей. Значит, мы можем говорить лишь о частичных выравниваниях.
Разработаны различные алгоритмические подходы для построения множественного выравнивания. Наиболее часто используется так называемое прогрессивное выравнивание, которое включает следующие этапы:
1) Построить парные выравнивания
2) Построить дерево-подсказку
3) Провести прогрессивное выравнивание по дереву-подсказке
При использовании этого подхода сначала выбираются две наиболее похожие последовательности, которые выравниваются стандартным алгоритмом парного выравнивания. Это выравнивание фиксируется. Далее выбирается третья последовательность, которая «подравнивается» к первому выравниванию, затем 4–я и т.д. до тех пор, пока не будут выровнены все последовательности. При использовании подобного подхода, выравнивание строится в порядке убывания сходства последовательностей (рис. 6).
Рис. 6. Схема алгоритма прогрессивного выравнивания
Пример действия такого алгоритма – результат множественного выравнивания пяти нуклеотидных последовательностей приведен на рисунке 7, а аминокислотных последовательностей на рисунке 8.
Рис. 7 Результат множественного выравнивания пяти нуклеотидных последовательностей
Рис. 8 Результат множественного выравнивания пяти аминокислотных последовательностей
На сегодняшний день множественное выравнивание последовательностей осуществляется несколькими программами доступными в режиме on-line. Одной из наиболее широко используемых реализаций алгоритма прогрессивного множественного выравнивания является программа ClustalW. Это третье поколение программ этой серии, появившейся в 1994 году. Данная версия значительно проще в работе благодаря усовершенствованному алгоритму, основанного на создании множественного выравнивания в результате серий попарных выравниваний, следуя ветвлению направляющего дерева, построенного методом UPGMA. Кроме этого появилась возможность выбирать матрицы сравнения аминокислот и нуклеотидов, а также устанавливать штрафы за внесение пробелов. Следует отметить, что высокая совместимость программ этого поколения с другими пакетами программ обусловлена за счет предоставления результатов выравнивания в виде формата FASTA.
Именно последние программы серии Clustal позволяет создавать наиболее биологически корректные множественные выравнивания биологических последовательностей
Основным предназначением программы ClustalW является построение множественного выравнивания, вычисление эволюционных дистанций между последовательностями, определение характера и типа аминокислотных замен и т. д..
Аминокислоты с близкими биохимическими свойствами, такими как заряд, полярность и т.д. характеризуются большей вероятностью парных замен. Некоторые аминокислоты, например цистеин, глицин, триптофан очень редко заменяются в процессе эволюции. Для того чтобы учесть неравную вероятность замен были разработаны специальные матрицы, которые получили название матрицы замен. Эти матрицы содержат оценки частных весов для любой пары замены аминокислоты (или нуклеотида) i на аминокислоту (или нуклеотид) j. Первыми матрицами были матрицы аминокислотных замен РАМ (табл. 1) [1, 2, 3].
Для их создания были использованы эволюционно близкие последовательности различных белков, таких как гемоглобин, цитохром с, фибриноген и т. д. Для оценки весов использовались средние значения частот, вычисленные на большом наборе данных. По этим данным была построена эмпирическая матрица нормированных весов аминокислотных замен.
Матрица аминокислотных замен рам250
Вес S(i, j) в ячейке i, j таблицы 1 больше нуля означает, что аминокислота i заменяется на j чаще, чем в среднем по всем заменам. То есть эти аминокислоты сравнительно легко заменяют друг друга, т.к. они функционально эквивалентны или по другим причинам. Вес меньше нуля указывает на пары аминокислот, которые сравнительно редко заменяют друг друга [2].
Матрицы PAM различаются по числовым индексам. Например, матрице PAM250, соответствует примерно 20 % идентичности последовательностей, что считается минимальным уровнем сходства, для которого можно надеяться получить правильное выравнивание, основываясь на анализе самих последовательностей без привлечения дополнительной информации, например, пространственной организации белковой глобулы. Расстояние 250 PAM означает, что при эволюции последовательности длиной 100 аминокислотных остатков произошло 250 мутаций в случайных позициях. Поэтому в некоторых позициях мутаций вообще не было, а в некоторых позициях произошло 3 и более мутационных изменения.
Недостатком матриц РАМ является то, что они не очень надежно работают на больших эволюционных расстояниях [3, 5].
Другим широко используемым семейством матриц весов являются матрицы BLOSUM (табл. 2), предложенные в 1992 г. Они построены на основе выравниваний последовательностей с определенной степенью сходства. В матрицах BLOSUM значение веса S (i, j) для каждой ячейки i, j получено из наблюдений частот замен в частичных выравниваниях близких белков. Каждая матрица соответствует специфическому порогу сходства. Например, при построении матрицы BLOSUM62 были использованы последовательности, имеющие более чем 62% сходства [3, 4, 5].
В процессе эволюции все биологические макромолекулы претерпевают множественные мутационные события в ходе молекулярной эволюции. Это приводит к потере или приобретению протяженных кусков последовательности или отдельных точечных мутаций. В общем справедливым будет высказывание, что если биомакромолекулы имеют общие последовательности мономеров, то они, как правило, обнаруживают подобие в структурах и в биологических функциях. Зачастую для таких биомакромолекул обнаруживается и общий предок. В данном случае, говорят, что если два белка или две нуклеотидные последовательности имеют большое сходство, то они являются гомологами, и, как правило, имеют общего предшественника, схожую функцию и похожие структуры [3, 5].
Сравнение двух предположительно гомологичных последовательностей показывает степень их расхождения, то есть силу эволюционных изменений.
Однако не следует забывать, что в биологии из гомологии чаще всего следует подобие функций, тогда как подобие функций может быть следствием как гомологии, так и аналогии.
Гомологичными белками называют белки, чьё происхождение от общего предка доказано. Если же свёртки белков подобны, но первичные последовательности отличны, то такие свёртки считают аналогичными [2].
Для биоинформатики большее значение имеют именно гомологичные последовательности, имеющие общее происхождение (общего предка), сходную 3D-структуру и в той или иной степени похожую аминокислотную последовательность.
Поэтому при доказательстве гомологичности нескольких последовательностей возникает задача установления соответствия друг другу отдельных протяженных участков последовательностей. В этом случае принято говорить о выравнивании последовательностей.
Выравниванием (alignment) последовательностей азотистых оснований в нуклеиновых кислотах или аминокислот в полипептидных цепях белков называют определение взаимного соответствия остатков (нуклеиновых оснований или аминокислотных остатков, соответственно) в двух или нескольких последовательностях, при котором сохраняется исходный порядок остатков в последовательностях [1].
Выравнивание последовательностей – это основной инструмент биоинформатики, его проводят с целью установления структурных, функциональных и эволюционных отношений между последовательностями.
Две последовательности можно «выровнять», написав их гомологичные остатки друг под другом.
При выравнивании двух последовательностей их помещают в две
строки друг над другом, записывая их с помощью букв алфавита.
Выравнивание не должно изменять "смысл" последовательностей, поэтому при выравнивании должна сохраняться последовательность символов в строке и не должно быть перестановок символов.
В простейшем случае выравниваются две последовательности (парное выравнивание (рair sequence alignment)), в более сложных случаях выравнивается целый набор последовательностей (множественное выравнивание (multiple sequence alignment)). Как правило, множественное выравнивание осуществляется на основе результатов парного. Множественное выравнивание (на практике) зачастую конструируется повторным слиянием парных выравниваний для всех последовательностей. Последняя строка, показывающая символы, сохраненные во всех последовательностях выравнивания, называется консенсусом [1, 5].
Результат выравнивания может быть убедительным или сомнительным. Если результат достоверен, то, скорее всего последовательности гомологичны, имеют подобные функции и общего предка.
Для того чтобы найти оптимальное (или наилучшее) выравнивание необходимо определить критерий качества выравнивания как лучший, поскольку в нём получено максимальное число совпадений для нуклеотидов в двух последовательностях и использовано минимальное число вставок.
Оптимальное выравнивание (optimal alignment) – это выравнивание нуклеотидных или белковых последовательностей с самым высоким весом и имеющее биологический смысл. Вес выравнивания рассчитывается исходя из количества замен, с учетом разрывов и т.н. матрицы замен.
Чтобы решить, является ли оно лучшим из всех возможных, необходимо иметь способ систематической проверки всех возможных выравниваний, иметь количественный критерий ("вес" ("weight") или счёт ("score")), по которому возможно сравнивать качество различных выравниваний и определить выравнивание с оптимальным весом (счётом) [1, 5].
При этом от того, какая именно система оценки выбрана для такого сравнения, может зависеть результат сравнения, и даже незначительные изменения в схеме оценки могут изменить рейтинг выравниваний, из-за чего лучшим станет другое выравнивание.
Мера расхождения последовательностей оценивается в единицах РАМ - процент принятых (или зафиксированных) мутаций. Таким образом, две последовательности имеют расстояние 1 РАМ, если они совпадают на 99% (другими словами, зафиксирована одна точечная мутация на 100 аминокислотных остатков).
Для получения матриц РАМ Маргарет Дейхофф оценивала замены аминокислот в группе эволюционирующих белков; при этом были отмечены 1572 замены в 71 группе последовательностей белков, которые были подобны по крайней мере на 85%. Поскольку такого рода замены аминокислот наблюдаются в близкородственных белках, они представляют собой мутации, которые не приводят к значительным изменениям функции белка. Поэтому их и называют "принятыми" (или "зафиксированными") мутациями, поскольку эти замены аминокислот были "приняты" естественным отбором и "зафиксированы" в популяции.
Таблица 8 - Матрица замен аминокислот РАМ30
Таблица 9 - Матрица замен аминокислот РАМ70
Таблица 10 - Матрица замен аминокислот РАМ120
Таблица 11 - Матрица замен аминокислот РАМ250
Вначале подобные последовательности белков были организованы в филогенетическое дерево. Затем было подсчитано число замен каждой аминокислоты на каждую другую аминокислоту. Чтобы сделать эти числа пригодными для анализа последовательностей, была необходима информация об относительной изменчивости (мутабильности, подверженности заменам) каждой аминокислоты.
Относительные мутабильности были оценены путём подсчёта в каждой группе связанных последовательностей числа замен каждой аминокислоты и деления этого числа на величину, названную мутационной экспозицией аминокислоты. Этот фактор равен произведению частот всех замен, произошедших в 100 случайных позициях последовательностей из этой группы. Этот фактор нормализует данные для различных составов аминокислот, частот мутации и длин последовательностей. Затем нормализованные частоты были просуммированы для всех групп последовательностей. Согласно этим подсчётам, аминокислоты аспарагин, серин, аспарагиновая и глутаминовая кислоты были наиболее мутабильными, а цистеин и триптофан - наименее изменчивыми.
На основании полученных таким методом частот замен аминокислот и значений их мутабильности была получена вероятностная матрица мутаций размером 20x20, отражающая все возможные замены аминокислот. Поскольку замена каждой аминокислоты была смоделирована на марковской модели (см. п. 9.3), где мутация в каждом участке независима от предыдущих мутаций, то изменения, предсказанные для более отдалённо связанных белков, которые подверглись многим (N) мутациям, также могли быть рассчитаны.
Согласно этой модели матрицу 1 РАМ можно умножить саму на себя N раз и получить матрицы переходов для сравнения последовательностей со всё более и более низкими уровнями подобия ввиду расхождения в течение более длительных периодов эволюционной истории (по мере возрастания N).
Уровень в 250 РАМ, соответствующий примерно 20% идентичности последовательностей, считается минимальным уровнем сходства, для которого можно надеяться получить правильное выравнивание, основываясь на анализе самих последовательностей без привлечения дополнительной информации, например, пространственной организации белковой глобулы. Расстояние 250 РАМ означает, что при эволюции последовательности длиной 100 аминокислотных остатков произошло 250 мутаций в случайных позициях. Поэтому в некоторых позициях мутаций вообще не было, а в некоторых позициях произошло 3 и более мутационных изменения.
Если бы в природе не происходил естественный отбор, то частоты всех возможных замен аминокислот главным образом зависели бы от частот появления этих аминокислот в последовательности (фоновые частоты). Однако наблюдаемые в родственных белках частоты замен (целевые частоты) обусловлены заменами, которые не вызывают серьёзных нарушений функции белка.
Матрицы РАМ обычно преобразуют в логарифмические матрицы шансов.
Счёт шансов (цена мутации) представляет собой отношение шансов на замену аминокислоты в соответствии с двумя различными гипотезами:
1) наблюдаемая скорость мутаций отражает истинное эволюционное изменение в данном участке (числитель);
2) замена произошла из-за случайной мутации, которая определяется только частотами встречаемости аминокислот и не имеет никакого биологического значения (знаменатель).
Отношения шансов преобразуют к логарифмам, чтобы получить логарифмические счета шансов. В результате этого умножение счетов шансов двух аминокислот в выравнивании удобно заменяется сложением их логарифмов
Величины в ячейках матриц РАМ отражают вероятность мутации. Так, например, в матрице РАМ250 для замены V↔M цена мутации равна +2. Это означает, что в сравниваемых эволюционно родственных последовательностях данная мутация происходит с вероятностью в 1,6 раз выше, чем при случайной мутации. Значение +2 было получено после умножения на 10, поэтому вероятность мутации равна 10 0,2 =1,6.
В матрицах замен аминокислот считается, что вероятность замены аминокислоты А на аминокислоту В всегда равна обратной вероятности замены В на А, поскольку невозможно определить разницу между этими двумя событиями.
Биологическая библиотека - материалы для студентов, учителей, учеников и их родителей.
Наш сайт не претендует на авторство размещенных материалов. Мы только конвертируем в удобный формат материалы, которые находятся в открытом доступе и присланные нашими посетителями.
Если вы являетесь обладателем авторского права на любой размещенный у нас материал и намерены удалить его или получить ссылки на место коммерческого размещения материалов, обратитесь для согласования к администратору сайта.
Разрешается копировать материалы с обязательной гипертекстовой ссылкой на сайт, будьте благодарными мы затратили много усилий чтобы привести информацию в удобный вид.
Читайте также: