Шрифт:
В начале третьего тысячелетия геномика и системная биология полностью преобразили область эволюционных исследований. Доступность множества данных по геномным последовательностям позволила проанализировать и сравнить распределения скоростей эволюции для полных наборов ортологичных генов в различных таксонах, а также изучить взаимосвязи скоростей эволюции ортологов в различных эволюционных линиях. Значения скоростей эволюции по несинонимичным сайтам в ортологичных генах могут различаться на три-четыре порядка, и это распределение значений гораздо шире, чем распределение скоростей по синонимичным сайтам. Замечательно, что формы графиков распределений по ортологичным белкам исключительно похожи, практически одинаковы для всех изученных клеточных форм жизни, от бактерий и архей до млекопитающих (см. рис. 4–2; Grishin et al., 2000; Wolf et al., 2009). Все эти распределения имеют так называемую логарифмически нормальную форму, то есть распределение логарифма эволюционной скорости близко к нормальному (распределению Гаусса, функция плотности вероятности которого имеет колоколообразную форму). В теории случайных процессов такая форма обычно представляет собой результат произведения многих независимых случайных величин. Универсальность функции распределения среди различных организмов, обладающих глубокими различиями в функциональной организации и сильно различающихся по размеру геномов, представляется неожиданной и может указывать на существование фундаментальных, простых объяснений, которые мы и обсудим в этой главе.
Рис. 4–1. Распределения скорости эволюции по несинонимичным и синонимичным сайтам в ортологичных генах человека и мыши: dN = скорость эволюции по несинонимичным сайтам; dS = по синонимичным; pdf = функция плотности вероятности. Данные из Wolf et al., 2009; для расчетов использовался пакет PALM (Yang, 2007)
Рис. 4–2. Распределения скорости эволюции в наборах ортологичных генов бактерий и эукариот; Burkholderia = распределения для ортологов Burkholderia cenocepacia и Burkholderia vietnamiensis (протеобактерия); Homo = для ортологов человека и макаки-резус (приматы). Aspergillus = для ортологов Aspergillus fumigatus и Neosartorya fischeri (аскомицеты). Данные из Lobkovsky et al., 2010; для расчетов использовался пакет PALM (Yang, 2007)
Прогресс в системной биологии позволил измерить корреляции между скоростью эволюции и всеми возможными молекулярно-фенотипическими величинами, такими как уровень экспрессии, концентрации белков, белок-белковые взаимодействия, фенотипический эффект генной мутации и другими (Koonin and Wolf, 2006). Эти поиски корреляций стали практически самостоятельной областью исследований, цель которых, однако, состоит не в описании самих корреляций, а в построении физически осмысленной модели эволюции геномов и феномов. Было найдено много важных корреляций, что позволило увидеть существование некоторых закономерностей, несмотря на «зашумленность» молекулярно-фенотипических данных (особенно данных, полученных на ранних этапах исследований). На рис. 4–3 представлена простая и наглядная, хоть и неизбежно упрощенная общая картина результатов исследований (Wolf et al., 2006). Обобщение результатов показывает, что существуют два обширных класса переменных:
1. Интенсивные, эволюционные переменные – различные скорости геномных изменений, включая эволюцию последовательностей, потерю гена, перестройку генома и другие виды эволюционных процессов.
2. Экстенсивные, фенотипические переменные – скорость экспрессии, скорость трансляции, концентрация белка, частота взаимодействия с другими изучаемыми объектами.
Корреляции внутри каждого из двух классов обычно положительные, а корреляции между двумя классами – отрицательные (рис. 4–3). Эта закономерность предполагает модель «статуса генов», в которой высокостатусные гены эволюционируют медленно, имеют высокий уровень экспрессии и взаимодействуют со многими другими генами. Гены с низким статусом меняются быстро и имеют низкий уровень экспрессии и меньшее число партнеров (рис. 4–4).
Рис. 4–3. Схематическая обобщенная картина корреляций эволюционных и молекулярно-фенотипических переменных.
Сильнейшая, универсальная связь между эволюционными и молекулярно-фенотипическими переменными состоит в отрицательной корреляции скорости эволюции белок-кодирующих генов и уровня экспрессии: высокоэкспрессированные гены эволюционируют медленно. Эта зависимость наблюдается у всех организмов, для которых есть данные по экспрессии генов (Drummond et al., 2006; Drummond and Wilke, 2008; Pal et al., 2001). Поскольку, как отмечено выше, существует положительная корреляция между Ка и Ks, неудивительно, что скорости эволюции синонимических и несинонимических сайтов связаны с уровнем экспрессии гена качественно одним и тем же образом. Более неожиданно то, что зависимость между экспрессией и скоростью эволюции соблюдается и для 3’-нетранслируемого участка (НТУ), хотя и не обнаружена для 5’-НТУ (Jordan et al., 2004). Эта универсальная отрицательная корреляция проявляется еще сильнее, если сравнивать скорость эволюции напрямую с экспериментально измеренными концентрациями белка (Schrimpf et al., 2009).
Открытие универсальной связи между экспрессией генов и их эволюцией стимулировало смелую попытку новой интерпретации, согласно которой эволюция белков определяется в большей степени принципами структуры и укладки белка, общими для всех организмов, чем его уникальными биологическими функциями. Было выдвинуто предположение, впервые – в работе Алана Драмонда и Клауса Вилке, о том, что главным фактором отбора в эволюции белка является его устойчивость к неправильной укладке. Согласно этой гипотезе, влияние мутации, как геномной, так и фенотипической (вызванной ошибками трансляции), на приспособленность организма в первую очередь рассматривается как следствие отрицательного эффекта от неправильной укладки белка, которая, помимо вызываемых ею энергетических издержек, может быть еще и токсичной для клетки (Drummond et al., 2005; Drummond and Wilke, 2008). Не углубляясь в детали, заметим, что эта интуитивно привлекательная модель может естественным образом объяснить отрицательную корреляцию между экспрессией генов и эволюцией генных последовательностей: очевидно, что негативный эффект от неправильной укладки должен быть выше для высокоэкспрессированных белков, чем для белков, производимых в небольших количествах. Другими словами, уровень экспрессии – это линза, которая увеличивает любое негативное влияние на приспособленность, связанное с данной последовательностью белков, и важнейшее из таких влияний обусловлено неправильной укладкой белка. Таким образом, гены высокоэкспрессируемых белков подвергаются большим ограничениям, следствием чего является низкая скорость их эволюции. Эта гипотеза совместима с твердо установленным принципом предпочтительного выбора кодона (среди синонимичных кодонов чаще встречается оптимальный) [37] в высокоэкспрессируемых и высококонсервативных белок-кодирующих генах, а также с положительной корреляцией между Ka и Ks. Согласно гипотезе эволюции, движимой ошибками укладки, эволюция синонимичных сайтов ограничена, по крайней мере частично, теми же самыми факторами, что и эволюция последовательности белка, поскольку выбор оптимального кодона, обеспечивающий более быструю и точную трансляцию, особенно важен для высокоэкспрессированных белков и для тех конкретных позиций, которые влияют на укладку белка. Таким же образом можно объяснить и эволюцию 3-НТУ – этот нетранслируемый участок используется для регуляции процесса трансляции.
37
Эволюция выбора кодонов – сложная и интересная проблема, которую мы здесь не можем рассмотреть сколько-нибудь детально (см.: Plotkin JB, Kudla G. Synonymous but not the same: the causes and consequences of codon bias Nat Rev Genet. 2011 Jan;12(1):32–42). Отметим лишь, что, как правило, оптимальный кодон соответствует наиболее высоко экспрессируемой тРНК для данной кодонной серии.
Рис. 4–4. Модель «статуса генов».
В работе, выполненной совместно с Александром Лобковским и Юрием Вульфом, мы задались вопросом, не удастся ли в данном случае убить двух зайцев, то есть возможно ли объяснить эволюцию белок-кодирующих генов и практически повсеместную отрицательную корреляцию между эволюционными скоростями и уровнем экспрессии в рамках одной простой модели (Lobkovsky et al., 2010). В анализе эволюции, ведомой ошибками укладки, проводимом для «безрешеточной» [38] модели укладки белка, были получены оценки эволюционных скоростей для гипотетического случая, в котором ошибки укладки белка являются единственным фактором, влияющим на приспособленность организма. Результаты анализа воспроизвели, и весьма точно, универсальное распределение эволюционных скоростей белков, а также зависимость между скоростью эволюции и экспрессией. Этот результат позволяет предположить, что универсальный закон распределения скоростей эволюции и в самом деле вытекает из фундаментальных физических принципов укладки белка.
38
В простейших моделях процесс укладки белка имитируется посредством подгонки модельной последовательности на ортогональной решетке. В более реалистичных (или, вернее, менее нереалистичных) моделях от решетки отказываются в пользу свободной укладки модельной полимерной цепи. Эта техника более приближена к реальному процессу укладки белка, но и требует больше вычислительных ресурсов. По ряду соображений точность решеточной модели показалась слишком низкой для обсуждаемого здесь вопроса, поэтому мы использовали безрешеточную модель.