Понятие биоинформатики

Под биоинформатикой обычно понимают использование компьютеров для решения биологических задач. В настоящее время это почти исключительно задачи молекулярной биологии. Причина этого в том, что за последние 20-25 лет накоплен поистине колоссальный экспериментальный материал именно о строении и функционировании биологических молекул (белков и нуклеиновых кислот), в качестве примера достаточно привести геном человека. Этот материал требует развитых компьютерных методов для своего анализа. Поэтому биоинформатика в большинстве мировых научных центров понимается как синоним вычислительной молекулярной биологии.

Есть несколько основных направлений этого раздела науки, в зависимости от

исследуемых объектов:

  • * Биоинформатика последовательностей.
  • * Структурная биоинформатика.
  • * Компьютерная геномика

Основные направления биоинформатики в зависимости от исследуемых объектов

Биоинформатика последовательностей

Биоинформатика последовательностей

Наиболее известной и наиболее эффективной областью применения биоинформатики в настоящее время является анализ геномов, тесно связанный с анализом последовательностей.

Этот раздел биоинформатики занимается анализом нуклеотидных и белковых последовательностей. В настоящее время разработаны эффективные экспериментальные методы определения нуклеотидных последовательностей. Определение нуклеотидных последовательностей стало рутинной хорошо автоматизированной процедурой. В результате рутинной хорошо автоматизированной процедуры уже получено огромное количество генетических текстов. Так, в базе данных EMBL на 15.02.2007 г. хранится 87000 493 документов с описанием нуклеотидных последовательностей, содержащих в целом 157545686001 символов (нуклеотидов), что соответствует примерно библиотеке в 105 толстых томов с убористым шрифтом. Найти нужный ген в EMBL, это все равно, что найти цитату в такой библиотеке. Без помощи компьютера сделать это , мягко говоря, очень трудно. А число данных экспоненциально растет.

Представим себе геном небольшой бактерии - это непрерывная строка длиной в 1-10миллионов символов символов, и далеко не вся ДНК кодирует белки. Первый тип биоинформатической задачи - это задачи поиска в нуклеотидных последовательностях особых участков, участков, кодирующих белки, участков, кодирующих РНК (например, тРНК), участков связывания с регуляторными белками и др. И это не всегда простые задачи, например, гены эукариотических организмов состоят из чередующихся "осмысленных" и "бессмысленных" фрагментов (экзонов и интронов), и расстояние между "осмысленными" фрагментами может достигать тысяч нуклеотидов.

Пусть ген найден. Что он кодирует? Зачем он нужен?

Если речь идет об участке ДНК, кодирующем белок, то с помощью весьма простой операции - трансляции с использованием известного генетического кода можно получить. аминокислотные (белковые) последовательности. Из известных на сегодня 4 273 512 белков около 94% последовательностей - это именно такие гипотетические трансляты, и больше о них ничего не известно. Скорость поступления информации с автоматических секвенаторов превышает скорость нашего понимания ее смысла! Но биологические объекты - это объекты, возникшие в процессе эволюции. Сравнительно-эволюционный подход - один из мощнейших подходов в биологии. Например, функция белка из одного организма хорошо экспериментально изучена, в другом организме нашли белок с похожей аминокислотной последовательностью. Можно предположить, что второй (неизвестный) белок выполняет ту же или схожую функцию. И здесь сразу возникает несколько вопросов. Во-первых, что значит похожая последовательность? Как сравнивать последовательности? При какой степени сходства последовательностей можно предполагать, что белки выполняют сходные функции? Сравнение последовательностей (выравнивание) является важнейшей задачей биоинформатики. Трудно найти современного биолога, ни разу не использовавшего программы Blastp и ClustalX, появление этих программ - уже крупный успех биоинформатики. Но современные биоинформатики недовольны и постоянно совершенствуют методы выравниваний. Можно привести много примеров того, как сравнительно-эволюционный подход в сочетании с биоинформатическими методами порождает новое биологическое знание.

Генетические тексты - тексты с большой долей шума, сравнивая родственные последовательности, в ряде случаев удается отфильтровать шум и выявить сигнал, например, короткую последовательность нуклеотидов, способную связываться с белком- регулятором, или аминокислотные остатки в ферменте, отвечающие за связывание субстрата. Чтобы быть уверенными в результате, биоинформатики используют теорию вероятности и математическую статистику. Подводя итог, можно сказать, что основные задачи биоинформатики, связанные с анализом отдельных последовательностей, состоят в следующем:

  • * Выравнивание и определение сходства двух последовательностей
  • * Построение множественных выравниваний
  • * Распознавание генов
  • * Предсказание сайтов связывания регуляторных белков
  • * Предсказание вторичной структуры РНК

Создание новых экспериментальных технологий ставит перед биоинформатикой целый ряд новых задач. Например, развитие масс-спектрометрии позволяет (пока в принципе) в одном эксперименте проанализировать весь набор белков, присутствующий в клетке. Для решения этой задачи необходим совместный анализ спектров масс и геномов. Открытие новых биологических явлений и механизмов также приводит к появлению новых задач. Хорошим примером служит открытие РНК интерференции, за которую в 2006 году дали Нобелевскую премию по физиологии. Это открытие породило целый вал биоинформатических работ, посвященных поиску участков связывания микроРНК и новых микроРНК. Многие находки были затем подтверждены экспериментально.

 
< Пред   СОДЕРЖАНИЕ   Загрузить   След >