Точное число генов у человека. Сколько у нас генов

Статья на конкурс «био/мол/текст»: Это интересный вопрос, ответ на который должен был дать проект «Геном человека», завершившийся в 2003 году. После того как ученые получили основную информацию о геноме человека, они попытались определить число генов, но эта задача оказалось не такой простой. Цель настоящей статьи - суммировать и проанализировать научные данные по составлению каталога генов у человека.

Генеральный спонсор конкурса - компания «Диаэм» : крупнейший поставщик оборудования, реагентов и расходных материалов для биологических исследований и производств.


Спонсором приза зрительских симпатий выступил медико-генетический центр .


«Книжный» спонсор конкурса - «Альпина нон-фикшн »

Как же мало известно о генах! Первый раз я остро ощутила это, находясь на практике в лаборатории медицинской генетики Харбинского медицинского университета. Исследовательская группа, где я проходила стажировку, занималась изучением онкогена Sei-1, который индуцирует образование двухминутных хромосом (DM), что способствует развитию онкогенеза. Однако механизм образования онкогена Sei-1 остается неизвестным до сих пор. А ведь различные мутации генов являются причиной возникновения и других опасных заболеваний человека, помимо рака. Итак, в данной статье мы изложим некоторые соображения о том, почему мы все еще многое не знаем о генах, а также сформулируем наше мнение о том, сколько генов у человека.

Проект «Геном человека» и полный список генов

Выявление полного списка генов необходимо для выяснения молекулярных механизмов возникновения и развития рака, шизофрении , деменции , а также многих других заболеваний человека. Секвенирование ДНК, выделенной из тканей больных, позволяет выявлять такие мутации, как нуклеотидные замены, делеции и вставки, ответственные за возникновение этих заболеваний.

Собственно, ради этого и затевался проект «Геном человека» (Human genome project, HGP ), который продолжался с 1990 по 2003 год. Его основной задачей было определение нуклеотидной последовательности ДНК человека и локализации 100 000 человеческих генов (как тогда полагали) . Параллельно с этим планировалось изучить ДНК набора модельных организмов, чтобы получить сравнительную информацию, необходимую для понимания функционирования генома человека. Предполагалось, что информация, полученная в результате HGP, станет настольной книгой для биомедицинской науки в XXI веке . Целями данных исследований являлось получение информации о причинах ряда болезней и, в конечном итоге, разработка способов лечения более чем 4000 генетических заболеваний, которые затрагивают человечество, включая многофакторные, в которых генетическая предрасположенность играет важную роль. Считалось, что результаты секвенирования генома позволят определить локализацию каждого гена и их общее количество. Однако последовавшие за этим события доказали обратное: сегодня существует несколько баз данных генов, которые существенно отличаются друг от друга. Причем число белок-кодирующих генов совпадает, а число генов других типов расходится.

Проект «Протеом человека»

В 2010 году по инициативе Организации по изучению протеома человека (Human proteome organization , HUPO ) был начат проект «Протеом человека » (HPP ), целью которого является создание полного списка белков вида Homo sapiens . Для этого, во-первых, предполагается идентифицировать и охарактеризовать, по крайней мере, по одному белковому продукту белок-кодирующих генов, их однонуклеотидные полиморфизмы и варианты сплайсинга, а также виды посттрансляционной модификации белков . Во-вторых, данные протеомики, полученные в результате реализации HPP, способствуют, в дополнение к геномным данным, решению различных биомедицинских задач и созданию новых аннотированных баз знаний, таких как neXtProt .

В настоящее время neXtProt содержит информацию о 17 487 белках, существование которых экспериментально подтверждено, 1728 белках, подтвержденных на уровне транскриптов, 515-и, определенных на основании гомологии, 76-и предсказанных и 571-м неизвестной природы. Особый интерес вызывают белки, существование которых экспериментально не доказано, хотя данные о том, что они кодируются геномом, существуют. Это так называемые «потерянные» белки, которые составляют примерно 18% всех кодируемых белков. Для выявления и характеристики таких белков создан ресурс MissingProteinPedia .

«Протеом человека» является продолжением проекта «Геном человека». Предполагается, что благодаря проекту по изучению протеома мы узнаем точное количество белок-кодирующих генов, что впоследствии позволит понять, сколько всего генов у человека.

Немного о РНК

Проект «Геном человека» показал, что молекулы РНК также важны для жизни, как и ДНК. Внутри клеток существует множество РНК (рис. 2). Изначально РНК подразделяются на некодирующие РНК (нкРНК ), которые не транслируются в белки, и кодирующие РНК (мРНК ), служащие матрицей для синтеза полипептидных цепей белка. Некодирующие РНК имеют более сложную классификацию. Они бывают инфраструктурными и регуляторными. Инфраструктурные РНК представлены рибосомными РНК (рРНК) и транспортными РНК (тРНК). Молекулы рРНК синтезируются в ядрышке и составляют основу рибосомы, а также кодируют белки субъединиц рибосомы. После того, как рРНК полностью собраны, они переходят в цитоплазму, где в качестве ключевых регуляторов трансляции, участвуют в чтении кода мРНК. Последовательность из трех азотистых оснований в мРНК указывает на включение определенной аминокислоты в последовательность белка. Молекулы тРНК, приносят указанные аминокислоты на рибосомы, где синтезируется белок.

Дополнительно о РНК читайте в статьях «Биомолекулы»: «Обо всех РНК на свете, больших и малых », «Кодирующие некодирующие РНК » и «Власть колец: всемогущие кольцевые РНК » .

Рисунок 2. Виды РНК

Регуляторные нкРНК очень широко представлены в организме, классифицируются в зависимости от размера и выполняют ряд важных функций (табл. 1).

Таблица 1. Некодирующие регуляторные РНК
Название Обозначение Длина Функции
Длинные некодирующие РНК днкРНК, lncRNA 200 нуклеотидов 1. Регулируют избирательное метилирование ДНК, направляя ДНК-метилтрансферазу
2. Руководят избирательной посадкой репрессорных комплексов polycomb
Малые РНК Малые ядерные РНК мяРНК, snRNA 150 нуклеотидов 1. Участвуют в сплайсинге
2. Регулируют активность факторов транскрипции
3. Поддерживают целостность теломер
Малые ядрышковые РНК мякРНК, snoRNA 60–300 нуклеотидов 1. Участвуют в химической модификации рРНК, тРНК и мяРНК
2. Возможно, участвуют в стабилизации структуры рРНК и защите от действия гидролаз
Малые интерферирующие РНК миРНК, siRNA 21–22 нуклеотидов 1. Осуществляют антивирусную иммунную защиту
2. Подавляют активность собственных генов
Микро-РНК мкРНК, miRNA 18–25 нуклеотидов Подавляют трансляцию путем РНК-интерференции
Антисмысловые РНК asRNA 1. Короткие: менее 200 нуклеотидов
2. Длинные: более 200 нуклеотидов
Блокируют трансляцию, образуя гибриды с мРНК
РНК, связанные с белками Piwi piRNA, piwiRNA 26–32 нуклеотидов Их также называют «стражами генома», они подавляют активность мобильных генетических элементов во время эмбриогенеза

Проблема терминологии

Прежде чем ответить на вопрос: «Сколько у нас генов?», нужно понять, что же такое ген?

Основное внимание HGP было направлено на белок-кодирующие гены . Однако, как было указано в первоначальном докладе HGP в 2001 году, «тысячи генов человека продуцируют некодирующие РНК (нкРНК), являющиеся их конечным продуктом », хотя на тот момент было известно около 706 генов нкРНК . В своей недавней статье, опубликованной в журнале BMC Biology Стивен Зальцберг (Steven L. Salzberg ) дает следующее определение гена :

Ген любой участок хромосомной ДНК, который транскрибируется в функциональную молекулу РНК или сначала транскрибируется в РНК, а затем транслируется в функциональный белок.

Это определение включает как гены некодирующих РНК, так и белок-кодирующие гены, и позволяет определять все варианты альтернативного сплайсинга в одном локусе как варианты одного и того же гена. Это позволяет исключить псевдогены – нефункциональные остатки структурных генов, утратившие способность кодировать белок.

Результаты двух первых исследований свидетельствовали о наличии у человека 31 000 и 26 588 белок-кодирующих генов , а в 2004 появилась полная последовательность генома человека , и авторы подсчитали, что полный каталог насчитывает 24 000 белок-кодирующих генов. Каталог человеческих генов Ensembl включает 22 287 белок-кодирующих генов и 34 214 транскриптов .

Секвенирование нового поколения (NGS)

Появление высокопроизводительных методов параллельного секвенирования (в ходе такого секвенирования миллионы фрагментов ДНК из одного образца секвенируются одновременно) или секвенирования нового (следующего) поколения (next-generation sequencing, NGS ) позволило значительно ускорить поиск функциональных участков генома . Биотехнологические компании разработали и коммерциализировали различные платформы для NG-секвенирования, позволяющие секвенировать от 1 млн до десятков млрд коротких последовательностей (ридов, reads ) длиной 50–600 нуклеотидов каждая. К наиболее популярным платформам относятся такие, как Illumina и IonTorrent , использующие амплификацию ДНК с помощью ПЦР , а также платформы одномолекулярного секвенирования, такие как Helicos Biosciences HeliScope , Pacific Biosciences SMRT (single molecule real-time sequencing ), и нанопорового секвенирования Oxford Nanopore , осуществляющие секвенирование в реальном времени и позволяющие прочитывать значительно более длинные риды - до 10–60 тыс. нуклеотидов. Кроме того, изобретение секвенирования РНК (RNA-seq ) в 2008 году, которое создавалось для количественного определения экспрессии генов, также способствовало обнаружению транскрибируемых последовательностей, как кодирующих, так и некодирующих РНК .

Благодаря NGS, базы данных днкРНК и других генов РНК (таких как микро-РНК) резко выросли за десятилетие, и текущие каталоги генов человека теперь содержат больше генов, кодирующих РНК, чем белки (табл. 2).

Таблица 2. Количество разных типов генов в следующих базах данных: Gencode , Ensembl , RefSeq , CHESS
Типы генов Gencode Ensembl RefSeq CHESS
Белок-кодирующие гены 19 901 20 376 20 345 21 306
Гены длинных некодирующих РНК 15 779 14 720 17 712 18 484
Антисмысловые РНК 5501 - 28 2694
Другие некодирующие РНК 2213 2222 13 899 4347
Псевдогены 14 723 1740 15 952 -
Общее число транскриптов 203 835 203 903 154 484 323 827

В ходе секвенирования РНК обнаружилось, что альтернативный сплайсинг, альтернативное инициирование транскрипции и альтернативное прерывание транскрипции проиcходят гораздо чаще, чем полагали, затрагивая до 95% человеческих генов. Следовательно, даже если известно местоположение всех генов, сначала нужно выявить все изоформы этих генов, а также определить, выполняют ли эти изоформы какие-либо функции или они просто представляют собой ошибки сплайсинга.

Базы данных генов человека

Задача по составлению каталога всех генов по-прежнему не решена. Проблема заключается в том, что за последние 15 лет только две исследовательские группы составили список доминантных генов: RefSeq , которая поддерживается Национальным центром биотехнологической информации (NCBI ) при Национальных институтах здоровья (NIH ), и Ensembl/Gencode , которая поддерживается Европейской молекулярно-биологической лабораторией (EMBL ). Однако, несмотря на большой прогресс, сейчас в каталогах различается количество белок-колирующих генов, генов длинных некодирующих РНК, псевдогенов, а также варьирует количество антисмысловых РНК и других некодирующих РНК (табл. 2). Каталоги еще дорабатываются: например, в прошлом году сотни генов, кодирующих белок, были добавлены или удалены из списка Gencode . Эти разногласия объясняют проблему создания полного каталога человеческих генов.

В 2017 году была создана новая база данных генов человека - CHESS . Примечательно, что она включает все белок-кодирующие гены как Gencode , так и RefSeq , так что пользователям CHESS не нужно решать, какую базу данных они предпочитают. Бóльшее количество генов может вызывать больше ошибок, но создатели считают, что бóльший набор окажется полезным при исследовании болезней человека, которые еще не отнесены к генетическим. Набор генов CHESS в настоящее время в версии 2.0 еще не окончательный, и, безусловно, создатели работают над его усовершенствованием.

С самого начала определимся, что мы здесь будем подразумевать под словом геном . Сам этот термин впервые был предложен в 1920 году немецким генетиком Г. Винклером. Тогда уже существовал другой научный термин - генотип , введенный в арсенал генетиков В. Иогансеном еще в 1909 году, под которым подразумевалась совокупность всех наследственных задатков данной конкретной клетки или данного конкретного организма. Впоследствии Иогансен сам с удивлением говорил, что его «словечко» неожиданно материализовалось в возникшей позднее хромосомной теории Т. Моргана. Но вот появился новый термин - геном. В отличие от генотипа этот термин должен был стать характеристикой целого вида организмов, а не конкретной особи . И это стало новым этапом в развитии генетики.

В биологическом словаре понятие геном определяется как совокупность генов, характерных для гаплоидного (одинарного) набора хромосом данного вида организмов. Такая формулировка звучит не совсем понятно для неспециалиста, а главное, она неточна в современном понимании этого слова. Основу генома составляет молекула дезоксирибонуклеиновой кислоты, хорошо известная в сокращенном виде как ДНК. Ведь все геномы (ДНК) содержат по крайней мере два вида информации: кодированная информация о структуре молекул-посредников (так называемых РНК) и белка (эта информация содержится в генах), а также инструкции, которые определяют время и место проявления этой информации при развитии и дальнейшей жизнедеятельности организма (эта информация в основном расположена в межгенных участках, хотя частично и в самих генах). Сами гены занимают очень небольшую часть генома, но при этом составляют его основу. Информация, записанная в генах, - это своего рода «инструкция» для изготовления белков, главных строительных кирпичиков нашего тела. «На плечах» генов лежит огромная ответственность за то, как будет выглядеть и работать каждая клетка и организм в целом. Они управляют нашей жизнью от момента зачатия до самого последнего вздоха, без них не функционирует ни один орган, не течет кровь, не бьется сердце, не работают печень и мозг.

Однако для полной характеристики генома недостаточно заложенной в нем информации о структуре белков. Нужны еще данные об элементах генетического аппарата, которые принимают участие в работе (экспрессии ) генов, регулируют их проявление на разных этапах развития и в разных жизненных ситуациях.

Но даже и этого мало для полного определения генома. Ведь в геноме присутствуют также элементы, способствующие его самовоспроизведению (репликации ), компактной упаковке ДНК в ядре и еще какие-то непонятные пока еще участки, иногда называемые «эгоистичными» (то есть как бы служащими только для самих себя). По всем этим причинам сегодня, когда речь идет о геноме, обычно имеют в виду всю совокупность последовательностей ДНК, представленных в хромосомах ядер клеток определенного вида организмов, включая, конечно, и гены. В этой книге мы будем подразумевать именно такое определение. Вместе с тем следует помнить, что в некоторых других структурах (органеллах) клетки также присутствует генетическая информация, необходимая для функционирования организмов. В частности, у всех животных организмов, в том числе и у человека, имеется еще и митохондриальный геном, то есть молекулы ДНК, присутствующие в таких внутриклеточных структурах, как митохондрии, и содержащие ряд так называемых митохондриальных генов. Митохондриальный геном человека очень небольшой по сравнению с ядерным геномом, расположенным в хромосомах, но, тем не менее, его вклад в клеточный метаболизм весьма существенен.

Понятно, что знание одной лишь структуры ДНК вовсе не достаточно для полного описания наследственной системы клетки. Этому выводу в литературе дана следующая аналогия: сведения о числе и форме кирпичей не могут раскрыть замысла готического собора и хода его постройки. В более широком смысле наследственную систему клетки составляют не только структура ДНК, но и другие ее компоненты, совокупность которых и факторы окружающей среды определяют, как геном будет работать, как пойдет ход индивидуального развития и как возникший организм будет жить потом.

Геном человека - геном биологического вида Homosapiens . В большинстве нормальных клеток человека содержится полный набор составляющих геном 46 хромосом: 44 из них не зависят от пола (аутосомные хромосомы), а две - X-хромосома и Y-хромосома - определяют пол (XY - у мужчин или ХХ - у женщин). Хромосомы в общей сложности содержат приблизительно 3 миллиарда пар оснований нуклеотидовДНК, образующих 20 000-25 000. В ходе выполнения проекта «Геном человека» содержимое хромосом находящихся в стадии интерфаза в клеточном ядре (вещество эухроматин), было выписано в виде последовательности символов. В настоящее время эта последовательность активно используется по всему миру в биомедицине. В ходе исследований выяснилось, что человеческий геном содержит значительно меньшее число генов, нежели ожидалось в начале проекта. Только для 1,5 % всего материала удалось выяснить функцию, остальная часть составляет так называемую мусорную ДНК . В эти 1,5 % входят гены, которые кодируют РНК и белки, а также их регуляторные последовательности, интроны и, возможно, псевдогены.

Геном человека состоит из 23 пар хромосом (в сумме 46 хромосом), где каждая хромосома содержит сотни генов разделённых межгенным пространством . Межгенное пространство содержит регуляторные участки и ничего не кодирующую ДНК.

В геноме присутствует 23 пары различных хромосом: 22 из них не влияют на пол, а две хромосомы (X и Y) задают пол. Хромосомы с 1-й по 22-ю пронумерованы в порядке уменьшения их размера. Соматические клетки обычно имеют 23 хромосомных пары: по одной копии хромосом с 1-й по 22-ю от каждого родителя соответственно, а также X хромосому от матери и Y или X хромосому от отца. В общей сложности получается, что в соматической клетке содержится 46 хромосом.

По результатам проекта Геном человека, количество генов в геноме человека составляет около 28000 генов. Начальная оценка была более чем 100 тысяч генов. В связи с усовершенствованием методов поиска генов (предсказание генов) предполагается дальнейшее уменьшение числа генов.

Интересно,что число генов человека не намного превосходит число генов у более простых модельных организмов, например, круглого червя Caenorhabditiselegans или мухи Drosophilamelanogaster . Так происходит из-за того, что в человеческом геноме широко представлен альтернативный сплайсинг. Альтернативный сплайсинг позволяет получить несколько различных белковых цепочек с одного гена. В результате человеческийпротеом оказывается значительно больше протеома рассмотренных организмов. Большинство человеческих генов имеют множественныеэкзоны, и интроны часто оказываются значительно более длинными, чем граничные экзоны в гене.

Гены неравномерно распределены по хромосомам. Каждая хромосома содержит богатые и бедные генами участки. Эти участки коррелируют с хромосомными бандами (полосы поперёк хромосомы, которые видно в микроскоп) и с CG-богатыми участками. В настоящий момент значимость такого неравномерного распределения генов не вполне изучена.

Кроме кодирующих белок генов человеческий геном содержит тысячи РНК-генов, включая транспортную РНК (tRNA), рибосомную РНК, микро РНК (microRNA) и прочие не кодирующие белок РНК последовательности.


Похожая информация.


Проект «Геном человека» является наиболее амбициозной биологической исследовательской программой за всю историю науки. Знание генома человека внесет неоценимый вклад в развитие медицины и биологии человека. Исследования человеческого генома так же необходимо человечеству, как когда-то было необходимо знание человеческой анатомии. Осознание этого пришло в 1980-х, и это привело к тому, что появился проект «Геном человека». В 1988-м с аналогичной идеей выступил выдающийся российский молекулярный биолог и биохимик, академик А. А. Баев (1904–1994). С 1989 г. и в США, и в СССР функционируют соответствующие научные программы; позднее возникла Международная организация по изучению генома человека (HUGO). Вклад России в международное сотрудничество признан в мире: 70 отечественных исследователей являются членами HUGO.

Итак, прошло 10 лет с того времени, когда проект «Геном человека» был завершен. Есть повод вспомнить, как это было...

В 1990 г. при поддержке министерства энергетики США, а также Великобритании, Франции, Японии, Китая и Германии, был запущен этот трехмиллиардный проект. Возглавил его д-р Фрэнсис Коллинз, глава . Целями проекта являлись:

  • идентификация 20 000–25 000 генов ДНК;
  • определение последовательности 3 млрд. пар химических оснований, составляющих ДНК человека, и сохранение этой информации в базе данных;
  • усовершенствование приборов для анализа данных;
  • внедрение новейших технологий в область частного использования;
  • исследование этических, правовых и социальных вопросов, возникающих при расшифровке генома.

В 1998 г. аналогичный проект был запущен д-ром Крейгом Вентером и его фирмой «Celera Genomics ». Д-р Вентер поставил перед своей командой задачу более быстрого и дешевого секвенирования человеческого генома (в отличие от трехмиллиардного международного проекта, бюджет проекта д-ра Вентера ограничивался 300 млн долл.). Кроме того, фирма «Celera Genomics » не собиралась открывать доступ к своим результатам.

6 июня 2000 г. президент США и премьер-министр Великобритании объявили о расшифровке человеческого генетического кода, и таким образом соревнование закончилось. На самом деле, был опубликован рабочий черновик человеческого генома, и лишь к 2003 г. он был расшифрован практически полностью, хотя и сегодня все еще проводят дополнительный анализ некоторых участков генома.

Тогда умы ученых были взбудоражены необыкновенными возможностями: новые, действующие на генетическом уровне лекарства, а значит, не за горами создание «персональной медицины», настроенной точно под генетический характер каждого отдельно взятого человека. Существовали, конечно, и опасения, что может быть создано генетически зависимое общество, в котором людей буду делить на высшие и низшие классы по их ДНК и соответственно ограничивать их возможности. Но все же была надежда, что этот проект окажется столь же прибыльным, сколь и Интернет.

И вдруг все затихло... надежды не оправдались... казалось, что 3 млрд долл., вложенных в эту затею, выброшены на ветер.

Нет, не совсем так. Быть может, полученные результаты не столь грандиозны, как предполагалось во времена зарождения проекта, но они позволят достичь в будущем значительных успехов в различных областях биологии и медицины.

В результате исполнения проекта «Геном человека» был создан открытый банк генокода. Общедоступность полученной информации позволила многим исследователям ускорить свою работу. Ф. Коллинз привел в качестве иллюстрации такой пример: «Поиск гена фиброзно-кистозной дегенерации был успешно завершен в 1989 г., что стало результатом нескольких лет исследований моей лаборатории и еще нескольких других и стоило США около 50 млн долл. Сейчас это способен сделать смышленый выпускник университета за несколько дней, и все, что ему понадобится, - это Интернет, несколько недорогих реактивов, термоциклический аппарат для увеличения специфичности сегментов ДНК и доступ к ДНК-секвенатору, читающему ее по световым сигналам».

Еще один важный результат проекта - дополнение истории человека. Раньше все данные об эволюции были почерпнуты из археологических находок, а расшифровка генокода не только дала возможность подтвердить теории археологов, но в будущем позволит точнее узнать историю эволюции как человека, так и биоты в целом. Как предполагается, анализ сходства в последовательностях ДНК различных организмов сможет открыть новые пути в исследовании теории эволюции, и во многих случаях вопросы эволюции теперь можно будет ставить в терминах молекулярной биологии. Такие важнейшие вехи в истории эволюции, как появление рибосомы и органелл, развитие эмбриона, иммунной системы позвоночных, можно будет проследить на молекулярном уровне. Ожидается, что это позволит пролить свет на многие вопросы о сходстве и различиях между людьми и нашими ближайшими сородичами: приматами, неандертальцем (чей генокод недавно был реконструирован из 1,3 млрд фрагментов, подвергавшихся тысячелетнему разложению и загрязненных генетическими следами археологов, державших в руках останки этого существа), а также и всеми млекопитающими, и ответить на вопросы: какой же ген делает нас Homo sapiens , какие гены отвечают за наши поразительные таланты? Таким образом, поняв, как прочитать информацию о нас в генокоде, мы сможем узнать, как гены влияют на физические и умственные характеристики и даже на наше поведение. Возможно, в будущем, посмотрев на генетический код, можно будет не только предсказать, как будет выглядеть человек, но и, к примеру, будет ли у него актерский талант. Хотя, естественно, никогда нельзя будет это определить со 100%-ной точностью.

Кроме того, межвидовое сравнение покажет, чем отличается один вид от другого, как они разошлись на эволюционном древе. Межпопуляционное сравнение покажет, как этот вид эволюционирует. Сравнение ДНК отдельных особей внутри популяции покажет, чем объясняется различие особей одного вида, одной популяции. Наконец, сравнение ДНК различных клеток внутри одного организма поможет понять, как происходит дифференцирование тканей, как они развиваются и что идет не так в случае заболеваний, таких например, как рак.

Вскоре после расшифровки большей части генокода в 2003 г., ученые обнаружили, что существует гораздо меньше генов, чем они ожидали, но впоследствии убедились в противоположном. Традиционно ген определяли как участок ДНК, который кодирует белок. Однако, расшифровывая генокод, ученые выяснили, что 98,5% участков ДНК не кодируют белки, и назвали эту часть ДНК «бесполезной». И выяснилось, что эти 98,5% участков ДНК имеют едва ли не большее значение: именно эта часть ДНК отвечает за ее функционирование. Например, определенные участки ДНК содержат инструкции для получения похожих на ДНК, но небелковых молекул, так называемых двухцепочечных РНК. Эти молекулы являются частью молекулярно-генетического механизма, контролирующего активность гена (РНК-интерференция). Некоторые двухцепочечные РНК могут подавлять гены, препятствуя синтезу их белковых продуктов. Таким образом, если данные участки ДНК также считать генами, то их количество удвоится. В итоге исследования изменилось само представление о генах, и сейчас ученые считают, что ген - это единица наследственности, которую нельзя понимать как просто участок ДНК, кодирующий белки.

Можно сказать, что химический состав клетки - ее «хард», а информация, закодированная в ДНК, - предварительно загруженный «софт». Никто раньше и не предполагал, что клетка является чем-то большим, чем просто совокупностью составных частей, и что для ее построения недостаточно закодированной в ДНК информации, что столь же важным является процесс саморегулирования генома - и путем сообщения между соседними генами, и путем воздействия других молекул клетки.

Открытый доступ к информации позволит объединить опыт врачей, информацию о патологических случаях, результаты многолетнего изучения отдельных особей, и потому станет возможным соотнести генетическую информацию с данными анатомии, физиологии, поведения человека. И уже это сможет привести к лучшей медицинской диагностике и прогрессу в лечении.

Например, исследователь, изучающий определенную форму рака, сможет сузить круг поиска до одного гена. Сверив свои данные с данными открытой базы генома человека, он сможет проверить, что другие написали об этом гене, включая (потенциально) трехмерную структуру его производного белка, его функции, его эволюционную связь с другими генами человека или с генами мышей, дрожжей или дрозофилы, возможные пагубные мутации, взаимосвязь с другими генами, тканями тела, в которых ген активируется, заболеваниями, связанными с этим геном, или другие данные.

Более того, понимание хода заболевания на уровне молекулярной биологии позволит создать новые терапевтические методы. Учитывая, что ДНК играет огромную роль в молекулярной биологии, а также ее центральное значение в функционировании и принципах работы живых клеток, углубление знаний в этой области откроет путь для новых методов лечения и открытий в различных областях медицины.

Наконец, и «персональная медицина» теперь кажется уже более реальной задачей. Д-р Уиллс выразил надежду, что лечение заболеваний путем замены поврежденного участка ДНК нормальным станет возможным уже в следующее десятилетие. Сейчас проблемой, препятствующей развитию такого метода лечения, является то, что ученые не умеют доставлять ген в клетку. Пока единственный известный способ доставки - заражение животного вирусом с необходимыми генами, но это опасный вариант. Однако д-р Уиллс предполагает, что в скором времени в этом направлении будет совершен прорыв.

Сегодня уже существуют простые способы проведения генетических тестов, которые могут показать предрасположенность к различным заболеваниям, включая рак молочной железы, нарушение свертываемости крови, кистозный фиброз, заболевания печени и др. Такие заболевания, как рак, болезнь Альцгеймера, диабет, как было выяснено, связаны не с общими для всех, а с огромным количеством редких, практически индивидуальных мутаций (причем не в одном гене, а в нескольких; например, мышечную дистрофию Шарко-Мари-Тут может вызвать мутация 39 генов), в результате чего эти болезни трудно поддаются диагностике и воздействию медицинских препаратов. Именно это открытие является одним из камней преткновения «персональной медицины», поскольку, прочитав генокод человека, пока невозможно точно определить состояние его здоровья. Исследуя генокоды разных людей, ученые были разочарованы результатом. Около 2000 участков ДНК человека статистически относилось к «болезненным», которые при этом не всегда относились к работающим генам, т. е. не представляли угрозы. Похоже, что эволюция избавляется от мутаций, вызывающих болезнь, до того, как они станут общими.

Проводя исследования, группа ученых в Сиэтле обнаружила, что из всего человеческого генокода лишь 60 генов претерпевают спонтанную мутацию каждое поколение. При этом мутировавшие гены могут вызвать различные заболевания. Так, если у каждого из родителей было по одному «испорченному» и одному «неиспорченному» гену, то у детей болезнь может и не проявиться или проявится в очень слабой форме, если они получат один «испорченный» и один «неиспорченный» ген, но если ребенок унаследует оба «испорченных» гена, то это может привести к болезни. К тому же, поняв, что общечеловеческие болезни вызываются индивидуальным мутациями, ученые пришли к выводу, что необходимо исследовать полностью весь генокод человека, а не его отдельные участки.

Несмотря на все затруднения, уже созданы первые генетические лекарства против рака, которые блокируют эффекты генетических отклонений, приводящих к росту опухолей. Также недавно было одобрено лекарство компании «Amgen » от остеопороза, которое основывается на том, что болезнь вызывается гиперактивностью определенного гена. Последнее достижение - проведение анализа биологических жидкостей на присутствие мутации определенного гена для диагностики рака толстой кишки. Такой тест позволит избавить людей от неприятной процедуры колоноскопии.

Итак, привычная биология ушла в прошлое, наступил час новой эры науки: постгеномной биологии. Она полностью развенчала идею витализма, и хотя в него уже больше столетия не верил ни один биолог, новая биология не оставила места и для призраков.

Не только интеллектуальные озарения играют важную роль в науке. Такие технические прорывы, как телескоп в астрономии, микроскоп в биологии, спектроскоп в химии, приводят к неожиданным и замечательным открытиям. Похожую революцию в геномике производят сейчас мощные компьютеры и информация, содержащаяся в ДНК.

Закон Мура говорит о том, что компьютеры увеличивают свою мощность вдвое примерно каждые два года. Таким образом, за последнее десятилетие их мощность возросла более чем в 30 раз при постоянно снижающейся цене. В геномике пока нет имени для аналогичного закона, но его следовало бы назвать законом Эрика Лэндера - по имени главы Broad Institute (Cambridge , Massachusetts , крупнейший американский центр, занимающийся расшифровкой ДНК). Он подсчитал, что по сравнению с прошлым десятилетием цена расшифровки ДНК снизилась на сотни тысяч долларов. При расшифровке последовательности геномов в International Human Genome Sequencing Consortium использовали метод, разработанный еще в 1975 г. Ф. Сенджером, что заняло 13 лет и стоило 3 млрд долл. А значит, расшифровка генетического кода была под силу только мощным компаниям или центрам по исследованию генетической последовательности. Сейчас, используя последние устройства для расшифровки от фирмы «Illumina » (San Diego , California ), человеческий геном может быть прочитан за 8 дней, и стоить это будет около 10 тыс. долл. Но и это не предел. Другая калифорнийская фирма, «Pacific Biosciences» и з Менло Парка, разработала способы, позволяющие прочитать геном всего с одной молекулы ДНК. Вполне возможно, что скоро расшифровка генома будет занимать минут 15 и стоить менее 1000 долл. Аналогичные разработки существуют и в «Oxford Nanopore Technologies » (Великобритания). Раньше фирмы использовали решетки проб ДНК (ДНК-чипы) и искали определенные генетические символы - SNP. Сейчас известно несколько десятков таких символов, но есть основания предполагать, что среди трех миллиардов «букв» генетического кода их гораздо больше.

До недавнего времени полностью было расшифровано всего несколько генокодов (в проекте «Геном человека» были использованы кусочки генокода множества людей, а затем собраны в единое целое). Среди них генокоды К. Вентера, Дж. Уотсона, д-ра Ст. Куэйка, двух корейцев, китайца, африканца, а также больного лейкемией, национальность которого ныне уже трудно установить. Теперь, с постепенным усовершенствованием техники чтения последовательностей генов, станет возможным расшифровка генокода все большего и большего числа людей. В будущем свой генокод сможет прочитать любой человек.

Кроме стоимости расшифровки, важным показателем является его точность. Считается, что приемлемым уровнем является не более одной ошибки в 10 000–100 000 символов. Сейчас уровень точности находится на уровне 1 ошибки в 20 000 символов.

На настоящий момент в США ведутся споры по поводу патентования «расшифрованных» генов. Однако многие исследователи считают, что патентование генов станет препятствием для развития науки. Главная стратегическая задача будущего сформулирована следующим образом: изучить однонуклеотидные вариации ДНК в разных органах и клетках отдельных индивидуумов и выявить различия между индивидуумами. Анализ таких вариаций даст возможность не только подойти к созданию индивидуальных генных «портретов» людей, что, в частности, позволит лучше лечить болезни, но и определить различия между популяциями, выявлять географические районы повышенного «генетического» риска, что поможет давать четкие рекомендации о необходимости очистки территорий от загрязнения и выявлять производства, на которых есть большая опасность поражения геномов персонала.

SNP - одиночный генетический символ, который меняется от человека к человеку. Его открыли специалисты «International HapMap Project », изучая такую мутацию генокода, как однонуклеотидный полиморфизм. Целью проекта по картированию участков ДНК, различных для разных этнических групп, был поиск уязвимости этих групп к отдельным заболеваниям и возможностей их преодоления. Эти исследования могут также подсказать, как человеческие популяции адаптировались к различным заболеваниям.

Это наиболее интересный вопрос, ради которого собственно и затевалось полное секвенирование генома человека. После получения основной информации о структуре генома человека в первую очередь были произведены различные анализы по поиску генов и определению их числа. Однако задача оказалась не простой. Это может показаться странным для читателя, но однозначного ответа на поставленный вопрос до сих пор нет.
Сколько же всего генов в ДНК человека? Еще несколько лет назад полагали, что их около 100 тыс., затем решили, что не более 80 тыс. В конце 1998 г. пришли к выводу, что в геноме человека не более 50-60 тыс. генов и на их долю приходится около 3% общей длины ДНК.
Последние подсчеты общего числа генов в геноме человека проводили несколько международных команд ученых. Уже упоминавшаяся компания «Celera» провела собственные исследования, результаты которого изложены в журнале «Science» в 2001 году. По ее оценкам общее число генов в геноме человека составляет от 26383 до 39114. Средний размер гена оценивается равным примерно 3000 п. н. Если принять, что число генов у человека порядка 30 тысяч генов и на каждый ген приходится примерно 3 тыс. п. н., то нетрудно подсчитать, что в кодировании белков принимает участие менее 1,5% хромосомной ДНК. Таким образом, генетические инструкции по формированию человеческой личности занимают меньше 3 сантиметров на двухметровой молекуле ДНК. Удивляет и малое количество генов, несущих эти инструкции,– их всего в пять раз больше, чем, например, у такого на наш взгляд совершенно примитивного организма, как муха дрозофила.
Вторая команда исследователей из Национального института геномных исследований США во главе с Френсисом Коллинзом, подсчитав число генов у человека независимым способом и на основе своих данных, получила сходный результат – около 32000 генов содержится в геноме каждой клетки человека.
Разнобой в окончательные оценки пока вносят два других коллектива ученых. Доктор Вильям Хезелтайн (руководитель фирмы «Хьюмэн Геном Сайенс») продолжает настаивать, что в их банке содержится приватизированная информация на 120 тыс. генов. Этой информацией он не собирается пока делиться с мировой общественностью. Фирма вложила деньги в патенты и собирается заработать на полученной информации, поскольку она относится к генам широко распространенных болезней человека. Фирма «Инсайт» сообщила о том, что имеет в настоящее время каталог, состоящий из 140 тысяч идентифицированных ей генов человека, и также настаивает на этом количестве общего числа генов у человека.
Очевидно, что наспех приватизированная генетическая информация будет еще тщательно анализироваться и проверяться в ближайшие годы, пока точное число генов станет окончательно «канонизировано». Дело в том, что устройство генов весьма многообразно и до конца еще не поняты все возможные варианты. Вот мы прочитали последовательность нуклеотидов ДНК. Определено, что она способна кодировать белок. Но один ли? Выше уже говорилось о том, как транскрипция и последующие модификации РНК, а затем трансляция и модификации полипептидов, способны обеспечить огромное многообразие белков, кодируемых одним участком ДНК. И понять это исходя только из нуклеотидной последовательности ДНК очень часто просто невозможно. Тем не менее структура генома представляет собой единственную базу для осмысления данных, получаемых такими новыми направлениями, рожденными геномикой, как транскриптомика (исследует совокупность РНК–транскриптов организма), протеомика (исследует совокупность белков организма), метаболомика (исследует обмен веществ – метаболизм – в организме). Эти направления призваны дополнить лежащий в основе структурной геномики метод геномного секвенирования, дать возможность выйти за пределы его разрешающей способности.
Выше уже также говорилось об альтернативном сплайсинге. Сейчас хорошо известно, что за счет этого процесса с одних и тех же генов могут считываться разные белки, которые затем взаимодействуют друг с другом, образуя неповторимую смесь, как из основных цветов в живописи – желтого, красного и голубого можно получить мириады оттенков. Такой сплайсинг характерен не менее чем для половины генов человека. Считается, что в среднем с одного гена человека за счет альтернативного сплайсинга может образовываться три разных пептида. Но некоторые гены имеют до 10 альтернативно сплайсируемых экзонов, что позволяет теоретически получать более 1000 различных вариантов белков всего лишь на одном гене. В реальности число разных белков, кодируемых одним геном, достигает 10. Кроме того, существуют еще и альтернативные промоторы, альтернативные кодоны инициации трансляции, редактирование РНК (превращение Ц в У или А в аналог Г – инозин). Все вышесказанное пока еще невозможно учесть при оценке общего числа генов у человека.
Но и это не все. Кроме генов, кодирующих белки, имеются еще гены, конечным продуктом которых являются РНК. Вспомним об упоминавшихся выше генах–риборегуляторах – они не кодируют белки, но производят функционирующую в клетках РНК. Так что скорее всего окончательная оценка числа генов у человека будет сделана еще нескоро.
На сегодняшний день ученым известны функции всего лишь около восьми–десяти тысяч из них. А детальные сведения о механизмах их регуляции еще более скудны. Тем не менее, приведенные выше данные о строении и функционировании генов человека свидетельствуют о том, что у человека, царствующего в природе, в отличие от других существующих на нашей планете организмов, очень высока сложность протеома – полного набора функциональных белков в клетке, которая обеспечивается не просто за счет крупного размера генома или большого числа генов, а благодаря всевозможным инновациям, связанным с функционированием генов и формированием белков: большее число доменов–модулей, более высокая комбинаторика (перемешивание) этих модулей в белках, активное использование альтернативного сплайсинга и многое другое, о чем мы поговорим дальше.

Геном человека насчитывает примерно 38000 ге­нов, представляющих собой индивидуальные еди­ницы наследственности.

Линии герминативных клеток (половых, репродуктивных, клеток заро­дышевой линии) содержат одну копию генетиче­ского материала и называются гаплоидными, соматические клетки (не относящиеся к клеткам зародышевой линии) содержат две пол­ные копии и называются диплоидными. Гены объединены в длинные сегменты дезоксирибону­клеиновой кислоты (ДНК), которые в процессе клеточного деления совместно с белками образу­ют компактные сложные структуры - хромосомы. Каждая соматическая клетка имеет 46 хромо­сом (22 пары аутосом, или неполовых хромосом, и 1 пару половых хромосом - ХУ у мужчин и XX у женщин). Половые клетки (яйцеклетки, спермато­зоиды) содержат 22 аутосомы, 1 половую хромо­сому, т. е. всего 23 хромосомы. Слияние половых клеток приводит к образова­нию полного диплоидного набора из 46 хромосом, который вновь реализуется в клетках эмбриона.

Молекула генома человека имеет три структурных блока: пентозного сахара (дезоксирибоза), фос­фатной группы и че­тырех видов азотистых оснований - пуриновых (аденин и гуанин) или пиримидиновых (тимин и цитозин). Эти четыре типа оснований формируют алфавит генетического кода. Основной субъединицей ДНК служит нуклеотид, состоящий из молекулы дезоксирибозы, одной фосфат­ной группы и одного основания. Они соединяются в определенной последователь­ности - аденин с тимином, цитозин с гуанином. Различные длинные последователь­ности нуклеотидных оснований кодируют разные белки. Отдельные триплеты соответствуют транс­портным РНК, каждая из которых соответствует определенной аминокислоте. Каждый геном человека содержит около 3 млрд нуклеотидных пар, которые в совокупности кодируют весь набор белков организма человека.

Только небольшая часть ДНК клетки (10% об­щего содержания ДНК) активно функционирует во время метаболически активного периода клеточ­ного цикла. Некоторая часть неактивного генетиче­ского материала может иметь важное значение для регуляции экспрессии генов или для поддержания структуры и функции хромосом.

Большая часть генома человека содер­жится в ядрах клеток. Митохондрии (клеточные органеллы, продуцирующие энергию) содержат свой собственный уникальный геном. Митохондриальная хромосома имеет двухцепочную коль­цевую молекулу ДНК, включающую 16000 пар нуклеотидных оснований ДНК, последователь­ность которой полностью расшифрована. Белки, входящие в состав митохондрий, могут синтезиро­ваться в самих митохондриях на основе информа­ции, содержащейся в митохондриальном геноме, или в синтезироваться на основании генетической информации, содержащейся в ядерном геноме человека, и транспортироваться в органеллы. Все митохон­дрии передаются от матери (так как сперматозоид обычно не передает митохондрии в оплодотво­ренную яйцеклетку); митохондрии с различным геномом в пределах одной клетки представляют различные линии материнских клеток, от которых они произошли.

Структура и функции генома человека

Основная цель генома человека - продукция структурных протеинов и ферментов. Этот процесс включает ряд стадий, называемых транскрипцией, процес­сингом и трансляцией. Для передачи информации исходная молекула ДНК «расплетается» с обра­зованием одноцепочной ДНК, при этом одна или другая цепь (или обе) действует как матрица для копирования. Если это происходит во время репли­кации клетки, каждая цепь ДНК копируется с об­разованием двух новых двухцепочных дочерних молекул ДНК; этот процесс называется реплика­цией. Если процесс происходит во время метабо­лически активного периода клеточного цикла, ко­пируется только одна цепь ДНК с формированием одноцепочной матричной (информационной) РНК (мРНК); этот процесс называется транскрипцией. Код для каждого гена переписывается с ДНК на мРНК, включая информацию, необходимую для кодирования аминокислот (экзоны), и некодирую­щие нуклеотидные последовательности, располо­женные между экзонами (интроны).

Образующаяся в результате мРНК отличается от ДНК, так как содержит рибозу вместо дезокси- рибозы и пиримидиновое основание урацил вместо тимина. Первичный транскрипт мРНК перед тем как покинуть ядро подвергается процес­сингу, при котором из молекулы мРНК удаляются некодирующие участки-интроны, а оставшиеся ко­дирующие участки-экзоны соединяются в единую цепь с формированием функциональной мРНК, которая затем мигрирует в цитоплазму, где идет трансляция. Во время трансляции мРНК ре­гулирует продукцию белка на рибосоме путем фор­мирования комплементарных связей между тремя нуклеотидами, называемыми кодонами, и тремя до­полнительными нуклеотидами на молекуле транс­портной РНК — антикодона­ми. При продвижении рибосомы вдоль РНК от кодона к кодону ферменты объединяют соседние аминокислоты, связанные с молекулами тРНК, с формированием ковалентных пептидных связей. Структура полипептидных цепей и образующихся в конечном счете белков определяется нуклеотид­ными последовательностями мРНК.