July 21st, 2014

Опубликована наша вторая статья

Дисклеймер: здесь будет немного разобраны две статьи и на примере мини-дополнения продемонстрирован один из примеров каждодневной работы.

Совсем недавно была опубликована он-лайн наша вторая статья, совсем небольшая, биоинформатическая, являющаяся побочным продуктом выполнения дипломной работы. Хороший российский (!) журнал Acta Naturae, статья называенися "Structural Features of the Telomerase RNA Gene in the Naked Mole Rat Heterocephalus glaber", посвящена подробному рассмотрению теломеразной РНК голого землекопа, индексаторами ещё не была проиндексирована, потому пока не пабмедится.
Журнал лежит здесь http://actanaturae.ru/ , открытый.

Вполне в тему недавно была опубликована ещё одна статья по изучению долгоживующих грызунов, конечно не наша, по свой сути являющаяся обзором про рак и старение у голого землекопа (naked mole rat, NMR) и слепыша какого-то там (blind mole rat, BMR, котором - отдельная история).

При чём здесь мы: ген теломеразной РНК был хоть как-то описан для NMR в нашей статье, а ген BMR вообще никак и ни кем рассмотрен не был, а значит можно поискать и посмотреть. Для начала нам нужно узнать был-ли прочитан геном вообще, лезем для этого в http://www.ncbi.nlm.nih.gov/genome/ , ищем 'bllind mole rat' и ничего не находим, смотрим в статью на картинку и видим что там он назван 'Nannospalax ehrenbergi', ищем снова и видим:
"    No items found.
See also 1 organelle- and plasmid-only records matching your search"
ээ.. чо? вы охамели? Заявлено что геном есть, а в базе данных только митохондрия. Ладно, читаем статью нормально: ссылка 60, "Genome-wide adaptive complexes to underground stresses in blind mole rats Spalax. Nature Commun. 5, 3966 (2014)", находим статью, видим идентификатор сборки генома NCBI "DDBJ/GenBank/EMBL - AXCS00000000", лезем в NCBI nucleotide , находим запись о WGS-сборке AXCS - значит что-то есть, лезем в master-record , видим привычные 300 тысяч контигов (кусков генома), стандартно получаемых на рядовом проекте по секвенированию всего генома сразу для позвоночного, и ещё что покрытие 84 раза и что иллюмина. Скачиваем 6 кусков (видимо им дробить удобнее) в формате fasta со сжатием, распаковываем, склеиваем все 6 в один файл (cat AXCS01.* > /media/data/BMR-genome.fa), проверяем что нет склейки конца текущего контига с началом следующего (grep ">[ACTGN]" /media/data/BMR-genome.fa) и готово, можно работать с геномом (unix-way, да). Поскольку теломеразные РНК млекопитающих мало отличаются друг от друга - достаточно выловить новую в геноме за счёт большой похожести (гомологии, если не слишком строго оперировать с терминами) с другими генами теломеразных РНК (TERC), для этого можно взять уже применённые в нашей статеь для этого последовательности TERC человека, мыши, крысы, того-же NMR, шиншиллы, морской свинки. Поиск по гомологии в геномах выполняется с помощью программного инструмента BLAST , этакого геномного гугла, ради удобства и стабильности работаем локально (unix-way - же :-) ). Сначала специально отформатируем геном для бласта (formatdb -t 'bmr' -i BMR-genome.fa -p F -n 'bmr') программой для подготовки, после этого можно приступать к пристрелке - понять есть-ли вообще хоть что-то, на TERC похожее (вдруг потерялся кусок генома при сборке, 300 тыс. контигов это дофига, в первой сборке генома NMR нужный ген был вообще разорван между контигами и с потерянным фрагментом) и в каком куске сборки оно. Ищем в геноме TERC человека ("blastall -p blastn -d bmr -i ~/test.fa -e 0.005", -p программа поиска нуклеотидов среди нуклеотидов, -d это файл с геномом, -i файл с последовательностью запроса, -e величина порога отсечения по статистической значимости):
BLASTN 2.2.25 [Feb-01-2011]

Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer,
Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997),
"Gapped BLAST and PSI-BLAST: a new generation of protein database search
programs",  Nucleic Acids Res. 25:3389-3402.

Query= human-terc
         (451 letters)

Database: bmr
           356,096 sequences; 2,913,431,996 total letters

Searching..................................................done



                                                                 Score    E
Sequences producing significant alignments:                      (bits) Value

gi|605842126|gb|AXCS01048914.1| Nannospalax galili contig48914, ...   186   7e-45
gi|605830219|gb|AXCS01054860.1| Nannospalax galili contig54860, ...   125   2e-26

>gi|605842126|gb|AXCS01048914.1| Nannospalax galili contig48914, whole
            genome shotgun sequence
          Length = 66412

 Score =  186 bits (94), Expect = 7e-45
 Identities = 220/258 (85%), Gaps = 8/258 (3%)
 Strand = Plus / Plus

                                                                      
Query: 70   ggcgccgtgcttttgctccccgcgcgctgtttttctcgctgactttcagcgggcggaaaa 129
            ||||||||||||||||||||||||||||||||||||||||| |||||||||||| ||||
Sbjct: 2271 ggcgccgtgcttttgctccccgcgcgctgtttttctcgctggctttcagcgggcagaaag 2330

                                                                      
Query: 130  gcctcggcctgccgccttccaccgttcattctagagcaaa-caaaaaatgtcagctgctg 188
            || ||||||| ||||| ||||||   |||||| ||||||| ||||||||| ||||||| |
Sbjct: 2331 gcgtcggcctaccgccgtccaccaggcattct-gagcaaatcaaaaaatgccagctgccg 2389

                                                                      
Query: 189  gcccgttcgcccctcccggggacctgcggcgggtcgcctgcccagcccccgaaccccgcc 248
            || ||  |||| ||||| ||| |||||||||     || |||  |||||||   ||||||
Sbjct: 2390 gcgcgcccgcctctcccagggccctgcggcg----tccggcc--gcccccgcgtcccgcc 2443

                                                                      
Query: 249  tggaggccgcggtcggcccggggcttctccggaggcacccactgccaccgcgaagagttg 308
            |||||||||||| ||||| ||||| ||||||||||  ||| ||||| |||||||||||||
Sbjct: 2444 tggaggccgcggccggcctggggcctctccggaggtgcccgctgccgccgcgaagagttg 2503

                            
Query: 309  ggctctgtcagccgcggg 326
            |||||||| |||||||||
Sbjct: 2504 ggctctgttagccgcggg 2521


>gi|605830219|gb|AXCS01054860.1| Nannospalax galili contig54860,
           whole genome shotgun sequence
          Length = 3541

 Score =  125 bits (63), Expect = 2e-26
 Identities = 78/83 (93%)
 Strand = Plus / Plus

                                                                     
Query: 70  ggcgccgtgcttttgctccccgcgcgctgtttttctcgctgactttcagcgggcggaaaa 129
           ||||||||||||||||||||||||||||||||||||||||| |||||||||||| |||||
Sbjct: 125 ggcgccgtgcttttgctccccgcgcgctgtttttctcgctggctttcagcgggcagaaaa 184

                                
Query: 130 gcctcggcctgccgccttccacc 152
           || ||||||| ||||| ||||||
Sbjct: 185 gcgtcggcctaccgccgtccacc 207


  Database: bmr
    Posted date:  Jul 19, 2014  4:47 PM
  Number of letters in database: 2,913,431,996
  Number of sequences in database:  356,096

Эммм... 2 части гена на геном, одна длинная, вторая короткая и начинаются одинакова, учитывая что это не повторяющиеся элементы.. Ладно, первый кусок почти полной длины, значит мы нашли что нужно, второй кусок, скорее всего, это ошибка сборки генома de novo и в игру "собери ген" играть не придётся.
Берём имя контига с большим куском (AXCS01048914.1) и вылавливаем его 10 строчным скриптом на perl, смотрим на то, где вообще ген лежит в контиге (2200 - 2550 нт), как он ориентирован (прямо, а не обратно) и после этого копипастим (ну или substring(start = 2200, end = 2550) ):

>gi|605842126|gb|AXCS01048914.1|
AACAGCGGTTGCAGGCGCATGGGCCGAGAGGCTGTGCCGCGGTTCCTCT
AACCCTAACCTATCTGGCTGTGGGCGCCGTGCTTTTGCTCCCCGCGCGCT
GTTTTTCTCGCTGGCTTTCAGCGGGCAGAAAGGCGTCGGCCTACCGCCG
TCCACCAGGCATTCTGAGCAAATCAAAAAATGCCAGCTGCCGGCGCGCCCG
CCTCTCCCAGGGCCCTGCGGCGTCCGGCCGCCCCCGCGTCCCGCCTGGA
GGCCGCGGCCGGCCTGGGGCCTCTCCGGAGGTGCCCGCTGCCGCCGCGA
AGAGTTGGGCTCTGTTAGCCGCGGGACCCGCGGGGGCTGCCGGCGAGTG
GCGGG

Вспоминаем про наши последовательности TERC человека, мыши, шиншиллы и морской свинки:
>human-terc
GGGTTGCGGAGGGTGGGCCTGGGAGGGGTGGTGGCCATTTTTTGTCTAACCCTAACTGAGAAGGGCGTAG
GCGCCGTGCTTTTGCTCCCCGCGCGCTGTTTTTCTCGCTGACTTTCAGCGGGCGGAAAAGCCTCGGCCTG
CCGCCTTCCACCGTTCATTCTAGAGCAAACAAAAAATGTCAGCTGCTGGCCCGTTCGCCCCTCCCGGGGA
CCTGCGGCGGGTCGCCTGCCCAGCCCCCGAACCCCGCCTGGAGGCCGCGGTCGGCCCGGGGCTTCTCCGG
AGGCACCCACTGCCACCGCGAAGAGTTGGGCTCTGTCAGCCGCGGGTCTCTCGGGGGCGAGGGCGAGGTT
CAGGCCTTTCAGGCCGCAGGAAGAGGAACGGAGCGAGTCCCCGCGCGCGGCGCGATTCCCTGAGCTGTGG
GACGTGCACCCAGGACTCGGCTCACACATGC
>guinea-terc
CCTGAGACTCAGTCTCGCGACAGCCGTGGCAGGCGTCAGCCAATCCGCGCGGGCGCCGACCACTGTTTTA
TAAGGAGCCTCTGCGAGCCGCTGGGCCGGGAGGGGTGGTGGTCTTCCCTGTCTAACCCTAAGGTGAAGAG
GACGTGGGTGCCGTGTTTTTCGCTCCCGCACGCTGTTTTTCTCGCTGACTTTCAGCGTGCAGAAAAGCCT
TGGCCTACCGTCGGTTATTGTCTAATTAGAAGCAAACAAAAAATGTCAGCGTGGCCGGGCCGCCCCTCCC
GGATACCTGCGGCGGCTCGTCCACCGGCCCCCGAGCCCCGCCTAGGCCGCGGCCGGCGCGGGGCTTCCCT
GGAGGCGCCCATGGCCGCCGCGAAGAGTTCGTCTCTGTCAGCTGCGGGTCGCCCGGGGGCCGCGGGAGAG
TCCCAGGCCTTGGCCGCAGGGAGAGAAACGGAGCAGGTCCTCGCGCGGTGCACTCCCCTGAGCTGTGGGA
AGTGCACCGGGACGGGCTCCTACAAGC
>chinchilla-terc
CGTGAGACCAAGTGTCGCGAGAGCCGTGGCAAGGCTTCAGCCAATCCGAGCGGGCGCCTCCTGCCCTCTT
TATAAGGAGCCTCTGCGCACACGTCCGCGGGTTGAGAATGGTGGGCCGGGAGGGGAGGTGGGCATGTTTT
GTCTAACCCTAACTAGGAGGAGGACGTAGGCGCCGTGCTTTTGTTCCCCGCGCGCTGTTTTTCTCGCTGA
CTTTCAGCGTGCGGAAAAGCCTTGGCCTGCCGTCGACCACTGTCTAATTAAAAGCAAACAAAAAATGTCA
GCGTGGCCGGTCCGCCCCTCCCGGGTACCTGCGGCAGCTCGCCCGGCTGGCCCCCGAGCCCCGCCCAGGG
CCACGGCTGGCGCGGGGCTTCTCCGGGAGCGCCATGGCCGCCGCGAAGAGTTCGTCTCTGTCAGCCGCGG
GTCGCGCGGGGGCCGCGGGGGAGTCCTAGGCCGAGTGGCCGCAGGAAGAGAAACGGAGCCTGTCCCTGTG
CACGGGGCGCTTCTCTGAGCTGTGGGAAGTGCCCCGAGACTCGGCTCCTACAAGC
>mouse-terc
ACCTAACCCTGATTTTCATTAGCTGTGGGTTCTGGTCTTTTGTTCTCCGCCCGCTGTTTTTCTCGCTGAC
TTCCAGCGGGCCAGGAAAGTCCAGACCTGCAGCGGGCCACCGCGCGTTCCCGAGCCTCAAAAACAAACGT
CAGCGCAGGAGCTCCAGGTTCGCCGGGAGCTCCGCGGCGCCGGGCCGCCCAGTCCCGTACCCGCCTACAG
GCCGCGGCCGGCCTGGGGTCTTAGGACTCCGCTGCCGCCGCGAAGAGCTCGCCTCTGTCAGCCGCGGGGC
GCCGGGGGCTGGGGCCAGGCCGGGCGAGCGCCGCGAGGACAGGAATGGAACTGGTCCCCGTGTTCGGTGT
CTTACCTGAGCTGTGGGAAGTGCACCCGGAACTCGGTTCTCACAACC

Засовываем это всё во множественный FASTA-файл и выравниваем с помощью программы ClustalW за счёт оболочки ClustalX - делаем множественное выравниване последовательностей. Получаем какое-то прикидочное выравнивание, видим что мыша там лишняя и что мы плохо отрезали ген по краям из контига. Поправляем, выкидываем мышь, выравниваем и получаем это:

bmr-align
Начало РНК весьма вариативно, потому без эксперимента при большой разнице в последовательности нельзя сказать где точно старт транскрипции, на нём нект особого акцента. В общем видно что ген не имеет примечательных отличий (кроме небольшой делеции на третьей сотне, которая и так не консервативна), похож на среднее между шиншиллой, морской свинкой и человеком.
На этом закончим, потому что мне совсем не охота сравнивать ген с кучей других TERC в поисках уникальных и неуникальных вариантов последовательности, оценивать вторичную структуру и рассматривать промотерную область.