June 30th, 2013

Что ближайшее из (bio)R ?

Дисклеймер: данный пост - рабочая заметка

Рассматривая на примере статьи Subtelomeric hotspots of aberrant 5-hydroxymethylcytosine , где использованы все базовые типы обработки биоинформатических данных.

В первую очередь картинки: задействованы heatmap2, наверняка ggplot2 и ggbio, помимо дефолтных графопостроителей R. Часть картинок выглядит построенной на "низкоуровневом" графопостроении. Использовались диаграммы Венна (отдельный пакет), возможно и plyr. Примеры крупномасштабных профилей coverage являются снэпшотами IGV (которые дорисовывали в векторном редакторе). Но наиболее примечательная часть - density heat maps, не удалось выяснить каким инструментом их генерируют.

Из NGS'а: как ни странно, картировали простым Bowtie на 18ю сборку (не удалось до сих пор выяснить преимущества старой сборки), распознавали пики MACS'ом. Распознанные пики сливали между образцами и перерассчитывали их покрытие, после чего выполняли стандартные для транскриптомики обсчёты DEseq. Для TAB-Seq'а использовали MiSeq, для обработки данных с этого использовали стандартный пайплайн Иллюмины и Bismark (картировщик для изучения метилома).

Из чипов всё было неинтересным, т.к. проприетарным кроме SAM.

Смотрели на геномное окружение они с использованием баз данных USCS RefSeq (в смысле RefSeq с ресурсов UCSC), забавно что TSS'ы и (особенно) промотеры определены халявно - как отступы от начала генов. "Данные обрабатывали в R" - к сожалению, не говорит о том как именно обсчитывали окружение.

На этом интересные штуки в статье заканчиваюся.