如“为什么学习生物信息学”这篇笔记所言,“二十一世纪是生命科学的世纪”,随着基因测序技术以及多种组学(其中包括基因组、蛋白质组等)技术的不断发展,生物数据迅速增长,对于这些数据的解读却已进入瓶颈期。如何来对这些数据进行合理、有效的分析和解读,就是生物信息学要做的事情。
一名合格的生物信息学从业人员,首先要懂CS,然后还要懂生物学知识,还需要懂测序的原理。计算机相关的技能主要包括Linux基本操作(会高级操作更好),R语言必须掌握,Python是目前生信领域主流的编程语言。其他编程语言如C、C++、perl等,可以锦上添花,但是作为初学者,需要集中精力在最短的时间内最高效的学习,推荐首先从Linux、R和Python入手。我也是新手,我也是这么做的。对于生物学知识,尽管本人医学专业出身,但是有很多基础知识也需要补,建议把遗传学书好好翻翻,基因的各个功能分区、外显子、内含子、UTR、motif等等一系列专业名词,还需要了解怎么和测序数据进行对应。测序原理就相对简单咯,多看看Illumina、PacBio官方的教学视频,重点理解测序原理。
生信分析电脑硬件配置,自行百度解决吧,就不重复造轮子了。以下是一些可供参考的网址:
软件配置,能用conda搞定的就用conda,conda不提供的,就参考官方教程安装咯。
为了保证结果的可重复性,可以从以下几个方面下功夫:1. 原始数据的注释、留存,这个是最基本的工作,加注释有助于以后对原始数据进行查找,要有MD5值记录,数据传输过程中也有可能出现丢包情况;2. 原始数据清洗过程的代码以及使用软件的版本,要详细记录,不同版本以及不同代码参数处理得到的clean data可能会有差异,而且这些差异会一级一级传递;3. 数据分析的pipeline,要详细记录,包括代码以及使用软件的版本,对于代码要进行注释,有助于自己和同事理解代码都做了什么工作,也可以在后期的debug中有帮助。记录、注释代码也是实现可重复性的一项重要内容。未经注释的代码,就像一团乱麻,虽然自己可以解开这团乱麻,还是需要浪费自己和同事宝贵的时间。
遇到问题,提炼成中英文关键词,然后谷歌必应加百度,一般来说,经过这一步,90%以上的问题都可以得到解决。如果有一些三个搜索引擎都搜不到答案的话,就需要找学习小组或去网上发帖求助了。
我也是生信菜鸟,进步空间很大,希望和大家共同学习,共同进步!