继我前几天的文章彻夜反思:我为什么总是学不好生信? 之后,我认为有必要去搞清楚,为啥我真的学不会生信,以及到底需要怎么样才能学会生信。于是乎,我认真观看了卖萌哥给我的推荐,信息如下:
平台:B站
up主:鲮鱼不会飞(孟浩巍老师)
题目:2020-02-08-生信入门的经验分享
为什么学起来这么困难?
缺乏对生信整个框架的认知
我对生信的理解就是,整理数据,然后画图。因此,一直是从数据整理下手,然后学别人的画图代码。当然也会跟着别人的项目pipeline走,但是出了既定的框架外,我就会非常的迷茫。一直以来,我在生信上所做的努力就是:
(1)学习基本的linux操作,掌握一套数据分析流程,比如RNA-seq;
(2)学习基本的测序知识,比如illumia的测序原理;
(3)重头戏:学习R语言基础,以及转录组数据分析流程。
我在完成上面学习之后,我发现一些很重要的问题:
(1)内心没有标准,对数据的质量没有把控,例如:我可能知道RNA-seq的QC结果最重要的是几个quality的项目,但是却不知道为什么。每次我拿到QC报告,总要问一下别人,我这个adapter的检测没有通过,影不影响后续的数据分析?一般得到的回复就是,咱们主要看看Q30等等,其他不是很重要。这背后真正的原因,其实是不清晰的,这就让我感觉很模糊,没有掌控感;
(2)我可能知道TPM比RPKM和FPKM好像现在用得更多,大约知道一些原因,但是我并不知道RPKM是FPKM的2倍,以及它的原因;
(3)我可能会重复R语言的代码,但是我还是不知道为什么要做某些数据转换,做与不做到底有啥区别?做到怎么样才是对自己的数据负责,得到合理的结果。
出现以上原因是因为,我对测序原理没有掌握好,对每一个步骤的测序数据的由来和作用并不清晰;其次是对于不同工具的理解仍然不够,统计学知识也严重不足。
学生信应该掌握什么?
首先需要认识到,生物信息学是要用计算机技术去解决大数据,并且结合生物学背景来筛选出有意义的数据。因此,生信要结合计算机+生物背景知识,同时还需要有统计学知识,在这里孟老师讲解得非常清晰:
(1)linux操作能力:在这里他仅仅提到了操作系统的能力,而我认为至少还要理解每一步骤的数据结构和意义,以及不同的数据能提供给我们的信息。你需要非常努力,才能看起来毫不费力。在这里他推荐了罗老师的30个linux基本操作命令(带有相应的习题)。
(2)编程能力:这是我一直都未曾掌握的东西,对于半自助应用的我来说,一开始给我的定位就是不需要掌握编程能力,只要学好linux还有R语言即可。可是会编程的人用linux和不会编程的人是完全不同的感觉,在这一点上虽然我不是很着急,但是必须要有所学习。这里提到的是Python,C,C++,Java等东西。
(3)统计能力:这是我也一直忽略的,我认为R语言本身就有一套流程,我是用工具的人,我不需要去理解工具是怎么制作的,然而事实上是,我还得明白工作是怎么运作的,以及工具是要如何选择。因此在后续方面要保持对基本统计学知识的掌握。
(4)生物能力:这里我就不谈了,作为一个生物学基本研究人员,这是必备的素养。
孟老师推荐的半自助学习生信流程
半自助的意思是,只是分析数据--而后画图。全自助是还要在算法等等方法做一系列的努力。
(1)linux学习:罗老师3个文件,1-2天;
(2)统计学学习:《医学统计学》漫长3个月,当然他在视频中还有其他的推荐以及对统计学必备知识框架;
(3)测序基础:illumia的视频(我看过不少),但仅仅是视频是不够的,这其中还有很多细节需要去夯实,大约1周时间;
(4)选择1篇文章,重复结果。
这里提出:上游几乎一样,下游则是对BAM文件的处理,并且他在知乎上有很多对于细节问题的解答,所以我打算过去看一波