一、生物信息学背景
生物信息学是一门生物学和计算机学的交叉学科。在国内,生物学教授在研究生物学的同时能自如应用计算机科学的少之又少。随着近年来生物学各个分支领域的快速发展,不断地兴起了很多有趣领域的研究热潮,比如肠道微生物,各种小RNA、外泌体等等。生物学研究必须依赖计算机科学作为工具,才能深入了解生物的各种信息。因此,国内在近10年里,大量的科研服务机构不断涌现。在临床方面,更有先进的基因诊断技术(现在都管它叫精准医疗),让医生对疾病的预防和治疗有了在遗传学和分子生物学层次的判断标准。更有趣的是,还有儿童天赋基因,给小孩的后天发展提供了基因层面参考。至于它的理论是否真正成立,还有待考究。
在一些高校、医院和科研院所有部分教授能较好的应用生物信息学,但大部分还是依赖于提供这些服务的机构。目前这些科研服务机构或者开展精准医疗的机构,正大量需要生物信息学人才,对于真正能够将生物学和软件工程学很好的结合起来的人才,我想企业也是苦苦求之而不得。
二、测序技术
学习生物信息学需要了解实验技术原理和测序原理。现在的测序技术已经更新到三代了。每一代的测序技术的原理和仪器都各不相同。在性价方面,简单来说,一代更准确,但费用高,二代测序也叫高通量测序,和一代明显的对比就是费用大大降低,测序通量大,但就没那么准确了。三代是单分子测序,多基于纳米科技,无需扩增,对单分链DNA/RNA直接用合成、降解、通过纳米孔等方式直接测序,核心特点是无需扩增所以成本更低。三代一般用来做重测序做验证的,目前公司收取的费用相对较高,准确性也大大提升了。由于三代应用范围还不广,很多公司对于它的一些性能还处于研发当中,没有进行大量生产。目前应用面最广的是二代测序,其它的需要了解一下原理。我们重点还是二代测序。
下图简要说明了测序技术的发展历程。
一代测序原理(sanger测序原理,也叫pcr荧光定量法,双脱氧末端终止法):扩增后通过毛细管电泳读取序列,每次读取的数据量很少。由于ddNTP(4种带有荧光标记的A,C,G,T碱基)的2’和3’都不含羟基,其在DNA的合成过程中不能形成磷酸二酯键,因此可以用来中断DNA的合成反应,在4个DNA合成反应体系中分别加入一定比例带有放射性同位素标记的ddNTP(分别为:ddATP,ddCTP,ddGTP和ddTTP),然后被记录下来,所有不同长度的片段电泳,从上到下依次从短到长,直到读完一条链从5’到3'的碱基排列分布。
二代测序原理:二代测序必须结合文库构建原理来讲解,文库构建根据原料是DNA还是RNA或者其他种类而有不同,我们现都了解的是RNA相比于DNA必须多一个反转录的过程,甲基化和smallRNA以及其他类型的又有不同。二代测序仪器原理不同,在上机测序前需要一些准备工作,将DNA打碎成约100-200个碱基的小片段,在片段的两个末端加上接头 ( adapter ),将DNA片段变成单链后通过接头与芯片表面的引物碱基互补配对,而使一端被固定在芯片上。另外一端随机和附近的另外一个引物互补,也被固定住,形成桥状结构。通过30轮扩增反应,每个单分子被扩增大约1000 倍,成为单克隆的DNA簇,随后将DNA 簇线性化。在下一步合成反应中,加入改造过的DNA聚合酶,和带有4种荧光标记的dNTP。在DNA合成时,每一个核苷酸加到引物末端时都会释放出焦磷酸盐,激发生物发光蛋白发出荧光,测序仪上有拍照工具捕捉发光标记记录形成数据信息。这些信息就是我们后面分析所用到的原始数据了。
三、分析基础(重点)
数据结构:
http://www.bio-info-trainee.com/2900.html#more-2900
操作系统一般是用Linux
常用操作:
ls:list(列出目录内容)
cd:Change Directory(改变目录)
pwd:print work directory 打印当前目录显示出当前工作目录的绝对路径
ps: process status(进程状态,类似于 windows 的任务管理器)
ps -auxf 显示进程状态
df: disk free 其功能是显示磁盘可用空间数目信息及空间结点信息。换句话说,就是报告在任何安装的设备或目录中,还剩多少自由的空间。
rm:Remove(删除目录或文件)
cat: concatenate 连锁, cat file1 file2>>file3把文件1和文件2的内容联合起来放到 file3中
ln -s : link -soft 创建一个软链接,相当于创建一个快捷方式
mkdir:Make Directory(创建目录
touch:创建文件,touch files
man: Manual,例:man rm ,也可以rm -h 或rm --help
chmod: Change mode,修改权限
mv: Move file
cp:Copy file
”|“: 管道操作
less -SN:打开文本文件,这个是查看文本文件更合适的方式
head -n:查看文件前n行
wc -l:计算文本文件的行数
tail -n:查看文件尾n行
sort命令
grep命令;awk命令;sed命令
bc -l:启动Terminal下的计算器,可以在这里进行简单的数学运算,输入”quit”就可以退出
du -sh ./: 检查当前目录所占空间大小
su:switch user 切换用户
参考:http://wiki.jikexueyuan.com/project/learn-linux-step-by-step/command-abbreviation.html
分析实例:
http://www.bio-info-trainee.com/2834.html
至少掌握一门高级编程语言
生物信息是一定离不开程序设计的,Python,还被誉为数据科学第一语言!不但可以进行文本处理,还可以进行统计分析,机器学习,或者作出精美的数据图等等。书籍https://www.gitbook.com/book/lenkimo/byte-of-python-chinese-edition/details或https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000
链接:https://www.zhihu.com/question/20543692/answer/277126384
四、学习工具
1、Google
2、论坛
3、软件
4、网站
5、文献