一、生物信息学研究方向:
1.序列比对:
BLAST算法、FASTA算法。
2.蛋白质比对。
3.基因识别分析:
测量密码区密码子(codon)的频率,一阶和二阶马尔可夫链,ORF(Open Reading Frames),启动子(promoter)识别,HMM(Hidden Markov Model)和GENSCAN,Splice Alignment等等。
4.分子进化:
常采用的方法是构造进化树,通过基于特征(即DNA序列或蛋白质中的氨基酸的碱基的特定位置)和基于距离(对齐的分数)的方法和一些传统的聚类方法(如UPGMA)来实现。
5.序列重叠群(Contigs)装配。
6.遗传密码。
7.药物设计。
8.生物系统:
生物系统的模拟、系统稳定性分析、系统鲁棒性分析等等。
9.技术方法:
需要像非参数统计(BMC Bioinformatics,2007,339)、聚类分析(Qual Life Res,2007,1655-63)等更加灵活的数据分析技术。高维数据的分析需要偏最小二乘(partial least squares,PLS)等特征空间的压缩技术。在计算机算法的开发中,需要充分考虑算法的时间和空间复杂度,使用并行计算、网格计算等技术来拓展算法的 可实现性。
10.其他:
如基因表达谱分析,代谢网络分析;基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科包括结构基因组学,功能基因组学,比较基因组学,蛋白质学,药物基因组学,中药基因组学,肿瘤基因组学,分子流行病学和环境基因组学,成为系统生物学的重要研究方法。
二、研究方法:
以数据(库)为核心
1.数据库的建立
2.生物学数据的检索
3.生物学数据的处理
4.生物学数据的利用:计算生物学
三、主要课程:
普通生物学、生物化学、分子生物学、遗传学、生物信息学、计算生物学、基因组学、生物芯片原理与技术、蛋白质组学、模式识别与预测、数据库系统原理、Linux基础及应用、生物软件及数据库、Perl编程基础等。
四、知识技能:
1.掌握普通生物学、生物化学、分子生物学、遗传学等基本知识和实验技能;
2.掌握计算机科学与技术基本知识和编程技能(包括计算机应用基础、Linux基础及应用、数据库系统原理、模式识别与预测、生物软件及数据库、Perl编程基础等),具备较强的数学和统计学素养(高等数学I、II、生物统计学等);
3.掌握生物信息学、基因组学、计算生物学、蛋白质组学、生物芯片原理与技术的基本理论和方法,初步具备综合运用分子生物学、计算机科学与技术、数学、统计学等知识和技能,解决生物信息学基本问题的能力;
4.掌握生物信息学资料的查询、文献检索及运用现代信息技术获得相关信息的基本方法,具有一定的实验设计、结果分析、撰写论文、参与学术交流的能力;
5.熟悉国家生物信息产业政策、知识产权及生物安全条例等有关政策和法规;
6.了解生物信息学的理论前沿、应用前景和最新发展动态;
7.具有较好的科学人文素养和较强的英语应用能力,具备较强的自学能力、创新能力和独立解决问题的能力;
8.具有良好的思想道德素质和文化素养,身心健康;
9.具有较好的科学素质、竞争意识、创新意识和合作精神。
补充:
•文库制备:基因组DNA/cDNA片段化处理至300-800bp间,经末端修复与特异性接头连接等修饰后变性处理回收单链的DNA 。 Emulsion PCR:单链DNA文库被固定在DNA捕获磁珠上,乳化,形成油包水的混合物,每个独特的片断在自己的微反应器里进行独立的扩增,回收纯化;
•可逆阻断技术:Illumina/Solexa新测序技术基本原理是边合成测序(sequencing by synthesis,SBS) ,即测序过程是以DNA单链为模板,在生成互补链时,利用带荧光标记的dNTP发出不同颜色的荧光来确定不同的碱基,新加入dNTP的3’末端羟基被可逆的保护基团封闭,既保证单次反应只能加入一个碱基,又能在该碱基读取完毕后,将保护基团除去,使得下一个反应可继续进行,为了增加荧光强度,使之更易被成像系统所采集. 两个比较核心的专利技术:1、生成DNA簇的过程2、可逆性的末端终止
•测序流程:文库制备、油包水相扩增、收集纯化磁珠、上级测序、数据分析
•NGS:1.NGS读长短,无法检测重复区域及SV,海量冗余数据,分析复杂难拼接。2.NGS需要PCR,有偏好性,高GC/AT含量区域及回文序列区域难以跨越。3.无法将误差和稀有区域相区分。4.无法直接检测碱基修饰,需先转化再检测,实验复杂。
•PacBio:1.读长长。2.无需PCR,酶学系统强大,可均匀覆盖基因组。3.信号更真实,数据更准确。3.可在测序的同时直接得到碱基修饰信息,信息通用,唯一能将基因组学和表观遗传学统一分析。应用:基因组辅助组装,细菌、真菌完成图,16s全长测序,甲基化测序,CNV、SV检测,全长转录组测序,HLA分型
•Ilumina测序原理:边合成边测序、可阻断技术、桥式PCR
•Denove:从头测序,不需要任何基因组信息即可对某个物种进行测序,利用生物信息学方法对序列惊醒拼接组装。产品:快速基因组调研图、标准基因组精细图、高质量基因组精细图、泛基因组测序。
•分析内容:基因组注释、基因功能注释、基因组复制和物种进化树、泛基因组:比较基因组分析
•Read:测序读到的碱基序列,组装的最小单位
•Pair ends:一定长度的基因组片段末端测序产生的成对reads
•Insert size:插入片段大小(双端测序起始位点之间的距离)
•Contig:由reads组装成的没有gap的序列
•Scaffold:通过pair ends信息确定出的contig排列,中间有gap
•N50:将一组序列按长度排序,累加到长度和超过总长的50%时的那个contig(或者说scaffold)的长度。N50是衡量组装完整性的指标
•快速调研:基因组大小、GC含量、重复序列比例、测序样本杂合度
•标准基因组精细图:利用二代测序完成基因组的基因组组装、注释和常规比较基因组和进化分析。
•高质量基因组精细图:标准基因组精细图基础上,通过三代测序、光学图谱和遗传图谱,达到超高质量的基因组结果。
•泛基因组测序:针对同种或同属内相似度较高的物种,进行多个基因组的测序组装,用以研究近似物种间共有和特有的序列,解析种属内遗传资源的差异。
•重测序:是对已有参考基因组的物种进行个体或群体的基因组测序,利用高性能计算平台和生物信息学方法,全基因组扫描变异位点(SNP、InDel、SV),40天内即可获得生物遗传特征,对动植物分子育种研究具有重大的指导意义。
•意义:基因组测序——测序的个体基因组信息,基因变异率——个体之间的差异
•应用领域:个体重测序、突变体检测、多混池重测序、群体进化分析、BSA、遗传图谱构建
•连锁不平衡,也叫等位基因关联,指群体内不同座位等位基因之间的非随机关联, 包括两个标记间或两个基因间或一个基因与一个标记座位间的非随机关联。通过pair-wise算法计算得到的LD度(r2)来评估LD(连锁不平衡)的水平。
•选择分化分析:通过分析大量的比较基因组学数据集和大量的SNP集,我们可以确定负向和正向选择如何以及在哪些地方影响群体变异。通过多态性分析可以进行群体选择研究,群体选择分析可以用于比较驯化物种和野生物种,从而寻找一些共同区域或者差异很大的区域。在人工选择或自然选择的过程中,这些区域可能与候选基因密切相关。
•selective sweep:是指由于某一位点或座位(locus)受到强选择后,其周围位点因受该位点牵连而发生基因多态性或杂合性降低的现象。
•群体遗传多态性分析:构建群体进化树、群体主成分分析、群体结构分析
•全基因组选择分析:连锁不平衡分析、选择性清除分析
•全基因组关联分析:单体型分析、关联分析
•全基因组连锁分析:遗传图谱构建、重组热点分析
•SNP、indel:BWA和GATK CNV: FREEC 是: BreakDancer
•简化基因组:降低基因组复杂性、减少重复序列比例、提高测序数据的利用率、降低测序成本、某些分析不需要全基因组重测序即可完成 。
•转录组广义上指在特定环境或生理条件下的一个细胞、组织或生物体中存在的所有RNA的总和,包括mRNA、rRNA、tRNA及其它的非编码RNA。
•转录组测序是对某一物种特定的RNA进行高通量测序,从结构水平和表达水平两个层次上解析转录组表达变化对性状差异的调控机制。
•科研中应用:不同品种转录组测序揭示性状多样性的原因、不同发育时期转录组测序揭示性状动态变化的历程、不同组织/器官转录组测序揭示组织/器官特异发育特征、突变型和野生型转录组测序揭示突变性状产生的原因。
•核苷酸变异:组织特异性、时间特异性。基因表达水平:环境特异性、品种特异性
•常见的可变剪接可分为6种类型:外显子跳跃,内含子保留,5‘端可变剪接,3'端可变剪接,最后一个外显子可变剪接,第一个外显子可变剪接。
•转录组:5G、双端测序、Unigene库构建、分子标记开发、基因结构分析、差异表达基因分析
•表达谱:有参考基因组或转录组信息、10M tag、单端测序、差异表达基因分析
•GWAS分析:全基因组范围内寻找与重要性状相关联的遗传变异;
•eQTL分析:将基因表达丰度作为性状关联控制基因表达的遗传变异同时解析基因表达调控网络。
•在生物体内,miRNA除了抑制mRNA的翻译外,也会诱导mRNA被剪切降解。在植物中主要是通过与靶基因进行完全或近乎完全的配对导致mRNA的降解来进行调控,在动物体内以抑制基因翻译居多,同时也存在部分对靶基因的剪切降解作用。
•基于转录组技术挖掘功能基因新策略:个体材料-比较转录组-发育调控、环境适应、免疫互作、表观调控。自然群体-进化、GWAS-遗传进化。遗传群体-BSR、遗传图谱-基因定位
•降解组测序主要针对miRNA介导的剪切降解片段进行深度测序,从中筛选miRNA作用的靶基因,并结合生物信息学分析确定降解片段与miRNA的精确配对信息的测序方法。
•原理:植物体内绝大多数的miRNA是利用剪切作用调控靶基因的表达,且剪切常发生在miRNA与mRNA互补区域的第十位核苷酸上。靶基因经剪切产生二个片段,5’ 剪切片段和3’ 剪切片段。其中3’ 剪切片段,包含有自由的5’ 单磷酸和3’ polyA尾巴,可被RNA连接酶,连接产物可用于下游高通量测序;而含有5’ 帽子结构的完整基因,含有帽子结构的5’ 剪切片段或是其他缺少5’ 单磷酸基团的RNA是无法被RNA酶连接,因而无法进入下游的测序实验。
•长链非编码RNAs(long non-coding RNAs,lncRNAs)一般是指大于200 nt的RNA,位于细胞核内或胞浆中,不参与蛋白质编码功能,以RNA形式在多种层面上(表观遗传调控、转录调控以及转录后调控等)调控基因的表达水平,在生命活动中具有重要作用。
•区分编码RNA和非编码RNA的工具: CPC :基于预测基因的开放阅读框、PhyloCSF:基于物种间的保守性、CNCI:基于二联密码子频率、Pfam:基于蛋白结构域分析
•目标序列捕获测序,是将感兴趣的基因组区域定制成特异性探针与基因组DNA进行杂交(固相或液相),将目标基因组区域的DNA片段进行富集后再利用第二代测序技术进行测序。这种新的方法与PCR方法相比,通量高,同时能节省大量的时间及成本。
•全基因组测序:优:整个基因组的全面查看、可检测所有类型的突变、标准化的处理和分析适合所有肿瘤类型。缺:测序深度相对较低,会错过部分低频突变、海量数据分析相对困难
•外显子组测序:优:经济高效,仅仅对约2%的基因组测序、测序深度更高,利于低频突变检出
•检测编码区,数据有效率高,更容易分析。缺:将错过部分非编码区突变、对大片段结构变异的检 测较差
•目标区域捕获:优:经济高效、结果容易解释、对应癌症相关基因,结果是可操作的。缺:将错过大部分突变、需要事先了解目的基因背景、只能是一部分患者受益