目前基因测序工作中主要存在三个问题:
question1:精确控制问题,其中主要是质量控制问题。
是由于目前基因测序中存在很多种算法,但是不同的算法都会产生不同的结果,面对这样的问题我们该如何选择成为一个棘手的问题。
(目前要做的是设计指控模型,设计投票机制,如果设计成为接下来研究可突破的点,在此过程中要抓住两个方面的重点:①数据特征②算法特征)
question2:输入性数据质量问题。
主要是指输入数据对输出数据的影响
question3:输出性数据质量问题
主要指在测序输出时,会有相当多的参数,那么如何调控和选择这些参数也是一个值得研究的问题。
学习的整体思路:
首先生物信息学分为几大部分:蛋白组学,基因组学,转录组学,代谢组学等
我们主要接触的是基因组信息学,以及部分的转录组学(接触极少)
目前我们要看的知识主要是:
①第二代基因组测序技术的数据特点(原理大概了解即可)
②对输出数据的处理:首先得到下机数据fastq(准确度达99.99%)——>通过对比原理——>bam格式的对比数据
(其中对比过程是我们接下来工作的重点之一,如何对比,使用什么软件,软件参数如何设定都是需要解决的问题,例如给出fastq数据,我们如何进行统计,以及参数的配置等问题;
目前使用较多的对比软件是:BWA:存在问题①读段长度为200以内,不适用于第三代基因测序技术产生的数据;②参数相当多,且参数有人种偏好,偏好白种人,对黄种人和黑种人的准确度较低。)
——>变异分析工具(例如gatk)——>变异数据——>标准数据——>表达验证数据——>上临床
其他相关知识:
①基因数据库主要有三个:Genebank(美国) UCSC:https://genome.ucsc.edu/;EMBL(欧洲);DDBJ(日本)