思维导图
-
测序魔鬼集中营
正式笔记
1)几代测序技术和illumina原理见思维导图
2)数据产生
workflow:
从荧光信号的产生到碱基序列的识别这一过程,主要包括图象校正(即空间校正)、cluster识别、荧光校正(即光学校正)、phasing/prephasing(即化学校正)、碱基识别、PF(Illumina默认的数据过滤算法Pass Filtering)、质量评估等7个步骤
照相机的识别:
利用了CCD相机(1)对每一个簇(cluster)进行识别,确定其坐标;(2)提取每个簇分别在A、G、C、T四个波长的信号强度值。
- 拍照过程相当耗时,一次循环所产生的信号需要40分钟左右才能拍照收集完毕。使用相机的扫描功能会更快一些。
数据量产出:
测序仪搭配了两个flowcell,简称双流动槽。比较经典的Hiseq2500一次能产出700-800Gb数据(此处Gb为测序碱基数,不同于字节数的Gb)。
- 关于数据转换,举个例子比较好理解:以人类基因组为例,包括30亿碱基对(bp),测序深度30x的话,就会有900亿碱基对(=1800亿字母)=90G测序量;900亿个碱基对/150(测序策略PE150)=6亿条reads(=60Mreads);6亿条reads x 45(reads长度)= 2700亿 字母;
每个字母=1字节,换算成计算机大小就是:2700亿字节/(1024 x1024 x1024)=192.7837G存储(非常大的数据量了)
给未来的问题
- 为什么测序中读取index 就能提高效率知道其来自何处。
- 接头的设计和连接原理。
- 测序技术原理及常用数据格式简介有哪些?
- 如何进行数据分析?
参考:
生信公众号 生信星球 教程
【陈巍学基因】视频1:Illumina测序化学原理
《测序的世界》 刘小泽 的简书