基因组简单组装

1.PacBio HiFi 长读长测序技术

长读长测序能够检测长度为1,000到20,000个碱基或更长的DNA（或RNA）片段。这些片段通常来自于“原生”分子，这些分子是直接从生物样本中提取出来进行分析的。相比之下，大多数短读长测序技术只能检测50-300个碱基长度的片段。与大多数长读长方法不同，短读长测序解决方案无法有效地对原生分子进行测序，并且在分析之前需要对提取的DNA进行扩增。

“……虽然读长通常被认为是主导因素之一……，但我们的结果表明，HiFi 技术更高的测序准确性超过了读长所带来的好处。”

长读长测序和短读长测序之间的基本差异在于所分析分子的长度，这毫不奇怪。每种方法都有其自身的优缺点，这取决于研究应用的目的。长读测序在整个基因组重建等领域表现优异，

2.基因组三代测序数据转化为ccs数据

ccs数据格式

CCS（Consensus Coding Sequence）数据是PacBio SMRT（Single Molecule, Real-Time）测序技术中的一种高质量序列数据格式。CCS数据是通过将多个独立的subreads（子读取序列）对齐并合并成一个更准确的共识序列来生成的。这种数据格式具有以下特点：

高质量：CCS序列是经过质量控制和错误校正的，因此比原始的subreads具有更高的准确性。

长读取：PacBio测序技术可以产生平均长度在10,000到20,000碱基对的长读取序列。

数据结构：CCS数据通常包含以下信息：

序列标识符（Sequence Identifier）：唯一标识序列的ID。

序列（Sequence）：核苷酸序列。

质量值（Quality Values）：每个碱基的测序质量评分，通常以Phred+33或Phred+64编码。

文件格式：CCS数据可以存储在多种文件格式中，包括：

HDF5：一种用于存储和组织大量数据的文件格式，PacBio的SMRT Analysis软件使用这种格式。

BAM：二进制比对/映射格式，是一种用于存储测序读取与参考基因组比对结果的压缩格式。

FASTA：一种简单的文本格式，用于存储核苷酸序列或蛋白质序列。

附加信息：CCS数据文件可能还会包含一些附加信息，如测序过程中的原始信号强度、分子条形码、测序孔信息等。

分析工具：PacBio提供了一系列的软件工具来处理CCS数据，包括用于生成CCS的CCSGenerator，以及用于进一步分析的SMRT Link。

应用领域：CCS数据由于其高准确度和长读取长度，常用于基因组组装、基因表达分析、甲基化分析和RNA结构研究等领域。

3.查看一下压缩的ccs文件

zcat G00101.ccs.fastq.gz | head -n 10

————————————————————————————————————

@m64270e_220111_004519/31/ccs

TTGGAGGACAATAGGAACGACGTGAGAAGTAAACAGTCTAAAAAAGGAAACTCAGGCGCTG

~`O~~r~~~~~ll*Y~~~~~~~~g~~j~j~~~~v~~~~~<^~~~~u~T~~~~~~j~~~~~g~~~U~~~~~~~t~v~~~.~~~}n_z~~qpc~u~6~~3~~~~H~\~~~~q~{~~\~R~~u~~~~~S~~~~~F~~~u~@U~X_Mfe~`~~~~~~l~|~+Z>~\]]~~W~s}~~~~V~~n~~|~~~p~~\~~O~~k~~r~pt~v~]~~D~~~e~+~~U~)yhl~d}~bJ@`~~~~~~~~uj~~~&<~?

————————————————————————————————————

4.利用canu组装

HIFI组装命令（canu 2.2）

canu -p asm -d G00301 genomeSize=40m useGrid=false -pacbio-hifi /ifs1/01.RawData/01.HiFi/G00301.ccs.fastq.gz

生成的组装文件在asm.contigs.fasta，另外其他可能有用的文件asm.unassembled.fasta （没有被组装好的reads），asm.report （包含了每一步的运行信息）。

CLS组装命令

canu -p ecoli -d ecoli-pacbio genomeSize=4.8m -pacbio pacbio.fastq

Nanopore

canu -p ecoli -d ecoli-oxford genomeSize=4.8m -nanopore oxford.fasta

————————————————————————————————————

使用PacBio-HiFi数据的HiCanu一致序列通常远高于99.99%，官方文档说到不鼓励对这些组件进行任何后期处理/抛光，因为重复中的mis-mapping可能会导致错误。

对于PacBio数据集，Canu一致序列通常远高于99%的一致性。纳米孔的准确度因孔和基孔的不同而不同，但对于最新的数据，准确度通常在99%以上。精确性可以通过使用专门为该任务开发的工具来提高。

Canu推荐Arrow用于PacBio，Nanopolish或Medaka用于Oxford Nanpore数据。当Illumina reads可用时，FreeBayes可用于polish either PacBio or Oxford Nanopore assemblies.

5.利用falcon组装

FALCON是PacBio公司开发的一款用于三代基因组De novo组装软件。相比于HGAP4软件，FALCON软件的基因组组装原理基本一致。但FALCON使用命令行运行，更适合于大基因组的组装，且能分析双倍体序列，并在基因组组装结果中给出包含变异位点信息的等位基因序列（alternative contigs / a-contigs）和主要的基因组序列（primary contig / p-contig）。每一条a-contig都有其对应的p-contig序列。因此，FALCON软件适合双倍体物种的基因组组装，能给出单倍的基因序列。其基因组组装结果中的p-contigs序列总长度要小于其它基因组组装软件（例如Canu和HGAP）的基因组序列。

FALCON-Unzip则是真正的单倍型组装软件，它能在FALCON或HGAP4软件的基因组组装结果基础上，利用较长的PacBio reads进行单倍型分析，对p-contigs序列向单倍型进行转换，同时输出单倍型序列（haplotig）区块。

原理

第一轮是选择种子序列或者是数据集中最长的序列(通过length_cufoff设置)，比较短的序列比对到长序列上用于产生高可信度的一致性序列。PacBio称其为预组装(pre-asembled), 其实和纠错等价。这一步可能会将种子序列在低覆盖度的区域进行分割(split)或者修整(trim)，由falcon_sense_options参数控制，最后得到preads(pre-assembled reads)。

第二轮是将preads相互比对，从而组装成contigs(contig指的是连续的不间断的基因组序列, contiguous sequence)

用conda-forge通道终于安装上了

Falcon 是一个 Python Web 框架，它不是一个独立的命令行工具，而是一个 Python 包。因此，你不能直接通过 falcon 命令来运行它。相反，你需要通过 Python 来运行 Falcon 应用程序。

最后编辑于：2024.08.26 15:30:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,684评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 87,143评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 151,214评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,788评论 1赞 277
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,796评论 5赞 368
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,665评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,027评论 3赞 399
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,679评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 41,346评论 1赞 299
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,664评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,766评论 1赞 331
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,412评论 4赞 321
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,015评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,974评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,203评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,073评论 2赞 350
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,501评论 2赞 343

基因组简单组装

1.PacBio HiFi 长读长测序技术

2.基因组三代测序数据转化为ccs数据

ccs数据格式

3.查看一下压缩的ccs文件

4.利用canu组装

HIFI组装命令（canu 2.2）

CLS组装命令

Nanopore

5.利用falcon组装

原理

推荐阅读更多精彩内容