新闻中心

NEWS

生信篇 | Unicycler实战指南:驾驭二代与三代测序组装全流程

来源: | 作者:/ | 发布时间: 2025-04-21 | 67 次浏览 | 分享到:

Unicycler是专为细菌基因组设计的组装工具,既支持纯二代(Illumina)或纯三代(Nanopore/PacBio)数据,也擅长混合组装。它融合了 De Bruijn 图(适用于短读段)和字符串图(String Graph,适用于长读段)两种策略,兼顾准确性与连续性。上一期我们详细介绍了Unicycler在混合组装中的应用,这期我们将带来Unicycler单独进行二代与三代组装的应用。

1

图片

Unicycler工作原理详解


二代数据组装流程

  • 图构建:拆分短序列为k-mer(默认k=21/33/55),构建 De Bruijn 图,通过寻找欧拉路径生成初步contig;

  • 纠错优化:借助 SPAdes 算法改良,结合桥接(bridging)与覆盖过滤,解决重复区段问题,提高组装连贯性。


三代数据组装流程

  • 初步组装:基于 Miniasm 快速构建重叠图;

  • 多轮校正:默认结合 Racon 进行3轮错误校正;

  • 自动闭环:识别染色质/质粒环状结构,输出完整闭环序列。

2

图片

操作流程与参数解析


数据准备要求

  • 二代数据:双端FASTQ文件,推荐覆盖度≥50x;

  • 三代数据:FASTQ/FASTA格式,推荐N50≥10kb,覆盖度≥30x。


常用命令示例

场景一:仅用二代数据组装

图片
  • --mode:组装模式(normal/bold/conservative);

  • --min_fasta_length:设定输出Contig的最小长度。

场景二:仅用三代数据组装

图片
  • --keep:保留中间文件,便于后续调试与评估;

  • –min_polish_size:只对 ≥10 kb 的contig进行抛光。

3

图片

实战演练:E.coli基因组组装


数据信息

  • 样本:大肠杆菌E.coli K-12,基因组大小约4.6Mb;

  • 测序平台:

二代:Illumina NovaSeq PE150,覆盖度100x;

三代:Nanopore PromethION,N50=15 kb,覆盖度50x。


运行示例

二代数据:

图片

输出文件:

assembly.fasta:最终组装序列(含环化信息);

assembly.gfa:组装图文件,可用Bandage可视化。

三代数据:

图片

若N50偏低,可加大 --racon_iterations 5以提高抛光轮次。

4

图片

结果评估与优化建议


核心评估指标

  • Contig N50:理想值应接近全基因组长度(~4.6 Mb);

  • 闭环比例:检查 assembly.fasta 中 circular=true 标签;

  • BUSCO 完整性:目标细菌数据库中完整度 ≥95%。


常见问题及处理建议

  • Contig 碎片化:

二代:增加测序深度,调整 --min_kmer_coverage;

三代:尝试提高 --min_overlap(如设为5000)。

  • 嵌合体污染:使用BLAST或MUMmer对比参考基因组,排查异常区域。

5

图片

总结

在这两期推文中,我们详细介绍了 Unicycler 在微生物基因组组装中的应用场景、核心原理与实操策略,涵盖了 Illumina 与 Nanopore 等不同平台的组装优化方案。Unicycler 凭借其对 De Bruijn 图与字符串图的融合设计,以及自动纠错与环化输出机制,在原核基因组研究中表现出色。

后续我们将陆续推出以下专题,帮助大家从入门到进阶掌握二代/三代测序分析技能:

  • 三代数据质控与纠错工具详解(如 Filtlong、NanoFilt、Racon、Medaka)

  • 宏基因组组装与 binning 技术实战

  • 基于图的可视化分析工具(Bandage、IGV、Tablet)

  • 长短读混合组装工具对比(如 Flye、HybridSPAdes、MaSuRCA 等)

敬请关注,解锁更多生信实战干货!