随着长读长测序(Long-read sequencing,LRS)技术的发展,人类和多种物种的基因组组装已逐步迈向“端粒到端粒(T2T)”的完整水平。然而,现实情况是高质量组装依然高度依赖多平台数据融合(PacBio+ONT+Hi-C)以及复杂算法流程,这使得T2T组装的成本和门槛更高,难以规模化推广。
更关键的是,即使在高深度测序条件下,基因组中仍存在大量重复区域、结构复杂区域(如端粒、着丝粒)无法被有效解析,这些“未解决区域”成为限制组装完整性的核心瓶颈。因此,当前问题已经从“如何组装”转变为如何高效补齐剩余困难区域。
本研究提出了一种全新的策略—Cornetto(可编程靶向测序+迭代组装框架),其核心思想不是“全量测序”,而是把测序资源集中用于当前组装中最难的区域。
Cornetto利用纳米孔测序(Oxford Nanopore)的“可编程读取“能力,在测序过程中实时判断DNA片段是否来自未组装区域,并选择性保留或丢弃。
迭代组装策略(iteration assembly)
Cornetto不是一次性组装,而是一个循环过程:
🔹初始组装(粗略版本)
🔹识别未解决区域(gaps/low-confidence regions)
🔹靶向补充测序数据
🔹重新组装并更新结果
这一过程不断迭代,直到关键区域被解析。
传统T2T组装依赖多种测序技术,而Cornetto实现了:仅使用Nanopore长读长数据即可完成高质量双倍体组装。
研究表明,Cornetto能够在更低测序成本下实现超过传统方法的组装质量,包括:更高连续性(contiguity)、更少未解析区域、更完整的双倍体结构。
Cornetto在多个关键复杂区域中表现突出,例如:端粒和染色体末端区域、高度重复基因簇。这些区域往往是传统方法的“盲区“,但该方法能过通过靶向补测来实现完美解析。
研究特别验证了两个临床相关区域:FSHD相关复杂序列区域,MUC1相关复杂结构区域。结果显示,Cornetto可以准确重建这些复杂重复结构,为疾病诊断提供可靠依据。
研究还展示了在低质量或复杂来源样本(如唾液)中获得高质量组装的结果,在实际应用(临床、野外样本)中非常关键。
这项研究的真正突破可以总结为一句话:把“测序+组装”变成一个动态优化过程,而不是一次性任务。其核心贡献包括:从“全量测序”转向“目标驱动测序” ,实现单平台(ONT)完成高质量双倍体组装,成功解析临床难点区域,具备实际诊断价值。
文章地址:https://www.nature.com/articles/s41467-025-65410-x
Github主页:https://github.com/hasindu2008/cornetto