柏辰生活

Bio-Chain Life

Clair3—应用于Nanopore三代测序下机数据的变异分析软件

关于Clair3

近段时间要处理一些Nanopore测序的下机数据,之前习惯使用medaka进行small variants的识别,结果发现新版本的已经不能使用了,推荐使用clair3(https://github.com/HKU-BAL/Clair)这个软件,便拿来试试,发现效果还是不错的,并且该软件也是随着nanopore的技术一直在更新,感谢开发作者的付出。


Clair3的使用主要包含两种算法:一种是基于速度优势的pileup calling(P);另一种是基于精准度的full-alignment(F);该软件在速度和准确度上都有很大的优势,尤其是在低覆盖度的结果上。


以下就拿出手头的部分数据,做些软件的简单使用,如果读者感兴趣,可以仔细阅读github或者联系开发作者。


Clair3简单使用

1. 数据准备,实例数据如下

参考序列:ref.fna

下机测序序列:test.fastq(nanopore下机数据)


2. conda安装variant识别软件clair3

创建虚拟环境,安装软件

conda create -n clair3 -c bioconda clair3 python=3.9.0 -y

激活环境

conda activate clair3

如果发现激活不了,可以:source deactivate 再进行conda activate clair3


3. minimap2产生中间比对文件,建立索引

本文以三代测序结果举例,选用minimap2(https://github.com/lh3/minimap2)作为比对软件:

a. 产生sam格式中间比对软件

minimap2 -ax map-ont ../01_data/ref.fna../01_data/test.fastq > test.sam   #比对alignmet

b. sam格式转化成bam格式

samtools view -Sb -o test.bam test.sam

c. 对bam文件进行排序

samtools sort test.bam -o test_sorted.bam

d. 建立索引,生成.bai文件

samtools index test_sorted.bam

e. 创建fna文件索引

samtools faidx ../01_data/ref.fna


4.variant 识别

run_clair3.sh --bam_fn ~/test/02_minimap2/test_sorted.bam --ref_fn ~/test/02_minimap2/ref.fna  --threads=20 --platform="ont" --model_path ~/.conda/envs/clair3/bin/models/r941_prom_sup_g5014 --output=variant --include_all_ctgs

--model_path:这里的模式显示的是prom,并非只能适用于PromethIon下机数据,也可使用GridION, MinION 下机数据

--include_all_ctgs:如果是非人类测序结果,需要加上此项参数,选择所有contigs

结果展示:


5.一代测序验证

经一代验证后确有对应位置的突变出现:311 C→T;312 A→G,其他一致性位点未展出。

  

   6.结论

   该软件识别突变能力较好,与一代测序结果完全一致。此外,还有其他三代测序对variant识别软件值得试试:NanoCaller, CuteSV,Longshot等。


联系我们

电 话:021-61283010

网 址:www.bio-chain.com

邮箱:info@bio-chain.com

地 址:上海市徐汇区虹漕路421号65幢303室