项目简介
本项目基于C语言开发,以Minimap2多功能序列比对程序为核心。该系统可将DNA或mRNA序列与大型参考数据库进行比对,适用于多种生物信息学场景,如将PacBio或Oxford Nanopore基因组读数映射到人类基因组、查找长读数之间的重叠、对PacBio Iso - Seq或Nanopore cDNA或Direct RNA读数进行剪接感知比对等。
项目的主要特性和功能
- 多场景适用:能处理长噪音基因组读数映射、长mRNA/cDNA读数映射、长读数间重叠查找、短准确基因组读数映射以及全基因组/组装比对等多种序列比对任务。
- 高性能:对于约10kb的噪音读数序列,比主流长读数映射器(如BLASR、BWA - MEM、NGMLR和GMAP)快数十倍;对于大于100bp的Illumina短读数,比BWA - MEM和Bowtie2快三倍。
- 准确性高:在模拟长读数上比对结果更准确,生成的比对结果具有生物学意义,可直接用于下游分析。
- 丰富的预设选项:通过
-x
选项设置多种预设参数,可针对不同数据类型优化性能和准确性。 - 高级特性支持:支持处理超过65535个CIGAR操作的情况,通过
-L
选项避免BAM文件处理错误;cs
可选标签能编码错配和插入缺失处的碱基,方便解析;自带paftools.js
脚本处理PAF格式的比对结果。
安装使用步骤
前提条件
假设用户已经下载了本项目的源码文件,若要从源代码编译,需要安装C编译器、GNU make和zlib开发文件。
安装
sh
./minimap2-2.26_x64-linux/minimap2
使用示例
- 长序列与参考基因组比对:
sh ./minimap2 -a test/MT - human.fa test/MT - orang.fa > test.sam
- 先创建索引再进行比对:
sh ./minimap2 -x map - ont -d MT - human - ont.mmi test/MT - human.fa ./minimap2 -a MT - human - ont.mmi test/MT - orang.fa > test.sam
- 使用预设参数(无测试数据):
sh ./minimap2 -ax map - pb ref.fa pacbio.fq.gz > aln.sam # PacBio CLR基因组读数 ./minimap2 -ax map - ont ref.fa ont.fq.gz > aln.sam # Oxford Nanopore基因组读数 ./minimap2 -ax map - hifi ref.fa pacbio - ccs.fq.gz > aln.sam # PacBio HiFi/CCS基因组读数(v2.19或更高版本) ./minimap2 -ax asm20 ref.fa pacbio - ccs.fq.gz > aln.sam # PacBio HiFi/CCS基因组读数(v2.18或更早版本) ./minimap2 -ax sr ref.fa read1.fa read2.fa > aln.sam # 短基因组双端读数 ./minimap2 -ax splice ref.fa rna - reads.fa > aln.sam # 剪接长读数(链未知) ./minimap2 -ax splice -uf -k14 ref.fa reads.fa > aln.sam # 噪音Nanopore Direct RNA - seq ./minimap2 -ax splice:hq -uf ref.fa query.fa > aln.sam # 最终PacBio Iso - seq或传统cDNA ./minimap2 -ax splice --junc - bed anno.bed12 ref.fa query.fa > aln.sam # 优先考虑注释的剪接位点 ./minimap2 -cx asm5 asm1.fa asm2.fa > aln.paf # 种内组装到组装的比对 ./minimap2 -x ava - pb reads.fa reads.fa > overlaps.paf # PacBio读数重叠 ./minimap2 -x ava - ont reads.fa reads.fa > overlaps.paf # Nanopore读数重叠
若需详细的命令行选项说明,可查看手册页man./minimap2.1
。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】