项目简介
本项目是基于Python的序列比对系统,核心采用Minimap2这一多功能序列比对程序。Minimap2可将DNA或mRNA序列与大型参考数据库进行比对,在生物信息学领域应用广泛,比如将PacBio或Oxford Nanopore基因组读数映射到人类基因组、寻找长读数之间的重叠、对PacBio Iso - Seq或Nanopore cDNA或Direct RNA读数进行剪接感知比对等。
项目的主要特性和功能
- 高效比对:对约10kb的嘈杂读数序列,比主流长读数映射器快数十倍;对大于100bp的Illumina短读数,比BWA - MEM和Bowtie2快三倍。
- 多场景适用:支持映射长嘈杂基因组读数、映射长mRNA/cDNA读数、查找长读数之间的重叠、映射短准确基因组读数、全基因组/组装比对等多种场景。
- 灵活参数设置:可通过预设选项设置多个参数适应不同数据类型和场景,也能按需调整具体参数。
- 丰富输出格式:支持输出PAF和SAM格式的比对结果,能无缝处理gzip压缩的FASTA和FASTQ格式输入文件。
- 高级特性支持:能处理超过65535个CIGAR操作,
cs
可选标签可编码错配和插入缺失处的碱基,附带处理PAF格式比对结果的工具。 - 开发便利:不仅是命令行工具,还提供C API和Python绑定,便于开发者二次开发。
安装使用步骤
安装
- 直接使用可执行文件:
./minimap2-2.10_x64-linux/minimap2
- 从源代码编译:需安装C编译器、GNU make和zlib开发文件,在源代码目录执行
make
命令。若有编译错误,可尝试make sse2only=1
禁用SSE4代码;对于支持NEON指令集的ARM CPU,使用make arm_neon=1
编译。 - 使用Python绑定:可通过
pip install mappy
或conda install -c bioconda mappy
安装。
使用
通用用法
- 以PAF格式输出近似映射结果:
minimap2 ref.fa query.fq > approx-mapping.paf
- 生成带有CIGAR的PAF格式比对结果:
minimap2 -c ref.fa query.fq > alignment.paf
- 以SAM格式输出比对结果:
minimap2 -a ref.fa query.fq > alignment.sam
- 先保存索引再比对:
sh minimap2 -d ref.mmi ref.fa # 索引 minimap2 -a ref.mmi reads.fq > alignment.sam # 比对
不同使用场景示例
- 映射长嘈杂基因组读数:
sh minimap2 -ax map-pb ref.fa pacbio-reads.fq > aln.sam # 用于PacBio子读数 minimap2 -ax map-ont ref.fa ont-reads.fq > aln.sam # 用于Oxford Nanopore读数
- 映射长mRNA/cDNA读数:
sh minimap2 -ax splice -uf -C5 ref.fa iso-seq.fq > aln.sam # PacBio Iso-seq/传统cDNA minimap2 -ax splice ref.fa nanopore-cdna.fa > aln.sam # Nanopore 2D cDNA-seq minimap2 -ax splice -uf -k14 ref.fa direct-rna.fq > aln.sam # Nanopore Direct RNA-seq minimap2 -ax splice --splice-flank=no SIRV.fa SIRV-seq.fa # 针对SIRV控制的映射
- 查找长读数之间的重叠:
sh minimap2 -x ava-pb reads.fq reads.fq > ovlp.paf # PacBio读数重叠 minimap2 -x ava-ont reads.fq reads.fq > ovlp.paf # Oxford Nanopore读数重叠
- 映射短准确基因组读数:
sh minimap2 -ax sr ref.fa reads-se.fq > aln.sam # 单端比对 minimap2 -ax sr ref.fa read1.fq read2.fq > aln.sam # 双端比对 minimap2 -ax sr ref.fa reads-interleaved.fq > aln.sam # 双端比对
- 全基因组/组装比对:
sh minimap2 -ax asm5 ref.fa asm.fa > aln.sam # 组装到组装/参考比对
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】