littlebot
Published on 2025-04-03 / 0 Visits
0

【源码】基于C语言的多功能序列比对工具Minimap2

项目简介

本项目是一款功能强大的多功能序列比对程序,可将DNA或mRNA序列与大型参考数据库进行比对。适用于多种生物信息学场景,如将PacBio或牛津纳米孔基因组读数映射到人类基因组、查找长读数之间的重叠、对PacBio Iso - Seq或纳米孔cDNA或直接RNA读数进行剪接感知比对、对Illumina单端或双端读数进行比对、进行组装到组装的比对以及密切相关物种之间的全基因组比对等。

项目的主要特性和功能

  1. 速度优势:对于约10kb的嘈杂读数序列,比主流长读映射器快数十倍;对于大于100bp的Illumina短读数,比BWA - MEM和Bowtie2快三倍。
  2. 准确性高:在模拟长读数上表现更准确,能产生有生物学意义的比对结果用于下游分析。
  3. 多数据类型支持:支持PacBio、牛津纳米孔的基因组读数等多种不同类型数据,并针对不同数据类型提供预设参数。
  4. 多种输出格式:支持以PAF和SAM格式输出比对结果,还能处理gzip压缩的FASTA和FASTQ格式输入文件。
  5. 高级特性:提供处理超过65535个CIGAR操作的功能、cs可选标签编码以及配套的PAF格式处理脚本。

安装使用步骤

安装

  1. 直接运行:./minimap2-2.17_x64-linux/minimap2
  2. 从源代码编译:需要安装C编译器、GNU make和zlib开发文件,然后在源代码目录中输入make进行编译。若出现编译错误,可尝试make sse2only = 1禁用SSE4代码。对于支持NEON指令集的ARM CPU,32位ARM架构(如ARMv7)使用make arm_neon = 1,64位ARM架构(如ARMv8)使用make arm_neon = 1 aarch64 = 1

使用

  1. 基本比对:不使用任何选项时,以PAF格式输出近似映射结果: sh minimap2 ref.fa query.fq > approx-mapping.paf
  2. 生成CIGAR:在PAF的cg标签中生成CIGAR: sh minimap2 -c ref.fa query.fq > alignment.paf
  3. 输出SAM格式:以SAM格式输出比对结果: sh minimap2 -a ref.fa query.fq > alignment.sam
  4. 使用索引:为减少索引时间,可使用-d选项保存索引,后续使用索引文件进行比对: sh minimap2 -d ref.mmi ref.fa # 索引 minimap2 -a ref.mmi reads.fq > alignment.sam # 比对
  5. 不同数据类型比对:根据不同的数据类型选择预设参数,例如:
    • PacBio基因组读数:minimap2 -ax map - pb ref.fa pacbio.fq.gz > aln.sam
    • 牛津纳米孔基因组读数:minimap2 -ax map - ont ref.fa ont.fq.gz > aln.sam
    • PacBio CCS基因组读数:minimap2 -ax asm20 ref.fa pacbio - ccs.fq.gz > aln.sam
    • 短基因组双端读数:minimap2 -ax sr ref.fa read1.fa read2.fa > aln.sam
    • 剪接长读数:minimap2 -ax splice ref.fa rna - reads.fa > aln.sam

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】