littlebot
Published on 2025-04-02 / 0 Visits
0

【源码】基于Python的序列比对系统

项目简介

本项目是基于Python的序列比对系统,核心采用Minimap2这一多功能序列比对程序。Minimap2可将DNA或mRNA序列与大型参考数据库进行比对,在生物信息学领域应用广泛,比如将PacBio或Oxford Nanopore基因组读数映射到人类基因组、寻找长读数之间的重叠、对PacBio Iso - Seq或Nanopore cDNA或Direct RNA读数进行剪接感知比对等。

项目的主要特性和功能

  1. 高效比对:对约10kb的嘈杂读数序列,比主流长读数映射器快数十倍;对大于100bp的Illumina短读数,比BWA - MEM和Bowtie2快三倍。
  2. 多场景适用:支持映射长嘈杂基因组读数、映射长mRNA/cDNA读数、查找长读数之间的重叠、映射短准确基因组读数、全基因组/组装比对等多种场景。
  3. 灵活参数设置:可通过预设选项设置多个参数适应不同数据类型和场景,也能按需调整具体参数。
  4. 丰富输出格式:支持输出PAF和SAM格式的比对结果,能无缝处理gzip压缩的FASTA和FASTQ格式输入文件。
  5. 高级特性支持:能处理超过65535个CIGAR操作,cs可选标签可编码错配和插入缺失处的碱基,附带处理PAF格式比对结果的工具。
  6. 开发便利:不仅是命令行工具,还提供C API和Python绑定,便于开发者二次开发。

安装使用步骤

安装

  1. 直接使用可执行文件:./minimap2-2.10_x64-linux/minimap2
  2. 从源代码编译:需安装C编译器、GNU make和zlib开发文件,在源代码目录执行make命令。若有编译错误,可尝试make sse2only=1禁用SSE4代码;对于支持NEON指令集的ARM CPU,使用make arm_neon=1编译。
  3. 使用Python绑定:可通过pip install mappyconda install -c bioconda mappy安装。

使用

通用用法

  • 以PAF格式输出近似映射结果:minimap2 ref.fa query.fq > approx-mapping.paf
  • 生成带有CIGAR的PAF格式比对结果:minimap2 -c ref.fa query.fq > alignment.paf
  • 以SAM格式输出比对结果:minimap2 -a ref.fa query.fq > alignment.sam
  • 先保存索引再比对: sh minimap2 -d ref.mmi ref.fa # 索引 minimap2 -a ref.mmi reads.fq > alignment.sam # 比对

不同使用场景示例

  • 映射长嘈杂基因组读数: sh minimap2 -ax map-pb ref.fa pacbio-reads.fq > aln.sam # 用于PacBio子读数 minimap2 -ax map-ont ref.fa ont-reads.fq > aln.sam # 用于Oxford Nanopore读数
  • 映射长mRNA/cDNA读数: sh minimap2 -ax splice -uf -C5 ref.fa iso-seq.fq > aln.sam # PacBio Iso-seq/传统cDNA minimap2 -ax splice ref.fa nanopore-cdna.fa > aln.sam # Nanopore 2D cDNA-seq minimap2 -ax splice -uf -k14 ref.fa direct-rna.fq > aln.sam # Nanopore Direct RNA-seq minimap2 -ax splice --splice-flank=no SIRV.fa SIRV-seq.fa # 针对SIRV控制的映射
  • 查找长读数之间的重叠: sh minimap2 -x ava-pb reads.fq reads.fq > ovlp.paf # PacBio读数重叠 minimap2 -x ava-ont reads.fq reads.fq > ovlp.paf # Oxford Nanopore读数重叠
  • 映射短准确基因组读数: sh minimap2 -ax sr ref.fa reads-se.fq > aln.sam # 单端比对 minimap2 -ax sr ref.fa read1.fq read2.fq > aln.sam # 双端比对 minimap2 -ax sr ref.fa reads-interleaved.fq > aln.sam # 双端比对
  • 全基因组/组装比对: sh minimap2 -ax asm5 ref.fa asm.fa > aln.sam # 组装到组装/参考比对

下载地址

点击下载 【提取码: 4003】【解压密码: www.makuang.net】