Web前端开发网

fly63.com

首页 资源 工具 文章 教程 栏目
  • 在线搜索
  • 文章标签
  • 广告合作
  • 赞助一下
  • 关于我们
资源推荐
沁言学术
AI智能学术研究平台,覆盖科研全流程服务
周易国学网
基于周易、八字、紫微斗数等传统国学文化
免费资源下载中心
一站式解决工作学习需求的宝藏网站
美图设计室
AI智能一键生成海报,免费平面设计
Trae
字节跳动推出的 AI原生编程工具
奇绘馆AI视频
新一代AI视频创作平台
扣子Coze
职场AI,就用扣子
码上飞(CodeFlying)
用一句话自动生成小程序、APP、H5网页应用
必火AI
数字人一站式创作平台
阿里云优惠券
卓越的云计算技术和服务提供商

资源分类

AI智能 酷站推荐 招聘/兼职 框架/库 模块/管理 移动端UI框架 Web-UI框架 Js插件 Jquery插件 CSS相关 IDE环境 在线工具 图形动效 游戏框架 node相关 调试/测试 在线学习 社区/论坛 博客/团队 前端素材 图标/图库 建站资源 设计/灵感 IT资讯
网站收录 / 问题反馈

Mamba

分享
复制链接
新浪微博
QQ 好友

扫一扫分享

GitHub:https://github.com/state-spaces/mamba
描述信息:基于结构化状态空间模型SSM的新型深度学习架构
GitHub

Mamba(包含 Mamba-2)的官方实现代码库,聚焦于基于选择性状态空间模型(Selective State Space Model, SSM)的线性时间序列建模,由 Albert Gu 和 Tri Dao 主导开发,核心目标是解决传统 Transformer 在信息密集型数据(如语言建模)上的效率瓶颈,同时保持甚至超越其性能。


一、核心定位

Mamba 是一种全新的状态空间模型架构,基于结构化状态空间模型(SSM)的研究进展,结合硬件感知的高效设计(借鉴 FlashAttention 思路),实现了线性时间复杂度的序列建模,相比 Transformer 类模型在长序列任务上更高效。


二、核心内容

1. 核心模块

  • Selective SSM:Mamba 的核心层(对应论文 Algorithm 2),实现选择性状态空间计算,源码位于 mamba_ssm/ops/selective_scan_interface.py;
  • Mamba Block:封装选择性 SSM 的核心架构块,基础版本在 mamba_ssm/modules/mamba_simple.py;
  • Mamba-2:Mamba 的升级版本(基于 State Space Dual 模型),实现位于 mamba_ssm/modules/mamba2.py/mamba2_simple.py,还提供了极简版 SSD 模块(ssd_minimal.py);
  • Mamba 语言模型:完整的语言模型示例(Mamba 块堆叠 + 语言模型头),支持大语言模型训练 / 推理。

2. 预训练模型

提供多个规模的预训练模型(上传至 Hugging Face state-spaces 仓库),涵盖 Mamba 和 Mamba-2 系列,参数规模包括 130M、370M、790M、1.4B、2.8B 等,训练数据基于 Pile/SlimPajama 数据集(300B/600B tokens)。

3. 硬件与环境支持

基础依赖:Linux 系统、NVIDIA GPU(CUDA 11.6+)、PyTorch 1.12+;

扩展支持:AMD GPU(ROCM 6.0+,需补丁)、AWS Trainium 2 硬件;

编译与构建:支持多版本 CUDA/PyTorch/Python 编译,提供自动化构建脚本(GitHub Actions),可生成适配不同环境的 wheel 包。


三、使用方式

1. 安装

支持 pip 快速安装或源码编译:

# 核心包
pip install mamba-ssm
# 含因果卷积依赖
pip install mamba-ssm[causal-conv1d]
# 源码构建
pip install .

2. 基础使用示例

Mamba 基础块:

import torch
from mamba_ssm import Mamba

batch, length, dim = 2, 64, 16
x = torch.randn(batch, length, dim).to("cuda")
model = Mamba(d_model=dim, d_state=16, d_conv=4, expand=2).to("cuda")
y = model(x)
assert y.shape == x.shape

Mamba-2 块(用法兼容):

from mamba_ssm import Mamba2
model = Mamba2(d_model=dim, d_state=64, d_conv=4, expand=2).to("cuda")
y = model(x)


四、工程化设计

编译构建:通过 setup.py 封装 CUDA/HIP 扩展编译,支持不同 CUDA 版本(11.6+)、C++11 ABI 适配,自动生成适配多环境的 wheel 包;

CI/CD:通过 GitHub Actions 实现自动化构建、测试、发布,支持多平台(x86/ARM)、多依赖版本组合,构建产物上传至 GitHub Release 并同步发布至 PyPI;

代码结构:模块化设计,核心计算(selective scan)通过 CUDA 实现高性能算子,上层封装模型块和语言模型,配套基准测试(benchmarks/)、单元测试(tests/)。


五、许可证与引用

许可证:基于 Apache License 2.0 开源,允许商用但需遵循许可证条款;

学术引用:若使用该代码库,需引用 Mamba 和 Mamba-2 的论文:


@article{mamba,
  title={Mamba: Linear-Time Sequence Modeling with Selective State Spaces},
  author={Gu, Albert and Dao, Tri},
  journal={arXiv preprint arXiv:2312.00752},
  year={2023}
}

@inproceedings{mamba2,
  title={Transformers are {SSM}s: Generalized Models and Efficient Algorithms Through Structured State Space Duality},
  author={Dao, Tri and Gu, Albert},
  booktitle={International Conference on Machine Learning (ICML)},
  year={2024}
}


六、应用与生态

Mamba 已被多家机构 / 实验室采纳用于加速训练 / 推理,仓库也提供了适配不同硬件(NVIDIA/AMD/AWS Trainium 2)的文档和方案,是高效序列建模领域的重要开源项目。

仅供个人学习参考/导航指引使用,具体请以第三方网站说明为准,本站不提供任何专业建议。如果地址失效或描述有误,请联系站长反馈~感谢您的理解与支持!

链接: https://fly63.com/nav/4975

更多»
热门资源
豆包AI
字节跳动旗下 AI 智能助手
官网
扣子Coze
职场AI,就用扣子
官网
DeepSeek
幻方量化公司旗下的开源大模型平台
官网
GitHub
码上飞(CodeFlying)
用一句话自动生成小程序、APP、H5网页应用
官网
01Agent
AI内容创作智能体,选题+创作+排版+多平台分发
官网
AiPPT
全智能AI一键生成 PPT
官网
堆友AI
零门槛,多风格AI绘画免费生成,电商海报设计神器
官网
Trae
字节跳动推出的 AI原生编程工具
官网
美图设计室
AI智能一键生成海报,免费平面设计
官网
爱派AiPy
一款可本地部署的AI智能体,帮你操作电脑、手机、服务器设备
官网
SpeedAI
一键去重、降AIGC率、数据可视化、论文写作
官网
Seedance 2.0
字节跳动新一代AI视频生成模型全面解析
官网
类似于Mamba的资源
D-ID
知名AI视频AI数字人工具
官网
通义万相
阿里云推出的AI创意作画平台,已开放文生视频+图生视频
官网
Opencode
一款免费、开源的 AI 编程工具
官网
GitHub
CodeRabbit
一个由人工智能驱动的代码审查工具
官网
讯飞智作
您的专属AI创作助手
官网
Akool
一个靠 AI 做视觉内容的平台
官网
AgentScope
阿里开源多智能体低代码开发平台
官网
GitHub
Collov AI
一个主打 AI 室内设计的网站
官网
目录

手机扫一扫预览

》
分享组件加载中...
首页 技术导航 在线工具 技术文章 教程资源 前端标签 AI工具集 前端库/框架 实用工具箱 广告合作 关于我们

Copyright © 2018 Web前端开发网 All Rights Reserved. 提供免费在线工具、编程学习资源(教程/框架/库),内容以学习参考为主,助您解决各类实际问题,快速提升专业能力。