跳转至

支持的 AI 平台及其意义

DeepExtension 致力于弥合企业用户与大语言模型(LLM)训练复杂性之间的鸿沟。实现这一使命的关键之一是支持在多种硬件和操作系统上兼顾性能易用性开发者友好度的 AI 平台。

本页面将介绍当前支持的平台、背后的技术选择逻辑,以及这些平台如何影响 DeepExtension 的用户体验。


为什么平台选择至关重要?

AI 平台的选择直接影响:

  • 对主流 ML 框架的兼容性(如 PyTorch、TensorFlow)
  • 训练与推理的性能表现
  • 安装与部署的简便性
  • 硬件成本与可获取性

对于非 AI 专业人员或资源有限的团队,复杂的配置过程可能成为门槛。
DeepExtension 的目标是降低使用门槛,同时不牺牲性能,因此平台支持是一个战略性决策。


CUDA 平台:LLM 训练的行业标准

从 DeepExtension 的早期阶段开始,我们便采用 CUDA 作为主要的训练与推理后端。CUDA 支持的 NVIDIA GPU 仍是以下场景的事实标准

  • 完全兼容 PyTorch 与 TensorFlow
  • 针对 LLM 架构与大规模并行处理进行了优化
  • 成熟的生态系统(工具链、社区、研究支持)

这使得 CUDA 成为严肃训练任务中最可靠且高性能的选择。
DeepExtension 的训练模块(如 GRPO 和 SFT)已全面优化以适配 CUDA 环境。

对于需要大规模微调开源基础模型(如 Qwen、LLaMA、DeepSeek)的企业用户,强烈推荐使用 CUDA。


Apple Silicon 上的 MLX:轻量与易用兼具

尽管 CUDA 性能强劲,但并非所有用户都易于获取 —— 尤其是个体研究者或缺乏 NVIDIA 硬件的小团队。

Apple 的 M 系列芯片(M1–M4)带来了新的机遇。凭借其统一内存架构(UMA)与出色的本地 AI 能力,它们具备:

  • 紧凑却强大的开发环境
  • 无需外接 GPU —— AI 模块内建于芯片
  • 安静节能,适合日常开发使用

我们曾尝试在 macOS 上测试 PyTorch 的 Metal 后端(MPS),但发现其性能不稳定、兼容性较差。

因此我们选择集成 MLX —— Apple 专为其芯片架构开发的新一代机器学习框架。MLX 的优势包括:

  • 实际场景中远胜于 MPS 的性能表现
  • 更简洁的配置与内存管理
  • 小规模训练与实验的高效选择

DeepExtension 已内置 MLX 演示训练任务,方便 Mac 用户即刻体验微调流程。


当前支持的平台

平台 后端 支持操作系统 典型应用场景
CUDA PyTorch / TensorFlow Linux,Windows(通过 WSL) 全流程模型训练,生产部署
MLX MLX macOS(M1–M4) 本地开发,小规模训练

其他平台暂不支持,未来将根据用户需求优先考虑。


平台支持未来规划

我们理解全球用户在硬件与生态偏好方面存在多样性。

尽管 CUDA 与 MLX 已覆盖大多数当前使用场景,我们仍在积极收集反馈,以评估以下平台的支持优先级:

  • Windows(用于 CPU 推理与 UI 体验测试)
  • AMD ROCm 平台(更开放的 GPU 生态)
  • ONNX Runtime 或 TensorRT(专注推理优化的部署方案)

如果您有特定平台需求或环境限制,请通过 支持页面 联系我们。您的反馈将直接影响我们的产品路线图。


DeepExtension 旨在让 LLM 训练更易获取 —— 无论您是在数据中心、MacBook 还是创业阶段的预算环境下使用。