跳转至

数据集管理

数据集管理模块是 DeepExtension 提供的结构化数据处理核心组件,支持数据集的规范化上传、版本化管理和全流程追踪,为模型训练与评估提供高质量数据支持。

核心特性

  • 支持 JSONL 标准格式数据集上传
  • 提供单文件与多模态两种数据集类型
  • 后台异步处理机制确保大文件稳定上传
  • 完整的上传校验与错误日志系统
  • 即将推出的版本控制功能(开发中)

格式提示:当前仅支持 JSONL 格式。对于 JSON/CSV/Parquet 等格式数据,建议使用专业转换工具预处理。多格式支持已列入开发路线图。


数据集上传指南

上传流程

  • 进入数据集页面 → 点击 【上传数据集】
  • 选择数据集类型:

    • 单文件数据集:独立 JSONL 文件
    • 多模态数据集:包含 JSONL 和图像的文件夹
  • 填写元数据:

    • 数据集名称(必填)
    • 数据集描述(建议详细说明数据用途和特征)
  • 文件选择:

    • 单文件:直接选取 JSONL 文件
    • 多模态:选择符合规范的文件夹
  • 提交上传(系统将启动后台处理)

  • 结果查看:
    • 成功:预览数据详情
    • 失败:查看错误日志

格式规范

单文件数据集

  • 编码标准:UTF-8
  • 结构要求:

    • 每行为完整 JSON 对象
    • 首行定义字段结构,后续行需严格匹配
    • 允许空值(""),但必须保留字段
  • 技术限制:

    • 单行字符数 < 4000
    • 禁止空行/注释行

多模态数据集

  • 文件结构:
    dataset_folder/
    ├── metadata.jsonl  # 主数据文件
    └── images/         # 关联图像目录
    
  • JSONL 格式示例:
    {
        "images": [{"imageId": "example.jpg"}],
        "qa": []
    }
    
  • 图像要求:

数据集生命周期管理

每次上传创建独立数据集实体,支持以下操作:

  • 训练应用:作为微调数据源
  • 评估应用:提供测试问题集(支持带参考答案的自动化评估)
  • 版本管理:即将支持数据集版本回溯(Roadmap Q4)

最佳实践:建议通过描述字段记录数据来源、处理过程和关键特征,便于后续复用。


DeepExtension — 构建智能时代的高效数据管道