数据集管理¶
数据集管理模块是 DeepExtension 提供的结构化数据处理核心组件,支持数据集的规范化上传、版本化管理和全流程追踪,为模型训练与评估提供高质量数据支持。
核心特性¶
- 支持 JSONL 标准格式数据集上传
- 提供单文件与多模态两种数据集类型
- 后台异步处理机制确保大文件稳定上传
- 完整的上传校验与错误日志系统
- 即将推出的版本控制功能(开发中)
格式提示:当前仅支持 JSONL 格式。对于 JSON/CSV/Parquet 等格式数据,建议使用专业转换工具预处理。多格式支持已列入开发路线图。
数据集上传指南¶
上传流程¶
- 进入数据集页面 → 点击 【上传数据集】
-
选择数据集类型:
- 单文件数据集:独立 JSONL 文件
- 多模态数据集:包含 JSONL 和图像的文件夹
-
填写元数据:
- 数据集名称(必填)
- 数据集描述(建议详细说明数据用途和特征)
-
文件选择:
- 单文件:直接选取 JSONL 文件
- 多模态:选择符合规范的文件夹
-
提交上传(系统将启动后台处理)
- 结果查看:
- 成功:预览数据详情
- 失败:查看错误日志
格式规范¶
单文件数据集¶
- 编码标准:UTF-8
-
结构要求:
- 每行为完整 JSON 对象
- 首行定义字段结构,后续行需严格匹配
- 允许空值(""),但必须保留字段
-
技术限制:
- 单行字符数 < 4000
- 禁止空行/注释行
多模态数据集¶
- 文件结构:
dataset_folder/ ├── metadata.jsonl # 主数据文件 └── images/ # 关联图像目录 - JSONL 格式示例:
{ "images": [{"imageId": "example.jpg"}], "qa": [] } - 图像要求:
- 必须存在于 images 目录
- 文件名与 imageId 严格对应
注意: 相关数据集示例,请参阅快速开始:运行您的首次训练任务中的“开始之前”部分。
数据集生命周期管理¶
每次上传创建独立数据集实体,支持以下操作:
- 训练应用:作为微调数据源
- 评估应用:提供测试问题集(支持带参考答案的自动化评估)
- 版本管理:即将支持数据集版本回溯(Roadmap Q4)
最佳实践:建议通过描述字段记录数据来源、处理过程和关键特征,便于后续复用。
DeepExtension — 构建智能时代的高效数据管道