快速入门: 使用视觉模型和多图对比数据集进行模型评估¶
1. 准备数据集¶
- 下载示例数据集:
- 位置:
教程 → 快速上手 → 运行你的第一个训练 - 或使用自定义数据集:
- 格式要求:遵循
用户指南 → 数据集管理 → 多模态数据集规范提示:
我们的数据集包含成对的原始图像和修改后图像(由Black Forest Labs生成),并附带对应标注和生成提示词(存储在generation字段中)
2. 上传数据集¶
- 登录DeepExtension平台
- 进入
数据集管理页面 - 点击
上传数据集按钮 - 选择准备好的数据集文件
- 点击
提交并查看结果
3. 创建评估任务¶
- 前往
模型评估页面 - 点击
新建评估任务
配置参数:¶
-
评估模式:选择
裁判模型模式 -
数据集:选择已上传的多模态数据集
-
模型选择:
- 模型A
- 模型B
- 裁判模型(用于结果判定)
-
提示词配置:
- 用户提示词(示例):
对比这两张图像并描述差异 - 确保包含两个图像占位符
- 裁判提示词使用相同/相似内容
- 用户提示词(示例):
4. 预览与提交¶
- 可点击
预览验证配置 - 若预览结果符合预期,确认设置后点击
提交评估 - 可通过日志板块监控进度
5. 分析结果¶
- 完成后点击
查看结果 -
关键板块:
- 参数详情:验证配置信息
- 系统日志:查看执行记录
- 结果对比:分析模型输出与裁判反馈
-
可用操作:
- 下载CSV结果文件(在列表页面)
快速测试技巧¶
- 使用
DeepText功能 -
操作流程:
- 选择视觉语言模型
- 上传两张对比图像
- 输入提示词(如"描述图像差异")
-
实时查看模型推理结果
注意事项¶
- Token消耗:预览功能可避免资源浪费
- 图像格式:确保符合平台要求
- 裁判模型:建议选用优于测试模型的版本