跳转至

快速入门: 使用视觉模型和多图对比数据集进行模型评估

1. 准备数据集

2. 上传数据集

  1. 登录DeepExtension平台
  2. 进入数据集管理页面
  3. 点击上传数据集按钮
  4. 选择准备好的数据集文件
  5. 点击提交并查看结果

3. 创建评估任务

  1. 前往模型评估页面
  2. 点击新建评估任务

配置参数:

  • 评估模式:选择裁判模型模式

  • 数据集:选择已上传的多模态数据集

  • 模型选择

    • 模型A
    • 模型B
    • 裁判模型(用于结果判定)
  • 提示词配置

    • 用户提示词(示例):
      对比这两张图像并描述差异
      
    • 确保包含两个图像占位符
    • 裁判提示词使用相同/相似内容

4. 预览与提交

  1. 可点击预览验证配置
  2. 若预览结果符合预期,确认设置后点击提交评估
  3. 可通过日志板块监控进度

5. 分析结果

  1. 完成后点击查看结果
  2. 关键板块:

    • 参数详情:验证配置信息
    • 系统日志:查看执行记录
    • 结果对比:分析模型输出与裁判反馈
  3. 可用操作:

    • 下载CSV结果文件(在列表页面)

快速测试技巧

  1. 使用DeepText功能
  2. 操作流程:

    • 选择视觉语言模型
    • 上传两张对比图像
    • 输入提示词(如"描述图像差异")
  3. 实时查看模型推理结果

注意事项

  1. Token消耗:预览功能可避免资源浪费
  2. 图像格式:确保符合平台要求
  3. 裁判模型:建议选用优于测试模型的版本