模型评估¶
模型评估模块是 DeepExtension 提供的一套强大的批量评估框架,用于通过真实的数据集评估和对比模型的输出表现。该模块旨在帮助用户大规模地从定量与定性两个维度评估模型行为、输出质量与对齐程度。
评估模式¶
DeepExtension 支持四种灵活的评估模式:
- 单模型候选项:从一个模型生成答案,不进行判断,仅输出内容。
- 双模型候选项:从两个模型生成答案,并进行并排对比。
- 1 候选 + 1 评审:由一个评审模型根据预设标准评估候选模型的回答。
- 2 候选 + 1 评审:由评审模型对比两个候选答案,并给出更优选项及评分或解释。
创建新的评估任务¶
- 在“模型评估”页面点击 “新建评估”
- 选择评估模式、评估用的数据集、样本数量(默认使用全部样本)。
- 数据集支持包含图片字段,用户可以选择包含图片的数据集以支持视觉模型评估。
- 选择 模型 A,如适用还可选择 模型 B 和 评审模型。
模型选择范围与 DeepText 一致,支持(包含视觉模型):- 第三方模型(如 OpenAI、Anthropic、ModelScope 等)
- 定制模型
- 上线模型
- 支持选择模型的时候同时选择知识库,保证在需要特定领域知识时,模型回答的内容更准确。
- 定义提示词(Prompt):
- 候选模型系统提示词:用于推理的系统提示(参见 DeepText)。如为空,将自动注入默认系统消息,如 “我是一个 AI 助手。”
- 候选模型用户提示词:
- 支持包含动态占位符如
{{column_name}},以从数据集中提取值,例如请简要回答问题:{{question}},{{question}}为数据集中某一列字段名 - 支持纯自然语言文本提示词,如
对比图片1和图片2的区别 - 如果提示词中涉及到了图片,需要在添加提示词时在下拉框时添加图片字段,例如
image1、image2,对于图片类型的字段,选择后将自动将图片作为模型输入,并且可以调整图片顺序 - 评审模型系统提示词:告知评审模型采用何种评估标准,可包含
{{CandidateSystemPrompt}} - 评审模型用户提示词:
- 使用
{{ResponseA}}、{{ResponseB}}、{{ref_answer}}等占位符,例如:根据参考答案 {{ref_answer}},比较答案 A:{{ResponseA}} 与答案 B:{{ResponseB}} - 如果提示词中涉及到了图片,需要在添加提示词时在下拉框时添加图片字段,例如
image1、image2,对于图片类型的字段,选择后将自动将图片作为模型输入,并且可以调整图片顺序
执行前预览¶
在启动评估前,可使用最多 5 条样本进行预览,验证提示词与模型输出是否正确:
- 点击 “预览”
- 查看提示词与模型输出结果
- 如果数据集包含图片字段,预览界面会显示问题对应的图片
- 根据需要进行修改
确认无误后,点击 “提交评估”,评估过程将以 批量模式 执行。
查看评估结果¶
在“模型评估”主页面,点击 “查看” 可查看已完成的评估任务,包含三个标签页:
- 评估概览:显示所有配置详情
- 日志:展示评估过程中的系统日志
- 结果:以表格形式展示最终结果,如果数据集包含图片字段,结果页面会显示每个问题对应的图片
下载评估结果¶
在评估任务完成后,点击 “下载” 可将结果导出为 .csv 文件。
复制现有评估¶
若想基于现有评估快速调整配置并再次运行:
- 打开已完成的评估任务,进入 “评估概览” 标签页
- 点击 “复制”
- 所有配置项将自动填充,可快速修改并重新运行评估
DeepExtension — 为企业打造的可扩展、灵活、可解释的大模型评估系统