Amazon Bedrock 推出 LLM-as-a-Judge 模型评测功能，提升生成式AI质量评估效率

10 4 月, 2025

为了帮助企业用户更高效地评估和优化大语言模型（LLM）的输出效果，Amazon Bedrock现已正式推出 LLM-as-a-Judge 模型评测能力。这一新功能通过使用大型语言模型对模型输出进行质量判断，提供更快速、可扩展且一致的评测方式，从而简化模型对比、微调和落地应用过程中的评估流程。

构建高质量生成式AI应用的新利器

传统的模型评测方式往往依赖人工标注，不仅耗时耗力，且评判结果容易因主观偏差而缺乏一致性。LLM-as-a-Judge通过在多种维度（如相关性、准确性、简洁性、风格等）上对模型响应进行量化评分，使用户能够快速识别不同模型或不同提示（Prompt）下的性能差异。

该功能不仅支持对多个模型结果进行横向比较，还能用于验证微调后的模型改进效果，帮助开发者在构建面向真实场景的AI应用时，更有信心地做出模型选择。

与 Amazon Bedrock 无缝集成，支持企业级AI开发全流程

LLM-as-a-Judge 已集成至 Amazon Bedrock 的统一平台架构中，用户可在熟悉的控制台或API界面下直接调用，无需额外部署复杂的评测框架。配合Amazon Bedrock上提供的多种主流基础模型（包括Anthropic、Mistral、Meta、Cohere等厂商的模型），企业可实现快速试验、迭代与部署，极大地降低了生成式AI项目的门槛与成本。

在云上持续关注Amazon Bedrock平台的技术演进，帮助企业客户更好地评估和应用生成式AI模型。欢迎随时扫描页面底部二维码联系我们团队。

更多探索

Oncloud AI已帮上千家企业通过AWS实现业务增长

丨联系我们

丨快速链接

☎️ 18013044985

📍 HongKong| 南京 | 上海 |

✉️ sales@oncloudai.com

telegram

微信

WhatApp

版权所有©2024 在云上.保留所有权利苏ICP备2021041932号-2