Amazon Bedrock, 생성적 AI 품질 평가 효율성 향상을 위한 LLM-as-a-Judge 모델 평가 기능 출시

2025년 4월 10일

기업 사용자가 대규모 언어 모델(LLM)의 출력을 보다 효율적으로 평가하고 최적화할 수 있도록 돕기 위해 Amazon Bedrock이 출시되었습니다. LLM 판사 모델 평가 기능. 이 새로운 기능은 대규모 언어 모델을 사용하여 모델 출력의 품질을 평가하는 더 빠르고 확장 가능하며 일관된 방법을 제공하므로 모델 비교, 미세 조정 및 구현 중에 평가 프로세스가 간소화됩니다.

고품질 생성 AI 애플리케이션을 구축하기 위한 새로운 도구

기존의 모델 평가 방법은 종종 수동 라벨링에 의존하는데, 이는 시간과 노동력이 많이 소요될 뿐만 아니라 주관적인 편향으로 인해 평가 결과의 일관성이 부족하기 쉽습니다. LLM 심사위원은 사용자가 여러 측면(예: 관련성, 정확성, 단순성, 스타일 등)에서 모델 응답을 정량적으로 평가하여 다양한 모델 간 또는 다양한 프롬프트에 따른 성과 차이를 빠르게 파악할 수 있도록 해줍니다.

이 기능은 여러 모델 결과의 수평적 비교를 지원할 뿐만 아니라, 미세 조정된 모델의 개선 효과를 검증하는 데에도 사용할 수 있어 개발자가 실제 시나리오에 대한 AI 애플리케이션을 구축할 때 더욱 자신 있게 모델을 선택할 수 있도록 도와줍니다.

기업 수준 AI 개발의 전체 프로세스를 지원하기 위해 Amazon Bedrock과 원활하게 통합

LLM-as-a-Judge는 Amazon Bedrock의 통합 플랫폼 아키텍처에 통합되었습니다. 사용자는 복잡한 평가 프레임워크를 배포하지 않고도 익숙한 콘솔이나 API 인터페이스에서 직접 호출할 수 있습니다. Amazon Bedrock에서 제공하는 다양한 주류 기본 모델(Anthropic, Mistral, Meta, Cohere 등의 제조업체가 제공하는 모델 포함)을 통해 기업은 신속한 실험, 반복 및 배포를 달성하여 생성적 AI 프로젝트의 한계점과 비용을 크게 줄일 수 있습니다.

Amazon Bedrock은 기업 고객이 생성적 AI 모델을 보다 잘 평가하고 적용할 수 있도록 돕기 위해 클라우드에서 Amazon Bedrock 플랫폼의 기술적 발전에 계속 집중하고 있습니다. 언제든지 페이지 하단의 QR 코드를 스캔하여 저희 팀에 문의하세요.