Anthropic, Claude 3.5 Sonnet 출시, 벤치마크에서 GPT-4o와 경쟁

2024년 11월 18일

Anthropic은 최신 AI 언어 모델인 Claude 3.5 Sonnet 출시를 발표했습니다. 이는 출시된 Claude 3를 기반으로 한 새로운 "3.5" 모델 시리즈의 첫 번째 모델입니다. Claude 3.5는 텍스트를 작성하고, 데이터를 분석하고, 코드를 작성할 수 있습니다. 20만 개의 토큰 컨텍스트 창이 있으며 현재 Claude 웹사이트와 API를 통해 사용할 수 있습니다. Anthropic은 또한 Claude 인터페이스에 관련 작업 문서를 전용 창에 표시하는 새로운 기능인 Artifacts를 도입했습니다.

우리를온클라우드 AI이 기사를 통해 클로드 3.5 소네트에 대해 자세히 알아보세요.

대규모 언어 모델(LLM)에 대한 벤치마크는 신중하게 선택해야 하기 때문에 까다롭고, 상상할 수 있는 거의 모든 주제에 대한 기계 생성 출력의 느낌과 뉘앙스를 포착하지 못하는 경우가 많습니다. 하지만 Anthropic에 따르면 Claude 3.5 Sonnet은 MMLU(학부 수준 지식), GSM8K(초등학교 수학), HumanEval(코딩)과 같은 특정 벤치마크에서 GPT-4o 및 Gemini 1.5 Pro와 같은 경쟁 모델과 동등하거나 더 나은 성능을 보입니다.

클로드 3.5 소네트는 추론, 수학 능력, 일반 지식, 코딩 능력을 측정하는 벤치마크에서도 Anthropic의 이전 최고 모델(클로드 3 오푸스)보다 우수한 성적을 거두었습니다. 예를 들어, 이 모델은 내부 코딩 평가에서 좋은 성과를 보였으며, 문제의 64%를 풀었고, Claude 3 Opus 문제는 38%를 풀었습니다.

클로드 3.5 소네트 역시 이미지 형태의 시각적 입력을 받을 수 있는 다중 모드 AI 모델이며, 이 새로운 모델은 일련의 시각적 이해 테스트에서 좋은 성과를 보였다고 합니다.

대략적으로 말해서, 비전 벤치마크는 3.5 Sonnet이 이미지에서 정보를 추출하는 측면에서 이전 모델보다 더 나은 성과를 보인다는 것을 보여줍니다. 예를 들어, 축구 헬멧을 쓴 토끼 사진을 보여주면, 모델은 그것이 축구 헬멧을 쓴 토끼라는 것을 알고 그에 대해 이야기할 수 있습니다. 기술 시연에는 재밌지만, 신뢰성이 중요한 기술적 응용 분야에는 아직 기술이 충분히 정확하지 않습니다.

"아티팩트" 소개

일반 사용자에게 더 주목할 만한 것은 "아티팩트"라는 새로운 인터페이스 기능입니다. 이 기능을 사용하면 사용자는 대화를 나누는 동안 전용 창에서 클로드가 생성한 콘텐츠(예: 코드, 텍스트, 웹 디자인)와 상호 작용할 수 있습니다.

Anthropic은 이를 Claude.ai(웹 인터페이스)를 팀을 위한 협업 작업 공간으로 발전시키기 위한 단계로 보고 있지만, 동시에 사람들이 긴 대화의 잔여물에 빠지지 않고 작업할 수 있도록 돕는다.

Anthropic에 따르면 Claude 3.5 Sonnet은 Claude 3 Opus보다 두 배 더 빠르다고 합니다. 거의 동일한 성능을 제공하면서도 가격은 더 저렴합니다. 새로운 3.5 모델의 API 입력 토큰은 100만 개당 3달러, 출력 토큰은 100만 개당 15달러입니다. 비교해 보면, Opus의 비용은 100만 개의 입력 토큰당 15달러, 100만 개의 출력 토큰당 75달러입니다.

Claude 3.5 Sonnet은 웹사이트와 API 외에도 Claude iOS 앱을 통해서도 접속할 수 있으며, 유료 사용자의 경우 사용 한도가 더 높습니다. 이 모델은 Amazon의 Bedrock과 Google Cloud의 Vertex AI 플랫폼을 통해서도 사용할 수 있습니다.