Anthropic은 AI 제품 라인에 Claude 3.5 Sonnet과 Claude 3.5 Haiku라는 두 가지 주요 업그레이드를 출시했습니다. 이러한 개선 사항 외에도 새로운 컴퓨터 사용 기능도 공개 베타에 출시되었습니다. 이러한 발전은 자동화, 코딩, 컴퓨터 탐색의 경계를 넓혀 개발자와 기업에 새로운 가능성을 열어줍니다. 우리를온클라우드 AI이 기사에서는 클로드 3.5 소네트와 클로드 3.5 하이쿠에 대해 자세히 살펴보겠습니다.
클로드 3.5 소네트: 소프트웨어 엔지니어링 강화
Claude 3.5 Sonnet은 이전 모델에 비해 상당히 업그레이드되어 코딩 및 자동화 기능이 향상되었습니다. 이 모델은 에이전트 인코딩 작업에서 좋은 성능을 보이며 SWE-bench Verified와 같은 벤치마크에서도 33.4%에서 49%로 성능이 향상되어 OpenAI의 o1-preview를 포함한 공개 모델보다 우수한 성능을 보였습니다. 또한 도구 기반 문제 해결을 평가하는 TAU 벤치마크에서도 더 높은 점수를 받았습니다.
- 소매 부문:62.6%에서 69.2%로
- 비행:36%에서 46%로
이러한 이점은 비용이나 지연 없이 제공되므로 Claude 3.5 Sonnet은 복잡하고 여러 단계로 구성된 개발 작업에 이상적인 솔루션입니다. GitLab과 같은 회사는 DevSecOps 작업 추론에서 10%의 개선을 보고합니다. Browser Company는 또한 이 모델이 웹 기반 워크플로를 자동화하는 데 매우 효과적이라는 것을 발견했습니다.
이 모델은 안전한 배포를 보장하기 위해 미국 및 영국 AI 안전 연구소와 협력하여 엄격한 테스트를 거쳤습니다. 이 제품은 ASL-2 규격을 준수하며(Anthropic의 책임 있는 확장 정책의 일부), 보다 광범위한 사용에 필요한 안전 기준을 충족함을 확인합니다.
Claude 3.5 Haiku: 저렴하고 빠르며 강력한 AI
새로운 Claude 3.5 Haiku 모델은 속도와 비용 효율성을 고려하여 설계되었으며, 여러 평가에서 Anthropic의 이전 최대 모델인 Claude 3 Opus의 성능과 맞먹는 성능을 보였습니다. 이 모델은 대기 시간이 짧은 작업에서 좋은 성능을 발휘하며 사용자 중심 제품 및 데이터 집약적 작업과 같은 실시간 애플리케이션에 매우 적합합니다.
Claude 3.5 Haiku는 SWE-bench Verified에서 40.6% 점수를 받았으며, 일부 측면에서는 이전 Claude 모델과 GPT-4o보다 우수한 성능을 보였습니다. 이 솔루션은 정확한 도구 사용과 향상된 지침 추적 기능을 제공하여 구매 내역, 가격 기록, 재고 데이터와 같은 대규모 데이터 세트에서 효과적으로 개인화된 경험을 생성할 수 있게 해줍니다.
이 모델은 10월 말부터 Anthropic의 API, Amazon Bedrock, Google Cloud Vertex AI를 통해 출시될 예정입니다. 처음에는 텍스트만 지원하는 작업을 지원하지만, 이미지 입력 기능도 곧 출시될 예정입니다.
AI 기반 컴퓨터 사용이 공개 베타 단계에 있습니다.
Anthropic이 선보인 가장 흥미로운 기능 중 하나는 클로드가 컴퓨터를 사용할 수 있는 능력입니다. 현재 Claude는 공개 베타 단계에 들어섰으며, 개발자는 Claude를 사용하여 사람처럼 화면 탐색, 타이핑, 클릭 등의 작업을 수행할 수 있습니다. 이 기능을 통해 모델은 반복적인 프로세스를 자동화하고, 공개 연구를 수행하고, 심지어 여러 플랫폼에서 소프트웨어를 테스트할 수도 있습니다.
Replit과 같은 초기 채택자는 이미 이 기능을 사용하여 복잡한 UI 탐색 작업을 자동화하고 개발 중에 Replit Agent 제품이 애플리케이션을 평가하도록 돕고 있습니다.
OSWorld에서 실시한 테스트에서 클로드 3.5 소너는 작업을 완료하는 데 더 많은 시간이 주어졌을 때 22%를 기록하여 7.8%만 기록한 다른 AI 모델보다 우수한 성적을 거두었습니다. 하지만 이 기능은 아직 실험 단계이며 몇 가지 한계가 있습니다. 스크롤, 확대/축소 또는 드래그가 필요한 작업은 AI가 원활하게 수행하기 어려울 수 있습니다. 개발자들은 잠재력을 탐색하기 위해 위험이 낮은 프로젝트부터 시작하는 것이 좋습니다. Anthropic은 피드백을 바탕으로 이 기능을 지속적으로 개선해 나갈 것을 약속드립니다.
안전한 배포를 보장합니다
스팸, 사기 또는 잘못된 정보와 같은 보안 위험을 해결하기 위해 Anthropic은 컴퓨터 남용을 모니터링하고 방지하는 새로운 분류 방법을 개발했습니다. 이러한 사전 예방적 접근 방식은 AI 기반 자동화가 책임감 있게 배포되도록 보장하는 데 도움이 됩니다.
Claude 모델에 대한 데이터 세트 및 교육 세부 정보
Google Cloud에 따르면 모든 Claude 모델은 다음과 같은 여러 기술을 사용하여 학습됩니다.
- 비지도 학습(원시 데이터의 패턴을 통한 학습)
- 인간 피드백을 통한 강화 학습(RLHF) (인간 피드백을 통한 개선)
- 물리적 인공지능(지도 학습과 강화 학습을 포함하는 프로세스).
훈련 인프라
Claude 3.5 Sonnet v2는 Amazon Web Services(AWS)와 Google Cloud Platform(GCP)에서 제공하는 클라우드 서비스를 사용하여 학습되었습니다. 개발에 사용되는 주요 프레임워크로는 PyTorch, JAX, Triton이 있습니다.
훈련 데이터 소스
Claude 모델은 다음을 포함한 다양한 데이터를 사용합니다.
- 2023년 8월 현재 공개 인터넷 정보가 수집되었으며, Claude 3.5 Sonnet v2의 교육은 2024년 4월에 종료되었습니다.
- 사용자, 회사 또는 고용된 서비스 제공자가 생성하거나 태그를 지정한 콘텐츠를 포함한 제3자의 비공개 데이터입니다.
- Anthropic에서 내부적으로 생성한 데이터는 모델을 개선하는 데 사용되었습니다.
데이터 정리 및 필터링
높은 데이터 품질을 보장하기 위해 Anthropic은 중복 제거(중복된 정보 제거) 및 분류와 같은 방법을 사용하여 관련성이 없거나 품질이 낮은 데이터를 걸러냅니다.