Claude Sonnet 3.5 및 Claude 3.5 Haiku 업데이트

우리를온클라우드 AIClaude Sonnet 3.5와 Claude 3.5 Haiku의 최신 기능과 향상된 기능에 대해 자세히 알아보세요. 여기에는 향상된 성능, 새로운 기능, 사용자 친화적인 업데이트가 포함됩니다. 첨단 AI 시 도구 분야에서 이러한 릴리스가 어떻게 독특한지 최신 소식을 받아보세요.

코딩 기술

  • SWE-bench 검증 점수는 33.4%에서 49.0%로 증가하여 다른 공개 모델을 능가했습니다.
  • 에이전트 도구 사용 작업(TAU-bench)의 성능 향상:
    • 소매 부문: 62.6%에서 69.2%로
    • 항공 부문: 36.0%에서 46.0%로 증가

속도와 효율성

  • Claude 3 Opus보다 두 배 빠르게 실행됩니다.
  • 개선에도 불구하고 비용 구조는 변함없이 유지됩니다.

컴퓨터 사용(공개 베타)

  • Claude가 인간처럼 컴퓨터 인터페이스와 상호 작용할 수 있도록 합니다.
  • 화면을 탐색하고, 커서를 이동하고, 텍스트를 입력할 수 있습니다.
  • OSWorld 벤치마크 점수는 14.9%로 경쟁사의 7.7%보다 상당히 높습니다.

문화유적 특징

  • 대화 옆에 생성된 콘텐츠를 표시하기 위한 전용 창을 만듭니다.
  • 세 가지 유형의 아티팩트가 지원됩니다.
    • 텍스트 기반 쓰기 과제
    • 시각 효과가 필요한 프로젝트에 적합합니다.
    • 개발 작업 코드

클로드 3.5 소네트

  • 이제 향상된 지표와 함께 사용 가능
  • 우수한 대학원 수준의 추론 능력과 학부 수준의 지식을 보유하고 있습니다.
  • 그래프와 차트의 시각적 분석 개선

클로드 3.5 하이쿠

Claude 3 Opus의 성능에 걸맞은 새로운 비용 효율적인 모델

SWE-벤치 검증 점수는 40.6%입니다.

고객 중심 애플리케이션에 최적화됨

능력 클로드 3.5 소네트(신작) 채팅GPT 4o 제미니 1.5 프로
다중 모드 추론 점수 0.92 0.90 0.89
OCR/필기 인식 훌륭한 훌륭한 훌륭한
차트/그래프 설명 우수한 좋아요 좋아요
시각 데이터 처리 고급의 기초적인 기초적인
컨텍스트 창 크기 20만 개의 토큰 8K 토큰 8K 토큰

Claude 3.5 Sonnet은 다중 모드 추론 과제에서 좋은 성과를 거두었습니다. 특히 다음과 같은 과제에서 좋은 성과를 거두었습니다.

  • 시각적 데이터 해석 및 분석
  • 시각적 요소를 사용하여 대용량 문서 작업
  • 고급 차트 및 그래프 이해

세 가지 모델 모두 OCR 및 판독 불가능한 필체 인식과 같은 기본적인 시각 작업에서는 동일하게 좋은 성능을 보이지만, Claude 3.5 Sonnet은 자세한 분석과 설명이 필요한 보다 복잡한 시각적 추론 시나리오에서 특히 뛰어난 성능을 보여줍니다.

Sonnet의 최신 릴리스인 Claude 3.5는 AI 커뮤니티에서 큰 반향을 일으켰으며, 사용자들은 인상적인 개선 사항과 예상치 못한 문제점을 모두 보고했습니다. 새로운 모델에 따른 개발자 및 사용자 경험에 대한 포괄적인 살펴보기는 다음과 같습니다.

iOS 개발 성공여러 개발자들은 Sonnet 3.5를 사용하여 iOS 애플리케이션을 개발하면서 긍정적인 경험을 했으며 문제 해결 기술이 크게 향상되었다고 보고했습니다[1]. 일부 사용자는 성능 면에서 불일치를 지적했지만, 이 모델은 복잡한 코딩 문제를 해결하는 능력이 향상된 것으로 나타났습니다.

통합 워크플로개발자들은 Claude를 다양한 도구와 결합하여 효과적인 워크플로를 만들었습니다.

  • 일반 질의를 위한 웹 인터페이스
  • Bolt Mac 앱을 통한 API 통합
  • 직접 코드 상호 작용을 위한 커서
  • 프로젝트 파일을 관리하기 위한 사용자 정의 Python 스크립트

성격 강화사용자들은 Sonnet 3.5가 대화에서 더 개성적이고 참여적인 모습을 보인다고 생각했으며, 일부 사용자는 상호작용에서 "매우 개인적"이고 "놀랍다"고 말했습니다.[1] 이 모델은 이전 버전에 비해 응답에 있어 더 큰 확신과 지능을 보여주었습니다.

일관성 문제일부 사용자는 일관되지 않은 동작을 보고했습니다.

  • 가끔 불필요하게 응답을 분할합니다.
  • 복잡한 쿼리를 처리할 때 성능이 불안정함
  • 세션마다 응답 품질이 다릅니다.

속도 제한사용자들은 특히 대규모 프로젝트나 긴 대화를 진행할 때 속도 제한에 어려움을 겪는다고 지적했습니다. 토큰 기반 할당 시스템은 효율성을 극대화하기 위해 대화 맥락을 전략적으로 관리해야 합니다.

코드 수정 문제일부 개발자는 코드 수정과 관련된 문제를 보고했습니다.

  • 코드 개선 중에 중요한 기능이 가끔 제거됩니다.
  • 스토어 및 캐시 지침의 일관되지 않은 처리
  • 원하는 기능을 유지하려면 여러 개의 프롬프트가 필요합니다.

Claude 3.5 Sonnet은 여러 측면에서 상당한 진전을 이루었지만, 그 성능은 구체적인 사용 사례와 구현에 따라 달라집니다. 사용자는 한계를 극복하면서 장점을 극대화하기 위해 적절한 워크플로와 전략을 개발하는 것이 좋습니다.

더 탐험할 것

당신이 필요한 것을 말해