アントロピック — クロード 3.5 ソネットとクロード 3.5 ハイクが新しいコンピュータ機能を導入

Anthropic は、AI 製品ラインの 2 つの主要なアップグレードである Claude 3.5 Sonnet と Claude 3.5 Haiku をリリースしました。これらの改善に加えて、パブリック ベータ版では新しいコンピューター使用機能もリリースされました。これらの開発により、自動化、コーディング、コンピューターナビゲーションの限界が押し広げられ、開発者と企業に新たな可能性がもたらされます。私たちオンクラウドAIこの記事では、クロード 3.5 ソネットとクロード 3.5 俳句について詳しく説明します。

クロード 3.5 ソネット: ソフトウェアエンジニアリングの強化

Claude 3.5 Sonnet は、コーディング機能と自動化機能が強化され、前バージョンから大幅にアップグレードされています。このモデルはエージェント エンコーディング タスクで優れたパフォーマンスを発揮し、SWE-bench Verified などのベンチマークでパフォーマンスが 33.4% から 49% に向上し、OpenAI の o1-preview などの公開モデルを上回りました。また、ツールベースの問題解決を評価するTAUベンチマークでも高いスコアを獲得しました。

  • 小売業:62.6%から69.2%へ
  • 航空:36%から46%へ

これらの利点はコストや遅延なしに得られるため、Claude 3.5 Sonnet は複雑で多段階の開発タスクに最適なソリューションとなります。 GitLab などの企業は、DevSecOps タスクの推論において 10% の改善を報告しています。 Browser Company は、このモデルが Web ベースのワークフローの自動化にも最適であることも発見しました。

このモデルは、安全な展開を確保するために、米国および英国の AI 安全研究所と連携して厳密にテストされています。これは ASL-2 に準拠しており (Anthropic の責任ある拡張ポリシーの一部)、より広範な使用に必要な安全ベンチマークを満たしていることが確認されています。

クロード 3.5 Haiku: 手頃な価格で高速かつ強力なAI

新しい Claude 3.5 Haiku モデルは、速度とコスト効率を重視して設計されており、複数の評価において Anthropic の以前の最大モデルである Claude 3 Opus のパフォーマンスに匹敵します。このモデルは、低レイテンシのタスクで優れたパフォーマンスを発揮し、ユーザー向け製品やデータ集約型タスクなどのリアルタイム アプリケーションに適しています。

Claude 3.5 Haiku は、SWE-bench Verified で 40.6% のスコアを獲得し、いくつかの面では以前の Claude モデルや GPT-4o を上回りました。正確なツールの使用と改善された指示追跡機能を提供し、購入履歴、価格記録、在庫データなどの大規模なデータセットからパーソナライズされたエクスペリエンスを効果的に生成することを可能にします。

このモデルは、Anthropic の API、Amazon Bedrock、Google Cloud Vertex AI を通じて 10 月下旬に利用可能になる予定です。当初はテキストのみのタスクをサポートしますが、画像入力機能は近日中にリリースされる予定です。

AI駆動型コンピュータの使用はパブリックベータ版で利用可能

Anthropic で導入された最もエキサイティングな機能の 1 つは、Claude がコンピューターを使用できることです。現在、Claude はパブリック ベータ ステージに入っており、開発者は Claude を使用して、画面の閲覧、入力、クリックなど、人間のようなタスクを実行できます。この機能により、モデルは反復的なプロセスを自動化し、オープン リサーチを実施し、さらには複数のプラットフォーム間でソフトウェアをテストすることもできます。

Replit のような早期導入企業はすでにこの機能を使用して、複雑な UI ナビゲーション タスクを自動化し、開発中に Replit Agent 製品がアプリケーションを評価できるようにしています。

OSWorld が実施したテストでは、Claude 3.5 Sonner は、タスクを完了するためにさらに時間を与えられたときに 22% のスコアを獲得し、わずか 7.8% のスコアしか獲得できなかった他の AI モデルを上回りました。ただし、この機能はまだ実験段階であり、いくつかの制限があります。スクロール、ズーム、ドラッグを必要とするタスクは、AI がスムーズに実行するのが難しい場合があります。開発者は、その可能性を探るために、リスクの低いプロジェクトから始めることをお勧めします。 Anthropic は、フィードバックに基づいてこの機能を継続的に改善することを約束しています。

安全な展開を確保する

スパム、詐欺、誤情報などのセキュリティリスクに対処するため、Anthropic はコンピュータの不正使用を監視し防止するための新しい分類器を開発しました。このプロアクティブなアプローチにより、AI 駆動型の自動化が責任を持って導入されることが保証されます。

Claudeモデルのデータセットとトレーニングの詳細

Google Cloud によると、すべての Claude モデルはいくつかの手法を使用してトレーニングされます。

  • 教師なし学習(生データのパターンから学習)
  • 人間のフィードバックによる強化学習 (RLHF) (人間のフィードバックによる改善)
  • 物理的な人工知能(教師あり学習と強化学習を含むプロセス)。

トレーニングインフラ

Claude 3.5 Sonnet v2 は、Amazon Web Services (AWS) および Google Cloud Platform (GCP) が提供するクラウド サービスを使用してトレーニングされます。開発に使用される主なフレームワークには、PyTorch、JAX、Triton などがあります。

トレーニングデータソース

Claude モデルでは、次のようなさまざまなデータが使用されます。

  1. 2023 年 8 月時点で収集された公開インターネット情報。Claude 3.5 Sonnet v2 のトレーニングは 2024 年 4 月に終了しました。
  2. ユーザー、会社、または雇用されたサービスプロバイダーによって作成またはタグ付けされたコンテンツを含む、第三者からの非公開データ。
  3. Anthropic 内部で生成されたデータを使用してモデルが改良されました。

データのクリーニングとフィルタリング

高いデータ品質を確保するために、Anthropic は重複排除 (重複情報の削除) や分類などの手法を使用して、無関係なデータや品質の低いデータを除外します。

さらに詳しく

何が必要か教えてください