インターネットの急速な発展を背景に、ユーザー生成コンテンツ(UGC)が急増し、ソーシャルメディア、電子商取引、動画プラットフォーム上に大量のテキスト、画像、動画などの情報が出現しました。ただし、不適切または違法なコンテンツが含まれている場合があり、プラットフォームのイメージやユーザー エクスペリエンスに影響を及ぼす可能性があります。したがって、効率的かつ正確なコンテンツレビューが不可欠です。
従来の手動レビューはコストがかかり、非効率的で、主観的な要因の影響を受けやすいため、マルチモーダルおよび多言語のレビュー要件に対応することが困難です。生成 AI テクノロジーは、大規模な言語モデルとマルチモーダル モデルを活用して、違法コンテンツを自動的かつ効率的に識別し、レビュー プロセスを最適化する新しいソリューションを提供します。
この記事では、Amazon Bedrock が提供する生成 AI モデルをテキストレビューに使用する方法を説明し、DeepSeek、Nova、Claude 3.x などのモデルのパフォーマンスを精度、レイテンシー、コストの観点から評価して、ユーザーが最適なソリューションを選択できるようにします。
DeepSeekモデルのアクセスと説明
DeepSeekは、2024年12月にDeepSeek-V3を発売した中国のAIスタートアップ企業であり、2025年1月にはDeepSeek-R1、DeepSeek-R1-Zero(6,710億パラメータ)、DeepSeek-R1-Distill(15~70億パラメータ)などのモデルを発売しました。これらのモデルは公開されており、類似製品よりも90~95%安く、強力な推論機能と高い費用対効果を備えています。
海外の Amazon Web Services アカウントを使用して、DeepSeek-R1 とその蒸留モデルを Amazon Bedrock または Amazon SageMaker AI にデプロイできます。 Bedrock は高速な API 統合に適しており、SageMaker AI はより深いカスタマイズとトレーニングをサポートします。さらに、AWS Trainium と Inferentia は、テキストレビュー用に EC2 または SageMaker AI に DeepSeek-R1-Distill を効率的にデプロイするのに役立ちます。
Amazon Web Services China アカウントを使用すると、パートナーの Silicon Mobility を通じてマーケットプレイス内の DeepSeek モデルの全範囲にアクセスし、プライベート展開に SageMaker AI または EC2 を選択して効率的なレビューを実現できます。
テキストレビューにおけるDeepSeekシリーズモデルの比較
このデータは、Amazon Marketplace Siliconflow API と Amazon Bedrock DeepSeek-R1 API を使用してテストし、テキストレビューにおける DeepSeek シリーズのモデルのパフォーマンスを比較します。
正確さ、DeepSeek-R1 は 97.14% に達し最高スコアを獲得しました。また、DeepSeek Distilled Qwen 32B は 92.86% となり、DeepSeek Distilled Llama70B を上回り、DeepSeek-R1 に次ぐスコアを獲得しました。
応答速度DeepSeek Distilled Qwen 32B の最初のバイトのレイテンシは 0.29ms で、DeepSeek-R1 の 2 倍の速度です。
コスト比較10,000 回の呼び出しで、DeepSeek Distilled Qwen 32B と DeepSeek-V3 の価格は、DeepSeek-R1 シリコン ベース フロー API の 13% のみです。 Bedrock DeepSeek-R1 API は少し高価ですが、レイテンシは 52.6% 短縮され、最初のバイトの応答は 40% 改善されます。
結論はDeepSeek Distilled Qwen 32B と DeepSeek-R1 は最高の価格性能比を誇り、DeepSeek-V3 はモデルのトレーサビリティを必要としないユーザーに適しており、低コストで高精度の監査を提供します。
注意: DeepSeek Silicon Mobility API は中国のアカウントでのみ利用可能です。海外のユーザーはBedrock DeepSeek-R1 APIをご利用いただけます。
ディープシーク シリーズモデル | 正確さ | 合計レイテンシ/秒 | ttft/s | API 100万トークンあたり コール価格 | EC2 導入価格/時間 | 展開 | モデル |
DeepSeek蒸留Qwen1.5B | 11.43% | 2.31 | 0.04 | 1.50円 | $1.21 | アマゾンEC2 | g5.2xlarge |
DeepSeek Distilled Qwen7B | 65.71% | 3.4 | 0.09 | 3.75円 | $1.21 | アマゾンEC2 | g5.2xlarge |
DeepSeek蒸留Qwen14B | 84.29% | 16.002 | 0.62 | 7.49円 | $5.67 | アマゾンEC2 | g5.12xlarge |
DeepSeek蒸留Qwen32B | 92.86% | 11.26 | 0.26 | 12.60円 | $5.67 | アマゾンEC2 | g5.12xlarge |
DeepSeek蒸留ラマ8B | 72.86% | 15.53 | 0.39 | 4.49円 | $1.21 | アマゾンEC2 | g5.2xlarge |
DeepSeek 蒸留ラマ70B | 91.42% | 2.95 | 0.3 | 44.19円 | $4.60 | アマゾンEC2 | g6.12xlarge |
Deepseek-R1 シリコンベースフローAPI | 97.14% | 21.55 | 0.4241 | 111.20円 | 非数 | Amazon マーケットプレイス シリコンモビリティ API | 非数 |
Bedrock DeepSeek-R1 API | 97.14% | 10.22 | 0.25 | 271.40円 | 非数 | Amazon Bedrock ディープシーク API | 非数 |
ディープシークV3 | 95.71% | 8.2 | 0.75 | 15.28円 | 非数 | Amazon マーケットプレイス シリコンモビリティ API | 非数 |
モデル精度の比較
テキストレビュータスクでは、DeepSeek-R1 が 97.14% の精度でリードし、DeepSeek-V3 は 95.71% に達し、DeepSeek Distilled Qwen 32B と DeepSeek Distilled Llama 70B はそれぞれ 92.86% と 91.42% でした。注目すべきは、Qwen 32B が Llama 70B を上回り、DeepSeek-R1 に次ぐ性能であることです。
レイテンシパフォーマンスの比較
API 呼び出しでは、Bedrock DeepSeek-R1 はシリコンベースのストリーミング API よりも最初のバイトに 40% 速く応答し、合計レイテンシを 52.6% 削減します。 DeepSeek-V3 は総レイテンシが最も低いですが、最初のバイトの応答は遅くなります。
EC2 デプロイメントでは、DeepSeek Distilled Qwen 7B や 1.5B などの小型モデルでは最初のバイトのレイテンシが最も低く (0.09 秒と 0.04 秒) なっていますが、全体のレイテンシは高くなっています。 Llama 70B などの大規模モデルでは、g6.12xlarge での合計レイテンシはわずか 2.95 秒で、Qwen 32B では最初のバイトのレイテンシが 0.26 秒、g5.12xlarge での合計レイテンシは 11.26 秒です。全体的に、適切なハードウェアでは、小さいモデルは応答が速く、大きいモデルは全体的なレイテンシが低くなります。
コスト比較
API面では、DeepSeek-V3の価格はDeepSeek-R1シリコンベースのフローAPIのわずか13.7%で、精度率は1.43%削減されており、コストパフォーマンスに優れています。 Bedrock DeepSeek-R1 は高価ですが、レイテンシの最適化が大幅に行われており、応答速度に対する要件が高いシナリオに適しています。
EC2 展開の場合、DeepSeek Distilled Qwen 32B は精度とコストのバランスを保ち、Llama 70B は低コストで同様の精度を提供します。小型モデルは安価ですが、精度が大幅に低下するため、高精度の監査ニーズには適していません。
DeepSeekとClaudeとNovaの比較
次に、同じデータセットで DeepSeek-R1、Claude 3.x、Nova シリーズのモデルを比較し、テキストレビューにおける総合的なパフォーマンスを評価します。
正確さ | 合計レイテンシ/秒 | ttft/s | 価格/10,000通話 | 平均入力トークン/時間 | 平均出力トークン/時間 | 展開 | |
ディープシークV3 | 95.71% | 8.2 | 0.75 | 15.28円 | 500 | 66 | Amazon マーケットプレイス シリコンモビリティ API |
Bedrock DeepSeek R1 API | 97.14% | 10.22 | 0.25 | 271.40円 | 500 | 570 | Amazon ベッドロック API |
DeepSeek-R1 シリコンベースのストリーミング API | 97.14% | 21.55 | 0.4241 | 111.20円 | 500 | 570 | Amazon マーケットプレイス シリコンモビリティ API |
クロード 3.5 俳句 | 91.43% | 3.53 | 0.46 | 49.43円 | 500 | 175 | Amazon ベッドロック API |
クロード 3.5 ソネット | 95.71% | 4.37 | 0.53 | 134.81円 | 500 | 150 | Amazon ベッドロック API |
クロード 3.7 ソネット | 97.14% | 3.81 | 0.73 | 134.81円 | 500 | 150 | Amazon ベッドロック API |
Amazon Nova Pro | 95.71% | 2.65 | 0.43 | 45.56円 | 500 | 73 | Amazon ベッドロック API |
Amazon Nova Lite | 94.28% | 1.1 | 0.38 | 3.62円 | 500 | 85 | Amazon ベッドロック API |
モデル精度の比較
テキストレビュータスクでは、Claude 3.7 Sonnet と DeepSeek-R1 が 97.14% の精度で同率 1 位となり、これに Amazon Nova Pro、Claude 3.5 Sonnet、DeepSeek-V3 がいずれも 95.71% で続きました。 Amazon Nova Lite の低レイテンシーとコストの利点も注目に値します。
レイテンシパフォーマンスの比較
Amazon Nova Lite は、合計レイテンシが 1.1 秒、最初のバイトの遅延 (TTFT) が 0.38 秒で、最高のパフォーマンスを発揮しました。 Nova Pro の合計遅延は 2.65 秒、最初のバイトの遅延は 0.43 秒でした。 Claude 3.7 Sonnet は、高い精度を保ちながら、遅延はわずか 3.81 秒でした。
DeepSeek シリーズではレイテンシが高くなります。 DeepSeek-V3 の合計レイテンシは 8.2 秒で、最初のバイトのレイテンシは 0.75 秒です。 DeepSeek-R1 API は推論プロセスの影響を受けます。 Bedrock バージョンの合計レイテンシは 10.22 秒、最初のバイトのレイテンシは 0.25 秒で、シリコンベースのフロー API よりも高速です。全体的に、Claude シリーズと Nova シリーズはレイテンシーの点では明らかに優れています。
コスト比較分析
Amazon Nova Lite は 10,000 通話あたり 3.62 円で最もコスト効率が高く、Nova Pro は 45.56 円で、それでもコストパフォーマンスは良好です。 Claude 3.7 Sonnet と DeepSeek-R1 シリコンベースのストリーミング API の価格は似ていますが、Claude 3.7 は最大出力トークンを調整することでコストを制御できるのに対し、DeepSeek-R1 の Bedrock バージョンは低レイテンシ (10.22 秒) でエクスペリエンスを最適化します。
注目すべきは、DeepSeek-R1 が 1 回の呼び出しあたり平均 570 トークンを出力することです。これは、Claude (150 ~ 175)、Nova (66 ~ 85)、DeepSeek-V3 よりもはるかに高いため、特に大規模な呼び出しシナリオでは使用コストが増加します。
要約する
アプリケーションシナリオの提案:
- 高い精度が求められ、十分な予算がある場合: Silicon Mobile DeepSeek-R1、Amazon Bedrock DeepSeek-R1、またはClaude 3.7 Sonnetを選択してください
- 精度とコストのバランスを取る必要がある場合:DeepSeek-V3またはDeepSeek Distilled Qwen 32Bを選択してください
- 低レイテンシーと高コストパフォーマンスを求めるならAmazon Nova Liteをお選びください
- コストを最適化するために出力トークンを制御する必要がある:Claude 3.7 Sonnetを選択
この評価は、企業がコンテンツレビューのニーズに適した AI モデルを選択するための参考資料となります。 GenAI テクノロジーが発展し続けるにつれて、これらのモデルは精度、効率、コストの面でさらなる進歩を遂げ、コンテンツレビューの分野にさらに革新的なソリューションをもたらすことが期待されます。
AWS エージェントとして、ビジネスシナリオのさまざまな精度、応答レイテンシー、コスト要件に基づいてテキストレビューモデルを選択する場合は、Amazon Nova または Claude 製品を選択することをお勧めします。 DeepSeek-R1 は、精度と制御可能なコストに対する要件が極めて高い特定のシナリオに適しています。当社は今後も技術動向に注目し、より最適化された監査ソリューションをお客様に提供してまいります。