在網路快速發展的背景下,使用者生成內容(UGC)激增,社群媒體、電商和影片平台上湧現大量文字、圖片、影片等資訊。然而,其中可能包含不當或違法內容,影響平台形象和使用者體驗。因此,高效、準確的內容審核至關重要。
傳統人工審核成本高、效率低,且易受主觀因素影響,難以應付多模態、多語言的審核需求。生成式AI 技術提供了新的解決方案,依託大語言模型和多模態模型,可自動、有效率地辨識違規內容,優化審核流程。
本文將探討如何利用Amazon Bedrock 提供的生成式AI 模型進行文字審核,並從準確率、延遲、成本等方面評估DeepSeek、Nova、Claude 3.x 等模型的表現,幫助使用者選擇最優方案。
DeepSeek 模型存取及說明
DeepSeek 是中國AI 新創公司,2024 年12 月推出DeepSeek-V3,隨後於2025 年1 月發布DeepSeek-R1、DeepSeek-R1-Zero(6710 億參數)及DeepSeek-R1-Distill(1.5-70 億參數)等模型。這些模型均可公開取得,成本比同類產品低90-95%,具備強大推理能力和高性價比。
您可使用海外區亞馬遜雲端科技帳號,在Amazon Bedrock 或Amazon SageMaker AI 部署DeepSeek-R1 及其蒸餾模型。 Bedrock 適用於快速API 集成,SageMaker AI 則支援更深度的客製化和訓練。此外,AWS Trainium 與Inferentia 可協助在EC2 或SageMaker AI 上有效部署DeepSeek-R1-Distill 進行文字審核。
若使用亞馬遜雲端科技中國區帳號,可透過合作夥伴矽基流動,在Marketplace 存取DeepSeek 全系列模型,並選擇SageMaker AI 或EC2 進行私有化部署,實現高效審核。
DeepSeek 系列模型在文本審查上的對比
此次數據比較了DeepSeek 系列模型在文字審核中的表現,使用Amazon Marketplace Siliconflow API 和Amazon Bedrock DeepSeek-R1 API 進行測試。
準確率方面,DeepSeek-R1 最高,達97.14%,DeepSeek Distilled Qwen 32B 為92.86%,超過DeepSeek Distilled Llama70B,僅次於DeepSeek-R1。
反應速度,DeepSeek Distilled Qwen 32B 首字節延遲0.29ms,比DeepSeek-R1 快一倍。
成本對比,在1 萬次調用下,DeepSeek Distilled Qwen 32B 和DeepSeek-V3 的價格僅為DeepSeek-R1 矽基流動API 的13%。 Bedrock DeepSeek-R1 API 價格略高,但延遲降低52.6%,首字節回應提升40%。
結論:DeepSeek Distilled Qwen 32B 和DeepSeek-R1 具備最佳性價比,DeepSeek-V3 適合無模型追溯需求的用戶,以更低成本提供高準確性審核。
註:DeepSeek 矽基流動API 僅適用於中國區帳號,海外用戶可使用Bedrock DeepSeek-R1 API。
| DeepSeek 系列模型 | 準確率 | total latency/s | ttft/s | API 每百萬token 調用價格 | EC2 部署價格/小時 | 部署方式 | 機型 |
| DeepSeek Distilled Qwen1.5B | 11.43% | 2.31 | 0.04 | ¥1.50 | $1.21 | Amazon EC2 | g5.2xlarge |
| DeepSeek Distilled Qwen7B | 65.71% | 3.4 | 0.09 | ¥3.75 | $1.21 | Amazon EC2 | g5.2xlarge |
| DeepSeek Distilled Qwen14B | 84.29% | 16.002 | 0.62 | ¥7.49 | $5.67 | Amazon EC2 | g5.12xlarge |
| DeepSeek Distilled Qwen32B | 92.86% | 11.26 | 0.26 | ¥12.60 | $5.67 | Amazon EC2 | g5.12xlarge |
| DeepSeek Distilled Llama8B | 72.86% | 15.53 | 0.39 | ¥4.49 | $1.21 | Amazon EC2 | g5.2xlarge |
| DeepSeek Distilled Llama70B | 91.42% | 2.95 | 0.3 | ¥44.19 | $4.60 | Amazon EC2 | g6.12xlarge |
| Deepseek-R1 矽基流動API | 97.14% | 21.55 | 0.4241 | ¥111.20 | NaN | Amazon Marketplace 矽基流動 API | NaN |
| Bedrock DeepSeek-R1 API | 97.14% | 10.22 | 0.25 | ¥271.40 | NaN | Amazon Bedrock DeepSeek API | NaN |
| DeepSeek-V3 | 95.71% | 8.2 | 0.75 | ¥15.28 | NaN | Amazon Marketplace 矽基流動 API | NaN |
模型準確率對比
在文本審查任務中,DeepSeek-R1 以97.14% 的準確率領先,DeepSeek-V3 達95.71%,DeepSeek Distilled Qwen 32B 和DeepSeek Distilled Llama 70B 分別為92.8613T 和DeepSeek Distilled Llama 70B 分別為92.8613T 和TP3T213T。值得注意的是,Qwen 32B 超過了Llama 70B,僅次於DeepSeek-R1。
延遲效能對比
API 呼叫下,Bedrock DeepSeek-R1 比矽基流動API 首位元組回應快40%,總延遲降低52.6%。 DeepSeek-V3 總延遲最低,但首字節反應較慢。
在EC2 部署中,小型模型如DeepSeek Distilled Qwen 7B 和1.5B 具備最低的首字節延遲(0.09s 和0.04s),但總延遲較高。大型模型如Llama 70B 在g6.12xlarge 上總延遲僅2.95s,Qwen 32B 在g5.12xlarge 上首字節延遲0.26s,總延遲11.26s。整體來看,小模型反應快,大模型在適當硬體下整體延遲更優。
成本對比
API 方面,DeepSeek-V3 價格僅為DeepSeek-R1 矽基流動API 的13.7%,準確率下降1.43%,性價比突出。 Bedrock DeepSeek-R1 價格較高,但延遲優化明顯,適用於響應速度要求高的場景。
EC2 部署方面,DeepSeek Distilled Qwen 32B 平衡了準確率與成本,而Llama 70B 以較低成本提供接近的準確率。小型模型雖便宜,但準確率下降明顯,不適合高精準審核需求。
DeepSeek vs Claude vs Nova 對比
接下來,我們將在同一資料集上比較DeepSeek-R1、Claude 3.x 和Nova 系列模型,評估它們在文字審核中的綜合表現。
| 準確率 | total latency/s | ttft/s | 價格/1 萬次調用 | 平均輸入token/次 | 平均輸出token/次 | 部署方式 | |
| Deepseek-V3 | 95.71% | 8.2 | 0.75 | ¥15.28 | 500 | 66 | Amazon Marketplace 矽基流動 API |
| Bedrock DeepSeek R1 API | 97.14% | 10.22 | 0.25 | ¥271.40 | 500 | 570 | Amazon Bedrock API |
| DeepSeek-R1 矽基流動API | 97.14% | 21.55 | 0.4241 | ¥111.20 | 500 | 570 | Amazon Marketplace 矽基流動API |
| Claude 3.5 Haiku | 91.43% | 3.53 | 0.46 | ¥49.43 | 500 | 175 | Amazon Bedrock API |
| Claude 3.5 Sonnet | 95.71% | 4.37 | 0.53 | ¥134.81 | 500 | 150 | Amazon Bedrock API |
| Claude 3.7 Sonnet | 97.14% | 3.81 | 0.73 | ¥134.81 | 500 | 150 | Amazon Bedrock API |
| Amazon Nova Pro | 95.71% | 2.65 | 0.43 | ¥45.56 | 500 | 73 | Amazon Bedrock API |
| Amazon Nova Lite | 94.28% | 1.1 | 0.38 | ¥3.62 | 500 | 85 | Amazon Bedrock API |
模型準確率對比
在文本審查任務中,Claude 3.7 Sonnet 與DeepSeek-R1 以97.14% 的準確率並列第一,Amazon Nova Pro、Claude 3.5 Sonnet 和DeepSeek-V3 緊隨其後,均為95.71%。 Amazon Nova Lite 在低延遲和成本上的優勢也值得關注。
延遲效能對比
Amazon Nova Lite 以1.1s 總延遲和0.38s 首字節延遲(TTFT)表現最佳,Nova Pro 總延遲2.65s,首字節延遲0.43s,Claude 3.7 Sonnet 在高準確率的同時,延遲僅3.81s。
DeepSeek 系列延遲較高,DeepSeek-V3 總延遲8.2s,首字節延遲0.75s,DeepSeek-R1 API 受reasoning 製程影響,Bedrock 版總延遲10.22s,首字節延遲0.25s,相較矽基流動API 速度更優。整體來看,Claude 和Nova 系列在延遲方面明顯領先。
成本比較分析
Amazon Nova Lite 以¥3.62/萬次調用的價格最具性價比,Nova Pro ¥45.56,性價比仍佳。 Claude 3.7 Sonnet 與DeepSeek-R1 矽基流動API 價格相近,但Claude 3.7 可透過調整max output token 控製成本,而Bedrock 版DeepSeek-R1 以較低延遲優化體驗(10.22s)。
值得注意的是,DeepSeek-R1 每次調用平均輸出570 個token,遠高於Claude(150-175)、Nova(66-85)和DeepSeek-V3,導致使用成本上升,特別是在大規模調用場景下。
总结
應用場景建議:
- 準確率要求極高,且預算充足:選擇矽基流動DeepSeek-R1、Amazon Bedrock DeepSeek-R1 或Claude 3.7 Sonnet
- 需要平衡準確率與成本:選擇DeepSeek-V3 或DeepSeek Distilled Qwen 32B
- 需要低延遲、高性價比:選擇Amazon Nova Lite
- 需要控制輸出token 以最佳化成本:選擇Claude 3.7 Sonnet
本次評測為企業選擇適合其內容審核需求的AI 模式提供了參考。隨著GenAI 技術的不斷發展,我們期待這些模型在準確性、效率和成本方面能夠取得更大的突破,為內容審核領域帶來更多創新解決方案。
作為AWS代理商,我們建議客戶在選擇文本審核模型時,根據業務場景對準確率、響應延遲和成本的不同需求,合理選擇Amazon Nova系列或Claude系列產品,而DeepSeek-R1則適合對準確性有極高要求且成本可控的特定場景。我們將持續專注於技術動態,為客戶提供更優化的審核解決方案。

