在互联网快速发展的背景下,用户生成内容(UGC)激增,社交媒体、电商和视频平台上涌现大量文字、图片、视频等信息。然而,其中可能包含不当或违法内容,影响平台形象和用户体验。因此,高效、准确的内容审核至关重要。
传统人工审核成本高、效率低,且易受主观因素影响,难以应对多模态、多语种的审核需求。生成式 AI 技术提供了新的解决方案,依托大语言模型和多模态模型,可自动、高效地识别违规内容,优化审核流程。
本文将探讨如何利用 Amazon Bedrock 提供的生成式 AI 模型进行文本审核,并从准确率、时延、成本等方面评估 DeepSeek、Nova、Claude 3.x 等模型的表现,帮助用户选择最优方案。
DeepSeek 模型访问及说明
DeepSeek 是中国 AI 初创公司,2024 年 12 月推出 DeepSeek-V3,随后于 2025 年 1 月发布 DeepSeek-R1、DeepSeek-R1-Zero(6710 亿参数)及 DeepSeek-R1-Distill(1.5-70 亿参数)等模型。这些模型均可公开获取,成本比同类产品低 90-95%,具备强大推理能力和高性价比。
您可使用海外区亚马逊云科技账号,在 Amazon Bedrock 或 Amazon SageMaker AI 部署 DeepSeek-R1 及其蒸馏模型。Bedrock 适用于快速 API 集成,SageMaker AI 则支持更深度的定制和训练。此外,AWS Trainium 与 Inferentia 可助力在 EC2 或 SageMaker AI 上高效部署 DeepSeek-R1-Distill 进行文本审核。
若使用亚马逊云科技中国区账号,可通过合作伙伴硅基流动,在 Marketplace 访问 DeepSeek 全系列模型,并选择 SageMaker AI 或 EC2 进行私有化部署,实现高效审核。
DeepSeek 系列模型在文本审核上的对比
此次数据对比了 DeepSeek 系列模型在文本审核中的表现,使用 Amazon Marketplace Siliconflow API 和 Amazon Bedrock DeepSeek-R1 API 进行测试。
准确率方面,DeepSeek-R1 最高,达 97.14%,DeepSeek Distilled Qwen 32B 为 92.86%,超过 DeepSeek Distilled Llama70B,仅次于 DeepSeek-R1。
响应速度,DeepSeek Distilled Qwen 32B 首字节延迟 0.29ms,比 DeepSeek-R1 快一倍。
成本对比,在 1 万次调用下,DeepSeek Distilled Qwen 32B 和 DeepSeek-V3 的价格仅为 DeepSeek-R1 硅基流动 API 的 13%。Bedrock DeepSeek-R1 API 价格略高,但延迟降低 52.6%,首字节响应提升 40%。
结论:DeepSeek Distilled Qwen 32B 和 DeepSeek-R1 具备最佳性价比,DeepSeek-V3 适合无模型追溯需求的用户,以更低成本提供高准确性审核。
注:DeepSeek 硅基流动 API 仅适用于中国区账号,海外用户可使用 Bedrock DeepSeek-R1 API。
| DeepSeek 系列模型 | 准确率 | total latency/s | ttft/s | API 每百万 token 调用价格 | EC2 部署价格/小时 | 部署方式 | 机型 |
| DeepSeek Distilled Qwen1.5B | 11.43% | 2.31 | 0.04 | ¥1.50 | $1.21 | Amazon EC2 | g5.2xlarge |
| DeepSeek Distilled Qwen7B | 65.71% | 3.4 | 0.09 | ¥3.75 | $1.21 | Amazon EC2 | g5.2xlarge |
| DeepSeek Distilled Qwen14B | 84.29% | 16.002 | 0.62 | ¥7.49 | $5.67 | Amazon EC2 | g5.12xlarge |
| DeepSeek Distilled Qwen32B | 92.86% | 11.26 | 0.26 | ¥12.60 | $5.67 | Amazon EC2 | g5.12xlarge |
| DeepSeek Distilled Llama8B | 72.86% | 15.53 | 0.39 | ¥4.49 | $1.21 | Amazon EC2 | g5.2xlarge |
| DeepSeek Distilled Llama70B | 91.42% | 2.95 | 0.3 | ¥44.19 | $4.60 | Amazon EC2 | g6.12xlarge |
| Deepseek-R1 硅基流动 API | 97.14% | 21.55 | 0.4241 | ¥111.20 | NaN | Amazon Marketplace 硅基流动 API | NaN |
| Bedrock DeepSeek-R1 API | 97.14% | 10.22 | 0.25 | ¥271.40 | NaN | Amazon Bedrock DeepSeek API | NaN |
| DeepSeek-V3 | 95.71% | 8.2 | 0.75 | ¥15.28 | NaN | Amazon Marketplace 硅基流动 API | NaN |
模型准确率对比
在文本审核任务中,DeepSeek-R1 以 97.14% 的准确率领先,DeepSeek-V3 达 95.71%,DeepSeek Distilled Qwen 32B 和 DeepSeek Distilled Llama 70B 分别为 92.86% 和 91.42%。值得注意的是,Qwen 32B 超过了 Llama 70B,仅次于 DeepSeek-R1。
延迟性能对比
API 调用下,Bedrock DeepSeek-R1 比硅基流动 API 首字节响应快 40%,总延迟降低 52.6%。DeepSeek-V3 总延迟最低,但首字节响应较慢。
在 EC2 部署中,小型模型如 DeepSeek Distilled Qwen 7B 和 1.5B 具备最低的首字节延迟(0.09s 和 0.04s),但总延迟较高。大型模型如 Llama 70B 在 g6.12xlarge 上总延迟仅 2.95s,Qwen 32B 在 g5.12xlarge 上首字节延迟 0.26s,总延迟 11.26s。整体来看,小模型响应快,大模型在合适硬件下整体延迟更优。
成本对比
API 方面,DeepSeek-V3 价格仅为 DeepSeek-R1 硅基流动 API 的 13.7%,准确率下降 1.43%,性价比突出。Bedrock DeepSeek-R1 价格较高,但延迟优化明显,适用于对响应速度要求高的场景。
EC2 部署方面,DeepSeek Distilled Qwen 32B 平衡了准确率与成本,而 Llama 70B 以较低成本提供接近的准确率。小型模型虽便宜,但准确率下降明显,不适合高精准审核需求。
DeepSeek vs Claude vs Nova 对比
接下来,我们将在同一数据集上对比 DeepSeek-R1、Claude 3.x 和 Nova 系列模型,评估它们在文本审核中的综合表现。
| 准确率 | total latency/s | ttft/s | 价格/1 万次调用 | 平均输入 token/次 | 平均输出 token/次 | 部署方式 | |
| Deepseek-V3 | 95.71% | 8.2 | 0.75 | ¥15.28 | 500 | 66 | Amazon Marketplace 硅基流动 API |
| Bedrock DeepSeek R1 API | 97.14% | 10.22 | 0.25 | ¥271.40 | 500 | 570 | Amazon Bedrock API |
| DeepSeek-R1 硅基流动 API | 97.14% | 21.55 | 0.4241 | ¥111.20 | 500 | 570 | Amazon Marketplace 硅基流动 API |
| Claude 3.5 Haiku | 91.43% | 3.53 | 0.46 | ¥49.43 | 500 | 175 | Amazon Bedrock API |
| Claude 3.5 Sonnet | 95.71% | 4.37 | 0.53 | ¥134.81 | 500 | 150 | Amazon Bedrock API |
| Claude 3.7 Sonnet | 97.14% | 3.81 | 0.73 | ¥134.81 | 500 | 150 | Amazon Bedrock API |
| Amazon Nova Pro | 95.71% | 2.65 | 0.43 | ¥45.56 | 500 | 73 | Amazon Bedrock API |
| Amazon Nova Lite | 94.28% | 1.1 | 0.38 | ¥3.62 | 500 | 85 | Amazon Bedrock API |
模型准确率对比
在文本审核任务中,Claude 3.7 Sonnet 与 DeepSeek-R1 以 97.14% 的准确率并列第一,Amazon Nova Pro、Claude 3.5 Sonnet 和 DeepSeek-V3 紧随其后,均为 95.71%。Amazon Nova Lite 在低延迟和成本上的优势也值得关注。
延迟性能对比
Amazon Nova Lite 以 1.1s 总延迟和 0.38s 首字节延迟(TTFT)表现最佳,Nova Pro 总延迟 2.65s,首字节延迟 0.43s,Claude 3.7 Sonnet 在高准确率的同时,延迟仅 3.81s。
DeepSeek 系列延迟较高,DeepSeek-V3 总延迟 8.2s,首字节延迟 0.75s,DeepSeek-R1 API 受 reasoning 过程影响,Bedrock 版总延迟 10.22s,首字节延迟 0.25s,相较硅基流动 API 速度更优。整体来看,Claude 和 Nova 系列在延迟方面明显领先。
成本对比分析
Amazon Nova Lite 以 ¥3.62/万次调用的价格最具性价比,Nova Pro ¥45.56,性价比仍佳。Claude 3.7 Sonnet 与 DeepSeek-R1 硅基流动 API 价格相近,但 Claude 3.7 可通过调整 max output token 控制成本,而 Bedrock 版 DeepSeek-R1 以较低延迟优化体验(10.22s)。
值得注意的是,DeepSeek-R1 每次调用平均输出 570 个 token,远高于 Claude(150-175)、Nova(66-85)和 DeepSeek-V3,导致使用成本上升,特别是在大规模调用场景下。
总结
应用场景建议:
- 对准确率要求极高,且预算充足:选择硅基流动 DeepSeek-R1、Amazon Bedrock DeepSeek-R1 或 Claude 3.7 Sonnet
- 需要平衡准确率与成本:选择 DeepSeek-V3 或 DeepSeek Distilled Qwen 32B
- 需要低延迟、高性价比:选择 Amazon Nova Lite
- 需要控制输出 token 以优化成本:选择 Claude 3.7 Sonnet
本次评测为企业选择适合其内容审核需求的 AI 模型提供了参考。随着 GenAI 技术的不断发展,我们期待这些模型在准确性、效率和成本方面能够取得更大的突破,为内容审核领域带来更多创新解决方案。
作为AWS代理商,我们建议客户在选择文本审核模型时,根据业务场景对准确率、响应延迟和成本的不同需求,合理选择Amazon Nova系列或Claude系列产品,而DeepSeek-R1则适合对准确性有极高要求且成本可控的特定场景。我们将持续关注技术动态,为客户提供更优化的审核解决方案。

