가장 강력한 텍스트 감사 모델-Amazon Bedrock 모델: DeepSeek 대 Nova 대 Claude

인터넷의 급속한 발전에 힘입어 사용자 제작 콘텐츠(UGC)가 급증하였고, 소셜 미디어, 전자상거래, 비디오 플랫폼 등에 텍스트, 사진, 비디오 등 다양한 정보가 대량으로 등장했습니다. 그러나 플랫폼 이미지와 사용자 경험에 영향을 줄 수 있는 부적절하거나 불법적인 콘텐츠가 포함될 수 있습니다. 그러므로 효율적이고 정확한 콘텐츠 검토가 필수적입니다.

기존의 수동 검토는 비용이 많이 들고 비효율적이며 주관적인 요소의 영향을 쉽게 받아 다양한 모드와 언어의 검토 요구 사항을 충족하기 어렵습니다. 생성적 AI 기술은 대규모 언어 모델과 다중 모드 모델을 사용하여 불법 콘텐츠를 자동으로 효율적으로 식별하고 검토 프로세스를 최적화하는 새로운 솔루션을 제공합니다.

이 글에서는 Amazon Bedrock에서 제공하는 생성적 AI 모델을 텍스트 검토에 사용하는 방법을 알아보고, DeepSeek, Nova, Claude 3.x 등의 모델의 성능을 정확도, 지연 시간, 비용 측면에서 평가하여 사용자가 최상의 솔루션을 선택할 수 있도록 돕습니다.

 

DeepSeek 모델 접근 및 설명

DeepSeek은 2024년 12월 DeepSeek-V3를 출시한 중국 AI 스타트업으로, 이후 2025년 1월 DeepSeek-R1, DeepSeek-R1-Zero(매개변수 6,710억 개), DeepSeek-R1-Distill(매개변수 15~70억 개) 등의 모델을 출시했습니다. 이러한 모델은 공개적으로 이용 가능하며, 유사 제품보다 90~95% 저렴하고, 강력한 추론 기능과 높은 비용 효율성을 갖추고 있습니다.

해외 Amazon Web Services 계정을 사용하여 DeepSeek-R1과 해당 증류 모델을 Amazon Bedrock 또는 Amazon SageMaker AI에 배포할 수 있습니다. Bedrock은 빠른 API 통합에 적합한 반면, SageMaker AI는 보다 심층적인 사용자 정의와 교육을 지원합니다. 또한, AWS Trainium과 Inferentia는 EC2 또는 SageMaker AI에 DeepSeek-R1-Distill을 효율적으로 배포하여 텍스트 검토를 지원하는 데 도움이 될 수 있습니다.

Amazon Web Services China 계정을 사용하는 경우 파트너사인 Silicon Mobility를 통해 Marketplace에서 DeepSeek 모델의 전체 범위에 액세스할 수 있으며, 효율적인 검토를 위해 개인 배포에 SageMaker AI 또는 EC2를 선택할 수 있습니다.

 

텍스트 리뷰에서 DeepSeek 시리즈 모델 비교

이 데이터는 Amazon Marketplace Siliconflow API와 Amazon Bedrock DeepSeek-R1 API를 테스트에 사용하여 텍스트 검토에서 DeepSeek 시리즈 모델의 성능을 비교합니다.

정확성DeepSeek-R1은 97.14%로 가장 높은 점수를 받았고, DeepSeek Distilled Qwen 32B는 92.86%로 DeepSeek Distilled Llama70B를 능가하며 DeepSeek-R1에 이어 두 번째로 높은 점수를 받았습니다.

응답 속도DeepSeek Distilled Qwen 32B의 첫 번째 바이트 지연 시간은 0.29ms로 DeepSeek-R1보다 두 배 빠릅니다.

비용 비교10,000개의 호출에서 DeepSeek Distilled Qwen 32B와 DeepSeek-V3의 가격은 DeepSeek-R1 실리콘 기반 흐름 API의 13%에 불과합니다. Bedrock DeepSeek-R1 API는 약간 더 비싸지만, 지연 시간은 52.6%만큼 줄어들고 첫 번째 바이트 응답은 40%만큼 향상됩니다.

결론적으로: DeepSeek Distilled Qwen 32B와 DeepSeek-R1은 가격 대비 성능 비율이 가장 뛰어나고, DeepSeek-V3는 모델 추적 요구 사항이 없는 사용자에게 적합하며, 더 낮은 비용으로 고정확도 감사를 제공합니다.

참고: DeepSeek Silicon Mobility API는 중국 계정에서만 사용할 수 있습니다. 해외 사용자는 Bedrock DeepSeek-R1 API를 사용할 수 있습니다.

 

딥시크 시리즈 모델 정확성 총 지연 시간/초 ttft/초 API 백만 토큰당 호출 가격 EC2 배포 가격/시간 전개 모델
딥시크 디스틸드 퀀1.5B 11.43% 2.31 0.04 1.50엔 $1.21 아마존 EC2 g5.2xlarge
딥시크 디스틸드 퀀7B 65.71% 3.4 0.09 3.75엔 $1.21 아마존 EC2 g5.2xlarge
딥시크 디스틸드 Qwen14B 84.29% 16.002 0.62 7.49엔 $5.67 아마존 EC2 g5.12xlarge
딥시크 디스틸드 Qwen32B 92.86% 11.26 0.26 12.60엔 $5.67 아마존 EC2 g5.12xlarge
딥시크 디스틸드 라마8B 72.86% 15.53 0.39 4.49엔 $1.21 아마존 EC2 g5.2xlarge
딥시크 디스틸드 라마70B 91.42% 2.95 0.3 44.19엔 $4.60 아마존 EC2 g6.12xlarge
Deepseek-R1 실리콘 기반 Flow API 97.14% 21.55 0.4241 111.20엔 나앤 Amazon Marketplace Silicon Mobility API 나앤
Bedrock DeepSeek-R1 API 97.14% 10.22 0.25 271.40엔 나앤 Amazon Bedrock DeepSeek API 나앤
딥시크-V3 95.71% 8.2 0.75 15.28엔 나앤 Amazon Marketplace Silicon Mobility API 나앤

 

모델 정확도 비교

텍스트 검토 과제에서 DeepSeek-R1은 97.14%의 정확도로 선두를 달리고, DeepSeek-V3는 95.71%에 도달했으며, DeepSeek Distilled Qwen 32B와 DeepSeek Distilled Llama 70B는 각각 92.86%와 91.42%를 기록했습니다. 주목할 점은 Qwen 32B가 Llama 70B를 능가하고 DeepSeek-R1에 이어 두 번째로 우수하다는 것입니다.

 

지연 성능 비교

API 호출에서 Bedrock DeepSeek-R1은 실리콘 기반 스트리밍 API보다 첫 번째 바이트에 40% 더 빠르게 응답하고 전체 지연 시간을 52.6%만큼 줄였습니다. DeepSeek-V3의 전체 지연 시간은 가장 짧지만, 첫 번째 바이트 응답은 느립니다.

EC2 배포에서 DeepSeek Distilled Qwen 7B 및 1.5B와 같은 소형 모델은 첫 번째 바이트 지연 시간이 가장 짧지만(0.09초 및 0.04초) 전체 지연 시간은 더 깁니다. Llama 70B와 같은 대형 모델은 g6.12xlarge에서 총 지연 시간이 2.95초에 불과하고, Qwen 32B는 첫 번째 바이트 지연 시간이 0.26초이고 g5.12xlarge에서 총 지연 시간이 11.26초입니다. 전반적으로 작은 모델은 빠르게 반응하고, 큰 모델은 적합한 하드웨어에서 전반적인 지연 시간이 더 짧습니다.

 

비용 비교

API 측면에서 DeepSeek-V3의 가격은 DeepSeek-R1 실리콘 기반 플로우 API의 13.7%에 불과하며, 정확도는 1.43%만큼 낮아져 뛰어난 비용 대비 성능을 제공합니다. Bedrock DeepSeek-R1은 가격이 더 비싸지만 대기 시간 최적화 기능이 뛰어나고 응답 속도에 대한 요구 사항이 높은 시나리오에 적합합니다.

EC2 배포의 경우, DeepSeek Distilled Qwen 32B는 정확도와 비용의 균형을 맞추었고, Llama 70B는 더 낮은 비용으로 유사한 정확도를 제공합니다. 소형 모델은 저렴하지만 정확도가 상당히 떨어지며 고정밀 감사 요구 사항에는 적합하지 않습니다.

 

DeepSeek vs Claude vs Nova 비교

다음으로, 동일한 데이터 세트에서 DeepSeek-R1, Claude 3.x, Nova 시리즈 모델을 비교하여 텍스트 검토에서의 종합적인 성능을 평가해보겠습니다.

 

정확성 총 지연 시간/초 ttft/초 가격/10,000 통화 평균 입력 토큰/시간 평균 출력 토큰/시간 전개
딥시크-V3 95.71% 8.2 0.75 15.28엔 500 66 Amazon Marketplace Silicon Mobility API
베드록 딥시크 R1 API 97.14% 10.22 0.25 271.40엔 500 570 아마존 베드록 API
DeepSeek-R1 실리콘 기반 스트리밍 API 97.14% 21.55 0.4241 111.20엔 500 570 Amazon Marketplace Silicon Mobility API
클로드 3.5 하이쿠 91.43% 3.53 0.46 49.43엔 500 175 아마존 베드록 API
클로드 3.5 소네트 95.71% 4.37 0.53 134.81엔 500 150 아마존 베드록 API
클로드 3.7 소네트 97.14% 3.81 0.73 134.81엔 500 150 아마존 베드록 API
아마존 노바 프로 95.71% 2.65 0.43 45.56엔 500 73 아마존 베드록 API
아마존 노바 라이트 94.28% 1.1 0.38 3.62엔 500 85 아마존 베드록 API

 

모델 정확도 비교

텍스트 검토 과제에서는 Claude 3.7 Sonnet과 DeepSeek-R1이 97.14%의 정확도로 공동 1위를 차지했고, 그 뒤를 Amazon Nova Pro, Claude 3.5 Sonnet, DeepSeek-V3가 각각 95.71%를 기록하며 이었습니다. Amazon Nova Lite의 낮은 지연 시간과 비용의 장점도 주목할 만합니다.

 

지연 성능 비교

Amazon Nova Lite는 총 지연 시간 1.1초, 첫 번째 바이트 지연(TTFT) 0.38초로 가장 좋은 성능을 보였습니다. Nova Pro의 총 지연 시간은 2.65초이고 첫 번째 바이트 지연은 0.43초입니다. 클로드 3.7 소네트는 높은 정확도를 가지면서도 지연 시간은 3.81초에 불과했습니다.

DeepSeek 시리즈는 지연 시간이 더 깁니다. DeepSeek-V3의 전체 지연 시간은 8.2초이고, 첫 번째 바이트 지연 시간은 0.75초입니다. DeepSeek-R1 API는 추론 과정의 영향을 받습니다. Bedrock 버전의 총 지연 시간은 10.22초이고 첫 번째 바이트 지연 시간은 0.25초로 실리콘 기반 흐름 API보다 빠릅니다. 전반적으로 Claude와 Nova 시리즈는 지연 시간 측면에서 확실히 앞서 있습니다.

 

비용 비교 분석

Amazon Nova Lite는 10,000건의 통화당 ¥3.62로 가장 비용 효율적이며, Nova Pro는 ¥45.56으로 여전히 비용 대비 가치가 좋습니다. Claude 3.7 Sonnet과 DeepSeek-R1 실리콘 기반 스트리밍 API의 가격은 비슷하지만, Claude 3.7은 최대 출력 토큰을 조정하여 비용을 제어할 수 있는 반면, DeepSeek-R1의 Bedrock 버전은 더 낮은 지연 시간(10.22초)으로 경험을 최적화합니다.

DeepSeek-R1은 호출당 평균 570개의 토큰을 출력하는데, 이는 Claude(150-175), Nova(66-85), DeepSeek-V3보다 훨씬 높아 특히 대규모 호출 시나리오에서 사용 비용이 증가합니다.

 

요약하다

적용 시나리오 제안:

  • 정확도 요구 사항이 높고 예산이 충분한 경우: Silicon Mobile DeepSeek-R1, Amazon Bedrock DeepSeek-R1 또는 Claude 3.7 Sonnet을 선택하세요.
  • 정확도와 비용의 균형을 맞춰야 합니다. DeepSeek-V3 또는 DeepSeek Distilled Qwen 32B를 선택하세요.
  • 낮은 지연 시간과 높은 비용 대비 성능이 필요하다면 Amazon Nova Lite를 선택하세요.
  • 비용 최적화를 위해 출력 토큰을 제어해야 함: Claude 3.7 Sonnet 선택

 

이 평가는 기업이 자사의 콘텐츠 검토 요구 사항에 적합한 AI 모델을 선택하는 데 참고할 수 있는 자료를 제공합니다. GenAI 기술이 계속 발전함에 따라 이러한 모델이 정확성, 효율성, 비용 측면에서 더 큰 혁신을 이루어 콘텐츠 검토 분야에 더 많은 혁신적인 솔루션을 제공할 것으로 기대됩니다.

AWS 에이전트로서, 우리는 고객이 비즈니스 시나리오의 정확도, 응답 지연 시간, 비용 요구 사항의 차이에 따라 텍스트 검토 모델을 선택할 때 Amazon Nova 또는 Claude 제품을 선택할 것을 권장합니다. DeepSeek-R1은 정확도와 비용 통제에 대한 요구 사항이 매우 높은 특정 시나리오에 적합합니다. 저희는 앞으로도 기술 동향에 주의를 기울이고 고객에게 더욱 최적화된 감사 솔루션을 제공할 것입니다.

더 탐험할 것

당신이 필요한 것을 말해