AWS에서 DeepSeek-R1을 사용하여 생성 AI 성능 향상

생성적 AI 기술의 급속한 발전으로, 이러한 강력한 모델을 효율적이고 저렴한 비용으로 배포하고 실행하는 방법이 기업과 개발자가 직면한 중요한 과제로 떠올랐습니다.딥시크-R1획기적인 생성 AI 기본 모델로서 강력한 추론 능력을 갖췄을 뿐만 아니라, 성능과 리소스 활용도 면에서도 뛰어납니다. 의 도움으로 아마존 웹 서비스(AWS) DeepSeek-R1의 강력한 클라우드 플랫폼을 통해 사용자는 유연한 배포 방법을 통해 이를 원활하게 통합하여 다양한 산업의 AI 애플리케이션을 지원할 수 있습니다. 이 글에서는 AWS에서 DeepSeek-R1 모델을 효과적으로 사용하여 생성 AI 분야에서 더 큰 혁신을 이루는 방법을 자세히 설명합니다.

 

DeepSeek-R1 소개

DeepSeek-R1은 강화 학습과 하이브리드 전문가 아키텍처를 결합하여 저렴한 비용으로 효율적인 추론 및 처리 기능을 제공하는 고급 생성 AI 모델입니다. 이 모델은 리소스 소비에 대한 영향을 최소화할 뿐만 아니라 강력한 수학 및 프로그래밍 기능도 유지하므로 효율적인 컴퓨팅이 필요한 시나리오에 매우 적합합니다.

이 문서에서는 전 세계 AWS 전문가가 제공하는 리소스와 실제 코드 예제를 통해 AWS 환경에서 DeepSeek-R1 모델 변형을 효과적으로 사용하는 방법을 자세히 살펴보고 모범 사례를 도출합니다.

 

서버리스 추론: Amazon Bedrock 사용자 정의 모델 가져오기 사용

DeepSeek-R1은 8B 및 70B 매개변수 모델(DeepSeek-R1-Distill-Llama-8B 및 DeepSeek-R1-Distill-Llama-70B)을 포함하여 Llama Grouped Query Attention(GQA) 아키텍처와 호환되는 간소화된 버전을 선보입니다. 모델 가중치를 내보내고 사용함으로써 Amazon Bedrock 커스텀 모델 가져오기사용자는 AWS에서 서버리스 추론을 수행할 수 있으며 Bedrock의 통합 API와 Guardrails와 같은 고급 도구를 활용하여 AI의 책임성과 보안을 보장할 수 있습니다. 특히, 이런 방식으로 배포된 모델은 추론량에 따라 요금이 부과되므로 모델의 비용 효율성이 훨씬 높아집니다. 예를 들어, 8B 모델에는 모델 단위 2개가 필요하고, 70B 모델에는 단위 8개가 필요합니다. 가져오기 프로세스는 최대 30분이 걸릴 수 있으며, 콜드 스타트 지연 시간은 10초입니다.

 

CPU에서의 실시간 추론: AWS Graviton과 Amazon SageMaker 활용

DeepSeek-R1은 양자화 방법을 통해 GPU가 필요 없이 CPU 기반 인스턴스에서 효율적인 실시간 추론을 수행할 수 있습니다. 이 프로세스는 다음을 지원합니다. LLama.cpp CPU 추론과 호환되는 프레임워크입니다. 적절한 양자화 방법(예: 4비트 또는 5비트 양자화)을 선택하면 최고의 속도와 정확도를 얻을 수 있습니다.

AWS는 LMStudio 및 Unsloth와 같은 커뮤니티에서 출시한 모델 버전을 포함하여 다양한 최적화된 오픈 소스 정량적 버전을 제공하여 사용자가 DeepSeek-R1을 더욱 편리하게 배포할 수 있도록 지원합니다.

 

GPU에서의 실시간 추론: Amazon SageMaker 및 Amazon Bedrock Marketplace

더욱 고급 사용 시나리오의 경우 AWS도 지원합니다. 아마존 세이지메이커 그리고 아마존 베드록 마켓플레이스 DeepSeek-R1 모델을 GPU 인스턴스에 배포합니다. 통과하다 베드락 마켓플레이스사용자는 몇 단계만으로 671B 매개변수 DeepSeek-R1 모델을 클라우드에 쉽게 배포할 수 있습니다. 권장되는 인스턴스 구성은 대규모 모델 추론에 적합한 p5e.48xlarge입니다.

 

AWS Trainium에서의 실시간 추론

AWS Trainium은 생성적 AI 워크로드에 최적화된 AI 컴퓨팅 칩입니다. 사용 AWS 뉴런 SDKDeepSeek-R1은 Trainium 인스턴스에서 효율적인 추론을 달성할 수 있습니다. Trainium은 vLLM 등 일부 인기 있는 추론 최적화 라이브러리를 지원하지만, 특히 대규모 AI 작업에 대해 더 나은 추론 효율성과 유연성을 제공하기 위해 계속 최적화되고 있습니다.

 

추론 기능 확장: EKS 및 Amazon EKS 자동 모드의 Ray

추론 인프라에 대한 더 많은 유연성과 제어를 원하시면 다음을 선택할 수 있습니다. Amazon EKS 자동 모드 또는 사용 EKS에 대한 레이 DeepSeek-R1의 추론 능력을 확장합니다. 이러한 Kubernetes 도구는 AI 워크로드를 유연하게 관리하고 확장하며 컴퓨팅, 스토리지 및 네트워킹 관리를 자동화하는 데 도움이 될 수 있습니다.

 

허깅 페이스 전개 및 미세 조정

DeepSeek-R1이 출시되었습니다. 껴안는 얼굴 AWS에서 출시되었으며 AWS와 긴밀하게 통합되어 있어 개발자는 AWS 플랫폼에서 DeepSeek 모델을 쉽게 배포하고 미세 조정할 수 있습니다. 통과하다 포옹 얼굴 텍스트 생성 추론(TGI)개발자는 생성적 AI 애플리케이션을 클라우드에 신속하게 배포하고 Hugging Face의 강력한 커뮤니티 지원과 리소스를 활용할 수 있습니다.

 

미세 조정: Amazon SageMaker에서의 효율적인 미세 조정

DeepSeek-R1은 뛰어난 효율성 덕분에 미세 조정에 이상적인 선택입니다. AWS가 제공합니다 파이토치 FSDP 그리고 큐로라 다음과 같은 인기 있는 도서관 아마존 세이지메이커 특정 작업 요구 사항을 충족하도록 모델을 효율적으로 미세 조정합니다.

 

요약하다

DeepSeek-R1 모델은 AI 추론 및 컴퓨팅 분야에서 뛰어난 성능을 보여 생성 AI 분야에서 폭넓은 주목을 받았습니다. AWS의 강력한 인프라는 DeepSeek-R1에 유연하고 저렴한 배포 및 추론 솔루션을 제공합니다. 아마존 베드록 아직 아마존 세이지메이커, 개발자가 잠재력을 최대한 실현하고 효율적인 생성적 AI 애플리케이션을 만드는 데 도움이 될 수 있습니다.

대규모 AI 작업을 처리해야 하는 사용자의 경우 평가를 위해 DeepSeek-R1의 간소화된 버전(예: 8B 또는 70B 매개변수 모델)으로 시작한 다음, 실제 요구 사항에 따라 점차 더 큰 671B 매개변수 모델로 확장하는 것이 좋습니다.

더 탐험할 것

당신이 필요한 것을 말해