생성적 AI의 개발로 인해 대규모 언어 모델(LLM) 추론은 기업이 지능형 애플리케이션을 구축할 때 요구하는 핵심 컴퓨팅 성능 중 하나가 되었습니다. 학습 단계에 비해 추론 단계는 더 넓은 범위의 작업 부하와 더 높은 실시간 요구 사항을 가지며 또한 다음에 더 많은 중점을 둡니다.성능과 비용의 균형. 이러한 맥락에서 Amazon Web Services(AWS) Graviton 시리즈 프로세서는 뛰어난 비용 효율성과 폭넓은 호환성을 갖추고 있어 AI 추론을 위한 새로운 선택이 되고 있습니다.
Amazon Graviton이란 무엇인가요?
Amazon Graviton은 Arm 아키텍처를 기반으로 AWS가 독립적으로 개발한 프로세서입니다. 그래비톤3. Graviton은 기존 x86 아키텍처 프로세서와 비교했을 때 다음과 같은 측면에서 상당한 이점을 가지고 있습니다.
- 높은 비용 성능: 유사한 사례와 비교했을 때, 비용 효율성은 다음과 같이 향상될 수 있습니다.40%;
- 낮은 전력 소모: 에너지 소비가 줄어들면 보다 친환경적인 컴퓨팅이 가능해집니다.
- 다양한 인스턴스 유형: 일반 용도 컴퓨팅부터 메모리 최적화까지 다양한 인스턴스를 지원하고 AI 시나리오에 유연하게 적응합니다.
- AWS 네이티브 최적화: Amazon EC2, ECS, EKS 및 기타 서비스와 긴밀하게 통합되어 있어 바로 사용할 수 있습니다.
Graviton + AI 추론: 왜 완벽한 조합일까요?
GPU는 여전히 AI 학습 분야를 지배하고 있지만,추론 단계특히 엣지 배포, 소규모 모델 구현, 일괄 서비스 호출과 같은 시나리오에서 CPU는 더 큰 유연성과 비용적 이점을 제공합니다.
1. 저비용 대규모 구축
대규모 모델을 미세 조정하거나 양자화한 후 많은 시나리오는 더 이상 GPU 컴퓨팅 성능에 의존하지 않고 다음을 추구합니다.동시성 성능 및 단일 호출 비용. Graviton은 달러당 성능이 더 높고 더 낮은 비용으로 추론 작업을 완료할 수 있으므로 대규모 LLM 서비스 클러스터를 구축하는 데 적합합니다.
2. 주류 AI 프레임워크 지원
현재 AWS는 공식적으로 Graviton에 대한 추론 가속 최적화를 제공합니다. 여기에는 다음이 포함됩니다.
- 텐서플로우, 파이토치: Neon 명령어 세트, XLA 컴파일러 및 기타 가속 방법을 지원합니다.
- ONNX 런타임: Graviton에 기본적으로 적용되어 멀티스레드 실행에서 뛰어난 성능을 발휘합니다.
- 허깅 페이스 트랜스포머: Optimum Neuron 등의 도구와 함께 사용할 수 있습니다.
- 아마존 세이지메이커: Graviton 인스턴스 지원을 제공하여 기본 구성이 필요 없이 모델을 배포할 수 있습니다.
3. 테스트 결과가 놀랍습니다
AWS 공식 데이터에 따르면, BERT 기반 추론에 Amazon EC2 C7g(Graviton3 기반) 인스턴스를 사용하면 C6i(Intel 아키텍처) 인스턴스에 비해 지연 시간이 줄어듭니다. 20%, 각 추론의 비용이 감소합니다. 35%이는 AI 추론 시나리오에서 Graviton의 실제 장점을 충분히 보여줍니다.
회사는 어떻게 시작해야 할까?
실제로 AI 추론을 Graviton 인스턴스로 마이그레이션하는 것은 복잡하지 않습니다. 일반적인 과정은 다음과 같습니다.
- 기존 모델 호환성 평가: Arm 아키텍처에서 실행이 지원되는지, 또는 변환 가능한 ONNX 모델이 있는지 확인하세요.
- 적절한 인스턴스 유형을 선택하세요: 컴퓨팅 집약적(C7g), 메모리 최적화(R7g), 범용(M7g) 등
- 코드 적응 및 튜닝: AWS에서 제공하는 Graviton 최적화 툴킷(예: Amazon CodeCatalyst, Graviton Ready SDK)을 사용합니다.
- SageMaker 또는 ECS/EKS와 같은 플랫폼에 배포: 엔드투엔드 추론 서비스를 빠르게 구축합니다.
- 성능을 모니터링하고 지속적으로 최적화하세요: CloudWatch, Amazon CloudTrail 및 기타 도구와 결합하여 성능 분석을 수행합니다.
요약하다
AI가 계속 발전함에 따라 기업은 더 이상 기존 하드웨어 경로에 국한되지 않을 것입니다. Amazon Graviton은 점차 비용 효율적이고 에너지 효율적이며 광범위하게 호환되는 CPU 프로세서입니다. AI 추론을 위한 새로운 초석. 생성적 AI 애플리케이션을 구축하든 기존 모델을 기반으로 더 낮은 배포 비용을 추구하든 Graviton은 귀하의 새로운 옵션이 될 만한 가치가 있습니다.