데이터의 급속한 성장과 인공지능 기술의 대중화로 인해 머신 러닝은 현대 기업이 경쟁에서 두각을 나타내는 데 중요한 도구가 되었습니다. Amazon Machine Learning(AML)은 사용자가 머신 러닝 모델을 쉽게 구축, 학습시키고 배포할 수 있도록 돕는 Amazon Web Services(AWS)에서 제공하는 서비스입니다. 초보자든 숙련된 데이터 과학자든 AML은 강력한 도구와 서비스를 통해 머신 러닝 프로젝트 개발을 가속화하여 기업에 더 많은 가치를 창출할 수 있습니다.
소개하다
- AWS는 가장 광범위하고 심층적인 머신 러닝 서비스와 이를 지원하는 클라우드 인프라를 제공하여 모든 개발자, 데이터 과학자, 전문가에게 머신 러닝을 제공합니다.
- AWS에서 ML 기반 워크로드를 구축할 때 시장 출시 속도와 사용자 정의 수준, ML 기술 수준을 균형 있게 조정하기 위해 세 가지 수준의 ML 서비스 중에서 선택할 수 있습니다.
- 인공지능(AI) 서비스
- 머신 러닝 서비스
- ML 프레임워크 및 인프라
- AI 서비스 수준은 API 호출을 사용하여 워크로드에 ML 기능을 빠르게 추가할 수 있는 완전 관리형 서비스를 제공합니다.
- 이를 통해 컴퓨터 비전, 음성, 자연어, 챗봇, 예측, 추천 등의 기능을 갖춘 강력한 지능형 애플리케이션을 구축할 수 있습니다.
- 이 수준의 서비스는 사전 학습된 또는 자동으로 학습된 머신 러닝 및 딥 러닝 모델을 기반으로 하므로 이를 사용하는 데 ML 지식이 필요하지 않습니다.
- 다음을 사용할 수 있습니다.
- 아마존 번역텍스트 콘텐츠 번역 또는 현지화를 위해
- 아마존 폴리텍스트-음성 변환을 위해
- 대화형 챗봇을 구축하기 위해아마존 렉스
- 아마존 컴프리헨드비정형 데이터에서 통찰력과 관계 추출
- 아마존 예보정확한 예측 모델을 구축할 수 있습니다.
- 아마존 사기 탐지기잠재적인 온라인 사기 활동을 식별할 수 있습니다.
- 아마존 코드구루코드 검토를 자동화하고 가장 광범위한 코드 줄을 식별합니다.
- 아마존 텍스트랙트문서에서 텍스트와 데이터를 자동으로 추출합니다.
- 아마존 레코그니션애플리케이션에 이미지 및 비디오 분석을 추가하세요
- 아마존 켄드라웹사이트와 앱을 새롭게 구상할 엔터프라이즈 검색
- 아마존 개인화실시간 개인화된 추천 제공
- 아마존 트랜스크라이브앱에 음성-텍스트 변환 기능 추가
- ML 서비스 계층은 개발자, 데이터 과학자, 연구자에게 머신 러닝을 위한 관리형 서비스와 리소스를 제공합니다.
- 아마존 세이지메이커개발자와 데이터 과학자가 어떤 규모로든 ML 모델을 빠르고 쉽게 구축, 교육하고 배포할 수 있도록 지원합니다.
- Amazon SageMaker Ground Truth이를 통해 정확도가 높은 ML 학습 데이터 세트를 빠르게 구축할 수 있습니다.
- 아마존 세이지메이커 스튜디오대규모로 ML 모델을 구축, 학습, 배포할 수 있는 머신 러닝을 위한 최초의 통합 개발 환경입니다.
- Amazon SageMaker 자동 조종 장치귀하의 데이터에 가장 적합한 ML 모델이 자동으로 구축, 학습 및 조정되며, 완전한 제어와 가시성을 유지할 수 있습니다.
- Amazon SageMaker JumpStartML을 빠르고 쉽게 시작하는 데 도움이 됩니다.
- Amazon SageMaker 데이터 랭글러ML을 위해 데이터를 집계하고 준비하는 데 필요한 시간을 몇 주에서 몇 분으로 단축합니다.
- Amazon SageMaker 기능 스토어ML 기능을 저장, 업데이트, 검색 및 공유하기 위한 완전 관리형 개인 저장소입니다.
- Amazon SageMaker ClarifyML 개발자에게 훈련 데이터와 모델에 대한 더 큰 가시성을 제공하여 편향을 식별하고 제한하고 예측을 설명할 수 있습니다.
- Amazon SageMaker 디버거실시간으로 교육 지표와 시스템 리소스를 모니터링하여 ML 모델을 최적화합니다.
- Amazon SageMaker를 위한 분산 학습 라이브러리수동으로 처리하는 데 걸리는 시간의 일부만으로 대규모 딥 러닝 모델과 교육 데이터 세트를 AWS 그래픽 처리 장치(GPU) 인스턴스 전반에 자동으로 분할합니다.
- Amazon SageMaker 파이프라인이는 ML을 위해 특별히 구축된 최초의 사용하기 쉬운 지속적 통합 및 지속적 배포(CI/CD) 서비스입니다.
- 아마존 세이지메이커 네오개발자가 ML 모델을 한 번만 훈련하면 클라우드나 엣지의 어느 곳에서나 실행할 수 있습니다.
소개하다
- Amazon EC2 인스턴스는 AWS 가상 머신 역할을 하며 AWS 인프라에서 자체 관리형 빅데이터 분석 애플리케이션을 실행하기 위한 이상적인 플랫폼을 제공합니다.
- Linux 또는 Windows 가상화 환경에 설치할 수 있는 거의 모든 소프트웨어는 Amazon EC2에서 실행할 수 있으며, 사용량에 따라 지불하는 가격 책정 방식을 사용할 수 있습니다.
- AWS Graviton 프로세서는 Amazon EC2에서 실행되는 클라우드 워크로드에 대해 최고의 가격 대비 성능을 제공하기 위해 64비트 Arm Neoverse 코어를 사용하여 AWS에서 맞춤 제작되었습니다.
AWS에서의 빅데이터 분석을 위한 옵션AWS에서 다양한 빅데이터 분석 옵션을 기본적으로 소개하는 일련의 문서입니다. 각 문서에서는 각 서비스를 사용하여 빅데이터를 수집, 처리, 저장, 분석하는 방법에 대한 자세한 지침을 다룹니다.
- Amazon EC2는 최신 세대 Intel 및 AMD 프로세서로 구동되는 많은 인스턴스를 포함하여 가장 광범위하고 심층적인 컴퓨팅 인스턴스 포트폴리오를 제공합니다. AWS Graviton 프로세서는 고객이 워크로드에 맞게 성능과 비용을 최적화하는 데 도움이 되는 더 많은 선택권을 제공합니다.
- 이 백서에 언급된 다른 서비스와 함께 제공되는 애플리케이션 수준 관리 서비스는 제공되지 않습니다. 자체 관리형 빅데이터 분석에는 다양한 옵션이 있습니다.
- MongoDB와 같은 NoSQL 제품
- Vertica와 같은 데이터웨어하우스 또는 컬럼형 스토리지
- 하둡 클러스터
- 아파치 스톰 클러스터
- Apache Kafka 환경
- EC2에서 실행되는 자체 관리형 빅데이터 워크로드는 Amazon ECS, Amazon EKS, AWS Fargate와 같은 AWS의 완전 관리형 컨테이너 오케스트레이션 서비스에서도 실행할 수 있습니다. Fargate는 ECS 및 EKS와 함께 작동하는 컨테이너용 서버리스 컴퓨팅 엔진입니다.
이상적인 사용 모드
- 전담 환경– 사용자 정의 애플리케이션, 표준 Hadoop 스택의 변형 또는 다른 AWS 제품에서 다루지 않는 애플리케이션을 실행할 때 Amazon EC2는 컴퓨팅 요구 사항을 충족할 수 있는 유연성과 확장성을 제공합니다.
- 규정 준수 요구 사항– 특정 규정 준수 요구 사항에 따라 관리형 서비스를 사용하는 대신 Amazon EC2에서 직접 애플리케이션을 실행해야 할 수도 있습니다.
비용 모델
- Amazon EC2는 여러 인스턴스 패밀리(표준, 고성능 CPU, 고성능 메모리, 고성능 I/O 등)에 걸쳐 여러 인스턴스 유형을 제공하며, 가격 옵션(온디맨드, 컴퓨팅 절약 플랜, 예약 및 스팟)도 다양합니다.
- 이 글을 쓰는 시점에서 ECS에서 애플리케이션을 실행할 경우 기본 EC2 인스턴스에 대한 비용만 지불하고 ECS 사용에 대한 추가 비용은 없습니다. 하지만 EKS를 사용하는 경우 EKS 클러스터와 기반 EC2 인스턴스 각각에 대해 시간당 0.10달러의 추가 요금을 지불해야 합니다.
- AWS Fargate 가격은 컨테이너 이미지 다운로드를 시작한 시점부터 Amazon ECS 작업이나 Amazon EKS2 Pod가 완료될 때까지 사용된 vCPU, 메모리 및 스토리지 리소스를 기준으로 계산되며, 가장 가까운 초 단위로 반올림됩니다.
- 비용은 사용 사례에 따라 다양한 요인에 따라 달라지지만, Graviton2 인스턴스는 일반적으로 이전 세대 인스턴스보다 가격 대비 성능이 더 뛰어납니다. 애플리케이션 요구 사항에 따라 Amazon EC2, EKS 또는 ECS와 함께 다른 서비스(예: 직접 연결된 영구 저장소인 Amazon Elastic Block Store(Amazon EBS) 또는 영구 개체 저장소인 S3)를 사용할 수 있습니다. 각 서비스마다 가격 모델이 다릅니다.
- Amazon EC2, EKS 또는 ECS에서 빅데이터 애플리케이션을 실행하는 경우 자체 데이터 센터에서와 마찬가지로 모든 라이선스 비용을 책임져야 합니다. AWS Marketplace는 미리 구성되어 버튼 클릭 한 번으로 실행할 수 있는 다양한 타사 빅데이터 소프트웨어 패키지를 제공합니다.
성능
- Amazon EC2, EKS 또는 ECS의 성능은 빅데이터 플랫폼에 대해 선택한 인스턴스 유형에 따라 달라집니다. 각 인스턴스 유형은 CPU, RAM, 스토리지, IOP, 네트워크 기능이 다르므로 애플리케이션 요구 사항에 맞는 올바른 성능 수준을 선택할 수 있습니다.
내구성 및 가용성
- 중요한 애플리케이션은 AWS 지역 내의 여러 가용성 영역에 걸쳐 클러스터로 실행되어야 하므로 인스턴스나 데이터 센터 장애가 애플리케이션 사용자에게 영향을 미치지 않습니다.
- 가동 시간에 크게 영향을 미치지 않는 애플리케이션의 경우, 애플리케이션을 Amazon S3에 백업하고 인스턴스 또는 영역에 장애가 발생하는 경우 해당 지역의 모든 가용 영역에 복원할 수 있습니다. 실행 중인 애플리케이션과 요구 사항에 따라 애플리케이션을 미러링하는 등 다른 옵션도 있습니다.
확장성 및 복원력
- 자동 크기 조정은 사용자가 정의한 조건에 따라 Amazon EC2 용량을 자동으로 늘리거나 줄일 수 있는 서비스입니다.
- 자동 크기 조정을 사용하면 최대 수요 기간에는 성능을 유지하기 위해 사용하는 EC2 인스턴스 수를 원활하게 확장하고, 비용을 최소화하기 위해 수요 감소 기간에는 자동으로 축소할 수 있습니다.
- 자동 크기 조정은 사용량이 시간, 일 또는 주별로 달라지는 애플리케이션에 특히 적합합니다. 자동 크기 조정은 CloudWatch를 통해 활성화되며 CloudWatch 요금 외에 추가 비용 없이 사용할 수 있습니다.
인터페이스
- Amazon EC2, EKS 및 ECS는 API, SDK 또는 AWS Management Console을 통해 프로그래밍 방식으로 관리할 수 있습니다. 인스턴스의 컴퓨팅 사용률, 메모리 사용률, 스토리지 사용률, 네트워크 소비량 및 읽기/쓰기 트래픽 측정항목은 콘솔이나 CloudWatch API 작업을 사용하여 무료로 사용할 수 있습니다.
- Amazon EC2에서 실행되는 빅데이터 분석 소프트웨어의 인터페이스는 선택한 소프트웨어의 기능에 따라 달라집니다.
안티패턴
- Amazon EC2에는 다음과 같은 안티패턴이 있습니다.
- 호스팅 서비스-- 인프라 계층과 빅데이터 분석의 관리를 추상화하는 관리형 서비스가 필요한 경우, Amazon EC2에서 자체 분석 소프트웨어를 관리하는 이러한 "직접 관리" 모델은 적절한 선택이 아닐 수 있습니다.
- 전문성이나 자원 부족귀하의 조직이 관련 시스템의 고가용성 설치를 관리하기 위한 리소스나 전문 지식이 없거나 이를 투자하고 싶지 않은 경우 Amazon EMR, DynamoDB, Amazon Kinesis Data Streams, Amazon Redshift와 같은 AWS 대응 제품을 사용하는 것이 좋습니다.
Amazon Machine Learning은 모든 규모와 기술 수준의 사용자를 대상으로 사용하기 쉽고 확장 가능하며 효율적인 머신 러닝 솔루션을 제공합니다. AWS의 클라우드 컴퓨팅 기능과 AML의 지능형 도구를 결합하면 기업은 더 짧은 시간 안에 데이터를 통찰력으로 전환하고 비즈니스 혁신을 추진할 수 있습니다. 예측 분석, 자연어 처리, 이미지 인식 등 Amazon Machine Learning은 기업의 역량을 강화하고 미래 성장을 위한 길을 열어줍니다.