随着数据的快速增长和人工智能技术的日益普及,机器学习已成为现代企业在竞争中脱颖而出的重要工具。亚马逊机器学习(Amazon Machine Learning, AML)是一项由亚马逊云计算(AWS)提供的服务,旨在帮助用户轻松构建、训练和部署机器学习模型。无论是初学者还是资深数据科学家,AML 都能通过其强大的工具和服务加速机器学习项目的开发进程,为企业创造更多价值。
介绍
- AWS 提供最广泛、最深入的机器学习服务和支持云基础设施,将机器学习交到每一位开发人员、数据科学家和专家从业者的手中。
- 在 AWS 中构建基于 ML 的工作负载时,您可以从三个不同级别的 ML 服务中进行选择,以平衡上市速度与定制水平和 ML 技能水平:
- 人工智能(AI)服务
- 机器学习服务
- ML 框架和基础设施
- AI 服务级别提供完全托管的服务,使您能够使用 API 调用快速将 ML 功能添加到您的工作负载中。
- 这使您能够构建具有计算机视觉、语音、自然语言、聊天机器人、预测和推荐等功能的强大智能应用程序。
- 此级别的服务基于预先训练或自动训练的机器学习和深度学习模型,因此您不需要 ML 知识即可使用它们。
- 您可以使用:
- Amazon Translate用于翻译或本地化文本内容
- Amazon Polly用于文本到语音的转换
- 用于构建对话聊天机器人的Amazon Lex
- Amazon Comprehend从非结构化数据中提取见解和关系
- Amazon Forecast可构建准确的预测模型
- Amazon Fraud Detector可识别潜在的在线欺诈活动,
- Amazon CodeGuru可自动进行代码审查并识别最广泛的代码行
- Amazon Textract自动从文档中提取文本和数据
- Amazon Rekognition为您的应用程序添加图像和视频分析功能
- Amazon Kendra将重新构想您的网站和应用程序的企业搜索
- Amazon Personalize提供实时个性化推荐
- Amazon Transcribe为您的应用程序添加语音转文本功能
- ML 服务级别为开发人员、数据科学家和研究人员提供机器学习的托管服务和资源。
- Amazon SageMaker使开发人员和数据科学家能够快速轻松地构建、训练和部署任何规模的 ML 模型。
- Amazon SageMaker Ground Truth可帮助您快速构建高度准确的 ML 训练数据集。
- Amazon SageMaker Studio是第一个用于机器学习的集成开发环境,可以大规模构建、训练和部署 ML 模型。
- Amazon SageMaker Autopilot会根据您的数据自动构建、训练和调整最佳 ML 模型,同时使您能够保持完全的控制和可见性。
- Amazon SageMaker JumpStart可帮助您快速轻松地开始使用 ML。
- Amazon SageMaker Data Wrangler将聚合和准备 ML 数据所需的时间从几周缩短到几分钟。
- Amazon SageMaker Feature Store是一个完全托管的专用存储库,用于存储、更新、检索和共享 ML 功能。
- Amazon SageMaker Clarify为 ML 开发人员提供了对训练数据和模型的更高可见性,以便您能够识别和限制偏差并解释预测。
- Amazon SageMaker Debugger通过实时监控训练指标和系统资源来优化 ML 模型。
- Amazon SageMaker 的分布式训练库可自动在 AWS 图形处理单元 (GPU) 实例之间拆分大型深度学习模型和训练数据集,而所需时间仅为手动操作的一小部分。
- Amazon SageMaker Pipelines是第一个专门为 ML 构建的、易于使用的持续集成和持续交付 (CI/CD) 服务。
- Amazon SageMaker Neo使开发人员能够训练一次 ML 模型,然后在云端或边缘的任何地方运行它们。
介绍
- Amazon EC2 的实例充当 AWS 虚拟机,为在 AWS 基础设施上运行您自己的自管理大数据分析应用程序提供了理想的平台。
- 几乎任何您可以在 Linux 或 Windows 虚拟化环境中安装的软件都可以在 Amazon EC2 上运行,并且您可以使用即用即付的定价模式。
- AWS Graviton 处理器由 AWS 使用 64 位 Arm Neoverse 内核定制构建,为您在 Amazon EC2 中运行的云工作负载提供最佳性价比。
AWS 上的大数据分析选项是一个包含不同文章的系列,这些文章提供了 AWS 上不同大数据分析选项的基本介绍。每篇文章都涵盖了有关如何使用每项服务来收集、处理、存储和分析大数据的详细指南。
- Amazon EC2 提供最广泛、最深入的计算实例组合,其中包括许多由最新一代 Intel 和 AMD 处理器提供支持的实例。AWS Graviton 处理器增加了更多选择,可帮助客户优化其工作负载的性能和成本。
- 您无法获得的是本白皮书中提到的其他服务附带的应用程序级托管服务。自我管理的大数据分析有很多选择:
- NoSQL 产品,例如 MongoDB
- 数据仓库或列式存储,例如 Vertica
- Hadoop 集群
- Apache Storm 集群
- Apache Kafka 环境
- 在 EC2 上运行的任何自管理大数据工作负载也可以在 AWS 完全托管的容器编排服务(如 Amazon ECS、Amazon EKS 和 AWS Fargate)上运行。Fargate 是一种适用于容器的无服务器计算引擎,可与 ECS 和 EKS 配合使用。
理想的使用模式
- 专用环境– 在运行自定义应用程序、标准 Hadoop 集的变体或其他 AWS 产品未涵盖的应用程序时,Amazon EC2 可提供灵活性和可扩展性来满足您的计算需求。
- 合规性要求– 某些合规性要求可能要求您在 Amazon EC2 上自行运行应用程序,而不是使用托管服务产品。
成本模型
- Amazon EC2 拥有多个实例系列(标准、高 CPU、高内存、高 I/O 等)中的多种实例类型,以及不同的定价选项(按需、计算节省计划、预留和 Spot)。
- 在撰写本文时,在 ECS 上运行应用程序时,您只需为底层 EC2 实例付费,无需为使用 ECS 支付额外费用。但是,对于 EKS,您需要为每个 EKS 集群以及底层 EC2 实例每小时额外支付 0.10 美元。
- AWS Fargate 定价根据从您开始下载容器映像到 Amazon ECS 任务或 Amazon EKS2 pod 完成期间所使用的 vCPU、内存和存储资源计算,四舍五入到最接近的秒数。
- 虽然成本取决于基于用例的各种因素,但 Graviton2 实例通常能够提供比上一代实例更好的性价比。根据您的应用程序要求,您可能希望与 Amazon EC2、EKS 或 ECS 一起使用其他服务,例如用于直接连接的持久存储的 Amazon Elastic Block Store (Amazon EBS) 或作为持久对象存储的 S3;每个服务都有自己的定价模型。
- 如果您在 Amazon EC2、EKS 或 ECS 上运行大数据应用程序,则您需要承担任何许可费用,就像在自己的数据中心一样。AWS Marketplace 提供许多不同的第三方大数据软件包,这些软件包经过预先配置,只需单击按钮即可启动。
表现
- Amazon EC2、EKS 或 ECS 的性能取决于您为大数据平台选择的实例类型。每种实例类型都有不同的 CPU、RAM、存储、IOP 和网络功能,因此您可以根据应用程序需求选择合适的性能级别。
耐用性和可用性
- 关键应用程序应在 AWS 区域内的多个可用区中的集群中运行,以便任何实例或数据中心故障都不会影响应用程序用户。
- 对于非正常运行时间关键型应用程序,您可以将应用程序备份到 Amazon S3,并在发生实例或区域故障时还原到该区域中的任何可用区。还有其他选项,具体取决于您正在运行的应用程序和要求,例如镜像您的应用程序。
可扩展性和弹性
- Auto Scaling 是一项服务,可让您根据定义的条件自动扩大或缩小 Amazon EC2 容量。
- 使用 Auto Scaling,您可以确保所使用的 EC2 实例数量在需求高峰期间无缝扩大以保持性能,并在需求低迷期间自动缩小以最大限度地降低成本。
- Auto Scaling 特别适合每小时、每天或每周使用量都会发生变化的应用程序。Auto Scaling 由 CloudWatch 启用,除 CloudWatch 费用外无需支付其他费用。
接口
- 可以通过 API、SDK 或 AWS 管理控制台以编程方式管理 Amazon EC2、EKS 和 ECS。使用控制台或 CloudWatch API 操作可以免费获取计算利用率、内存利用率、存储利用率、网络消耗以及实例的读/写流量指标。
- 在 Amazon EC2 上运行的大数据分析软件的界面根据您选择的软件的特性而有所不同。
反模式
- Amazon EC2 具有以下反模式:
- 托管服务——如果您的要求是托管服务产品,从大数据分析中抽象出基础设施层和管理,那么这种在 Amazon EC2 上管理您自己的分析软件的“自己动手”模式可能不是正确的选择。
- 缺乏专业知识或资源——如果您的组织没有或不想花费资源或专业知识来安装和管理相关系统的高可用性安装,您应该考虑使用 AWS 等效产品,例如 Amazon EMR、DynamoDB、Amazon Kinesis Data Streams 或 Amazon Redshift。
Amazon Machine Learning 提供了简单易用、可扩展且高效的机器学习解决方案,适合不同规模和技术水平的用户。通过整合 AWS 的云计算能力和 AML 的智能工具,企业可以在更短的时间内将数据转化为洞察,并推动业务创新。无论是预测分析、自然语言处理还是图像识别,Amazon Machine Learning 都为企业赋能,为未来发展铺平道路。