Amazon Web Services - Data Pipeline

Quiz

AWS Data Pipeline 是一个 web 服务，旨在帮助用户更容易地将分布在多个 AWS 服务中的数据集成起来，并从单一位置对其进行分析。

使用 AWS Data Pipeline，可以从源头访问数据，进行处理，然后将结果高效传输到相应的 AWS 服务。

如何设置 Data Pipeline？

以下是设置 data pipeline 的步骤 −

步骤 1 − 使用以下步骤创建 Pipeline。

登录 AWS 账户。
使用此链接打开 AWS Data Pipeline 控制台 − https://console.aws.amazon.com/datapipeline/
在导航栏中选择区域。
点击 Create New Pipeline 按钮。
在相应字段中填写所需详细信息。
- 在 Source 字段中，选择 Build using a template，然后选择此模板 − Getting Started using ShellCommandActivity。

选择模板后，Parameters 部分才会打开。将 S3 input folder 和 Shell command to run 保留为默认值。点击 S3 output folder 旁边的文件夹图标，并选择 bucket。
在 Schedule 中，将值保留为默认。
在 Pipeline Configuration 中，将 logging 保留为启用状态。点击 S3 location for logs 下方的文件夹图标，并选择 bucket。
在 Security/Access 中，将 IAM roles 值保留为默认。
点击 Activate 按钮。

删除 pipeline 也将删除所有关联的对象。

步骤 1 − 从 pipeline 列表中选择 pipeline。

步骤 2 − 点击 Actions 按钮，然后选择 Delete。

步骤 3 − 确认提示窗口打开。点击 Delete。

简单且成本效益高 − 其拖放功能使得在控制台上创建 pipeline 变得容易。其可视化 pipeline 创建器提供了一个 pipeline 模板库。这些模板使得创建处理日志文件、将数据归档到 Amazon S3 等任务的 pipeline 变得更容易。

可靠 − 其基础设施设计用于容错执行活动。如果活动逻辑或数据源发生故障，AWS Data Pipeline 会自动重试该活动。如果故障持续，则会发送故障通知。我们甚至可以为成功运行、故障、活动延迟等情况配置这些通知警报。

灵活 − AWS Data Pipeline 提供各种功能，如调度、跟踪、错误处理等。它可以配置为执行诸如运行 Amazon EMR 作业、直接针对数据库执行 SQL 查询、在 Amazon EC2 上运行自定义应用程序等操作。