AWS GlueとLake Formationを試してみた(Vol.1)

Glue and Lake Formation

最近注目が高まってきているデータガバナンス。

どんなサービスを使い、どのようなことが出来るのか。

以下のYoutubeを参考にさせていただき、学習してみることにしました。

以下の流れで構成されており、今回は「イントロダクション+準備(VPCエンドポイント作成)」が中心です。

  • Glue Data Catalog
  • Data Access Control
  • Glue Crawler
  • Glue Data Catalog Revisited
  • Glue Job and Glue Studio
  • Glue workflow
  • Advanced Topics
目次

AWS GlueとAWS Lake Formation

AWS公式サイトでは、それぞれ以下のように説明されています。

Glue

AWS Glue は、データの準備をより簡単、迅速、低コストにするサーバーレスデータ統合サービスです。70 を超える多様なデータソースを検出して接続し、一元化されたデータカタログでデータを管理し、ETL パイプラインを視覚的に作成、実行、モニタリングして、データをデータレイクにロードできます。

引用元:https://aws.amazon.com/jp/glue/

Lake Formation

AWS Lake Formation は、安全なデータレイクを簡単に作成し、幅広い分析にデータを利用できるようにします。

引用元:https://aws.amazon.com/jp/lake-formation/

VPCエンドポイント作成

まずはS3エンドポイント、Glueエンドポイントを作成します。

目標はこちら。

S3エンドポイント(ゲートウェイ型)

S3エンドポイント(ゲートウェイ型)が出来ました。

Glueエンドポイント(インターフェース型)

Glueエンドポイント(インターフェース型)も出来ました。

VPCエンドポイントの料金

ゲートウェイ型は無料ですが、インターフェース型は作成するだけで1個当たり課金が始まります。
すぐに作れるので、今回のような動作確認程度ならば、使わない間は削除しておくのが良さそうです。

https://aws.amazon.com/jp/privatelink/pricing/

2023年4月時点で、インターフェース型は1個あたり0.014USD/時間だよ

以上、今回はイントロダクションとVPCエンドポイント作成でした。

目次