AWS re:Inventが始まっている最中ですが、GCPハンズオンセミナーに行ってきました。
セミナー概要↓
参加動機
前回参加したハンズオンセミナーはGCPの基本的な内容とGCEについてでしたが、GCPの強みの一つである、データサービス系について直接手を動かして学びたいと思ったため参加に至りました。
前回参加したハンズオンセミナーの参加レポート↓
ハンズオン資料は公開は控えてほしいと聞いたので、私の個人的メモにとどめます。
なにをやったのか
公開されている Citi Bike のデータを使って、データサービスの一部である、BigQuery、Datalab、Dataprep、DataStudio を使ったハンズオンをやりました。
参考: Analyzing NYC biking data with Google BigQuery | Google Cloud Blog
- Citi BikeのデータをBigQueryでクエリ検索
- Datalabを起動して、Jupyter notebookからBigQuery経由でクエリ実行、グラフ表示
- DataStudioでデータの可視化
- DataprepでGCSからBigQueryへのインポートを実装
BigQueryの基本
Project └── Dataset └── Table
- job: クエリやデータの入力単位
- 処理したデータ量に応じて課金される。
- クエリエディタの右下に「このクエリを実行すると、○○ GB が処理されます。」と表示されるので事前にコスト見積もりができる
- ストレージ料金: $0.023/GB・月
- GCSのNearlineとほぼ同じ
Datalab
- インタラクティブな分析ツール
- Jupyter notebook形式
- コマンドラインベースでの管理
- GCP の各サービスとのインテグレーション
- Cloud Shellから
datalab create <Name>
で作成すると以下のリソースが作成される- VPCネットワーク(
datalab-network
) - GCEインスタンス(
<Name>
で指定した名前)
- VPCネットワーク(
DataStudio
- BIツールとは異なる
- データをきれいに見せることに特化していて、分析には不向き
- きれいな図は作れるが、作り込むと大変
Dataprep
- GUIベースのデータ準備ツール
- Dataflow 上に構築されコードは不要
- CSV, JSON, TXT, LOG, GZIP と BigQuery に対応
- GCP の各サービスとのインテグレーション
- スケジュール実行も対応している
- まだ東京リージョンのBigQueryにデータロードすることができない。
- DataFlow自体はできるが、DataprepはサードパーティサービスでDataFlowをラップしているため現状リージョン指定はできない(今後できるようになるとのこと)
BigQuery ML
- SQLで機械学習モデルを作成
- 線形回帰モデルとかに対応
- Deep Learningとか複雑なことには対応していない
余力がある人向けコンテンツ
- Google Cloud Next’18 in Tokyo で行ったハンズオンの内容
- GCP で実現する、ハイブリッドクラウド環境でのデータ連携パターン(実践編)
- https://cloud.withgoogle.com/next18/tokyo/sessions/session/223267
Cloud Pub/Sub
- 信頼性の高いリアルタイムのメッセージング
- グローバルにデザインされた高い可用性
- プロビジョニング不要の自動処理
- at-least-once 配信
終わったあとは懇親会
美味しい料理とお酒を手に参加者とGoogleの方とお話させていただきました。 *1
最後に
ハンズオンのボリュームが多く、約3時間と長丁場でしたが、資料を元に一人でもくもくやっていったら逆に短く感じました。
手を動かしてなんとなく各サービスの概要とその連携について学ぶことができましたが、まだ自分の中で腑に落ちてないところがあるので、ハンズオン資料を元にもう一度試してみたいと思います。
*1:私は病み上がりなのでお酒は控えました