技術書典のオフライン会場で購入しました。ここ2年弱データ分析基盤のプロジェクトリーダーをやっていて、Snowflakeについてキャッチアップしたかったので気になっていました。
データ分析基盤プロジェクトの初期に、データウェアハウスをBigQueryかSnowflakeのどちらにするか考えていました。Google Cloud(GCP)のエコシステムやGoogle WorkspaceやGoogle Analytics、スプレッドシートなどのGoogle製品との相性の良さなどの理由からBigQueryにしましたが、ここ数年のSnowflakeの勢いは凄まじいです。
著者はSnowflakeを2年以上利用しているヘビーユーザーです。利用ユーザーの目線でSnowflakeのメリットだけでなく、デメリットやオープンソース(OSS)や別のSaaSにも言及されています。
クラウドベンダーの中の人が書くと、その製品と関連サービスを紹介しがちになります。AWSならAmazon RedshiftやAmazon Athena、Amazon S3、AWS Glueなど揃っていますし、GCPならBigQuery、Cloud Storage、Cloud Dataflow、Cloud Composer、Dataformなどそれぞれのクラウドベンダーでデータエンジニアリングが完結できます。
その会社事情もあるので仕方ないと思いますし、クラウドベンダーに閉じるのは合理性があるので悪いことではありません*1。しかし、ユーザー目線では各クラウドサービスでは手が届かないところがあり、OSSやSaaSで解決することもあります。著者が利用ユーザーであることは、そのクラウドベンダーに忖度することなく同じ利用(もしくはこれから利用しようとしている)ユーザーにとっても有益であることがあります。
本書では、Snowflakeの使い方や機能紹介について約半分ぐらいの分量を割いています。もう半分はデータ分析基盤の歴史的背景から入り、データ基盤の技術要素の説明、最近のデータエンジリアリングの動向やOSSとSaaSの紹介となっていて、Snowflake本だと思っていた自分にとっていい意味で裏切られました。モダンデータスタックやリバースETLなどについて最近キャッチアップできていなかった自分にとってありがたかったです。
ETLツールとしては最近注目されているdbtを取り上げて手を動かせるサンプルも載せています。Snowflake + dbtの相性の良さについて手を動かして学ぶことができます。本書は100ページぐらいの量なのでサクッと読めますし、データエンジニアになったばかりの人でも読みやすくなっているのでオススメだと思います。
残念ながら紙の本は売り切れていますが、電子版は購入できます。技術書典のオンライン開催は今週末(6/4)までなので気になった人は急いで購入したほうがいいでしょう。
*1:ベンダーロックについては各自で思うところもあると思いますので本記事では言及しません。