2024年9月11日〜12日に開催されたSNOWFLAKE WORLD TOUR TOKYOに行ってきました。
仕事の都合で、11日(DAY 0)と12日の午前は参加できず、午後からの参加でした。
NTTドコモにおけるStreamlitを用いたデータ民主化
ドコモは、経営幹部から現場の社員までがデータを活用して迅速に価値を提供することを目指しており、今回のセッションではその取り組みが紹介されました。
ドコモでは、多種多様なデータを基盤に集約し、業務活用を推進しています。ただデータを保有するだけでは意味がなく、ガバナンスを徹底しながら、誰もが容易にデータを活用できる環境を整備することが重要だとしています。その一環として、Streamlitを活用し、ビジネスユーザーが専門知識なしでデータにアクセスできるセルフサービスのデータアプリケーションプラットフォームを構築しました。
このプラットフォームは、従来のデータ活用プロセスにおけるリードタイムの長さや手離れの悪さを改善し、社内のローカルPCからスモールスタートで展開。その後、Google Cloudで環境を構築し、社内全体での利用拡大を図り、わずか8日間でMVP(最小実行可能製品)アプリをリリースするなど、急速に普及が進みました。現在では、開発者数が14人から265人に増加し、ドコモグループ全体での利用が拡大しています。
また、社内イベント「SnowCamp」を通じて、Streamlitアプリの社内コンペを実施し、70以上のアイデアが提案されました。その中で最優秀賞を受賞したのは、d払い加盟店の分析アプリで、ヒートマップでの地図上の可視化により3,800時間の業務時間削減に貢献したとのこと。
今後の展開として、社外への展開や、フルマネージドなStreamlit in Snowflakeへの移行、データクリーンルームを活用したコラボレーションの強化と、生成AIを活用してデータ抽出結果の要約やインサイトの生成、自然言語検索機能などを提供することで、より高度なデータ利活用を目指しているとのことでした。
NTTドコモにおけるペタバイト級データ分析基盤の式年遷宮:設計手法とDWHの移行について
次のセッションもドコモの事例を見てきました。
ドコモでは1日で200TBを超えるデータを処理するビッグデータ分析基盤「IDAP」を運用しており、約3,000名のユーザーがこの基盤を活用しています。この基盤はRedshiftとBigQueryを採用していましたが、Snowflake一本化への移行事例として紹介していました。
Snowflakeに移行したことで、計算リソースとストレージコストの分離、運用オペレーションの効率化、そしてデータマネジメントの高度化を実現したとのこと。特に、処理の相互影響や単一ノード障害による影響を抑えるために、処理ごとの計算リソースを分離し、システムの耐障害性を向上させることができたそうです。
移行プロジェクトは2023年6月に検証を開始し、2024年6月までにRedshiftおよびBigQueryからの完全移行を目指して進められました。移行の過程で、システム間の連携変更やDAGの移行といった課題にも対応。セキュリティ対策として、デフォルトのロールを使用せず、社内手続きに基づく厳格なアクセス管理を実施しているとのことでとても参考になります。
移行後の効果として、障害対応にかかる時間が約100時間/月削減され、データ提供時間も最大30分からわずか2分に短縮されたとのこと。さらに、データの圧縮率は最大で1/5に達し、処理時間のブレも大幅に短縮したとのことで費用対効果がかなり出ていますね。
今後はSnowflakeを活用した社内基盤間のデータ共有やIceberg形式でのデータ保有によるロードコスト削減も検討しているとのことでした。
セッション内容は技術寄りな内容も含まれており、特に権限周りはとても参考になりました。
データ活用で全社員がワクワク!「社員700名が活用できるデータ基盤」を支えるSnowflake活用術
次のセッションはセゾンテクノロジー社によるデータ基盤を全社で活用するためのアプローチについての紹介でした。
セゾンテクノロジーは、データ活用を全社員に広げるために設計された「データドリブンプラットフォーム(DDP)」の構築と運用の過程で直面した課題と、それらの解決策を紹介しました。
DDPは2020年に構想が始まり、2022年には全社員が利用可能なデータ基盤として正式リリース。この基盤の中核にはSnowflakeがあり、データの保存、処理、共有を効率的に行うことができます。さらに、データの探索、ETL(Extract, Transform, Load)、自動化、ビジュアライズのためのツールも提供されており、社員はこれらのツールを活用して業務に必要なデータを迅速に取得できるようになっています。
セキュリティと利便性のバランスを取ることは、DDPの設計において重要なポイントでした。Role-Based Access Control(RBAC)を活用し、各社員の職種に応じたデータアクセス制御を行い、ユーザーは自分に必要なデータにのみアクセスできるように工夫しています。さらに、社員の入社、退社、異動に伴う権限の管理は自動化され、運用負荷が大幅に軽減されました。
2年目にしてDDPの利用者数は当初の想定人数には到達せず、ユーザーの利用が鈍化するという課題が浮上しました。これを受け、ユーザーが直面していた「データ活用スキルの壁」と「データを理解する壁」に対応するための施策を講じました。
まず、自然言語でSQLを生成・実行できる「ChatDDP」を導入し、技術的なハードルを大幅に低減。さらに、メタデータの管理を強化し、ユーザーがデータをより深く理解しやすくするための「DDP Catalog」を開発中とのことです。
今後の展開は、AIの活用とメタデータの強化により、より高度なデータ利活用を推進していくとのこと。また、ユーザーの自発的なアクションと、それに基づくデータ活用の評価を連動させる仕組みの導入を検討しているとのことです。
オブザーバビリティのためのSnowflake Trail
Snowflakeについてのオブザーバビリティが気になったので聴講しました。
まず、アプリケーションやデータパイプラインの構築において、ユーザーが直面する課題が取り上げられました。例えば、トラブルの原因が分からず対応に時間がかかることや、修正アクションの自動化が難しいといった問題です。これらの課題に対して、Snowflake Trailという機能がでました。
Snowflake Trailの主要な機能として、Snowsightを利用したログエクスプローラーや、Pythonコードのパフォーマンスを詳細に分析する「User Code Profiler」があります。これらの機能は、ユーザーが問題を迅速に特定し、必要な改善を施すのに役立ちます。また、Snowpark Container Serviceに関するメトリクスのキャプチャも可能で、CPUやGPUの使用状況をリアルタイムで監視することができます。これにより、パフォーマンスの最適化が容易になります。
さらに、データパイプラインのオブザーバビリティを向上させるために、タスクの実行状況を視覚化するタスクグラフや、データの更新状況を把握するダイナミックテーブルなどの機能も提供されています。これらの機能により、データの品質を常にモニタリングし、必要に応じてアラートを設定することで、健全なデータ管理を実現します。
最後に、Snowflake Trailは他のツールとの統合も可能で、オープンテレメトリーを使用してDatadogなどの外部ツールと連携することで、さらに高度なデータ分析や監視を行うことができます。これにより、Snowflake内で得られたデータやアラートログを活用し、ユーザーが自身のニーズに合った形で効率的に利用できる環境が整えられています。
Snowflake Trailはプライベートプレビューやパブリックプレビューの機能が多く、まだまだ改善途中にあるとのことですが、Snowflakeにおける開発が間違いなく効率良くなると思うので期待したいですね。
コミュニティイベント
コミュニティイベント「LEGEND OF THE DATA HEROES 3」の手伝いをしてきました。といっても、全体の進行の把握とクイズ回答用にスマホ画面を見せてクイズ進行をするぐらいでした。
クイズは全8問ありましたが、どれも難しくほとんど正解できず。。。
クイズコンテンツや全体進行などかなり高クオリティでとても楽しめました。コミュニティの皆様、ありがとうございました。
まとめ
初めての参加で戸惑うこともありましたが、色んな方と話をさせていただいてとても楽しかったです。ただ、会場のキャパに対して人がかなり多くてセッション間の移動が大変でした。。。会社の同僚に聞いたら昨年は人がそこまで多くなかったとのことで、Snowflakeに興味を持っている人や導入している企業が増えてきているのでしょう。来年はキャパシティ問題を解消されていることを期待しています!