Look for any podcast host, guest or anyone
Showing episodes and shows of

Akira Shimosako

Shows

OTF TalkOTF Talk#23 Apache Hudi 1.0 アナウンスブログを読む (番外編)第23回は、ゲストなしの番外編として、Apache Hudi 1.0リリースのアナウンスブログを読む回です。また、最後に今後のOTF Talkについて少しご案内があります。 Apache Hudi 1.0 Release/次世代レイクハウス/1.0の新機能/OTF Talk今後の予定 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) ■Apahce Hudi Announcing Apache Hudi 1.0 and the Next Generation of Data Lakehouses https://hudi.apache.org/blog/2024/12/16/announcing-hudi-1-0-0/ Apache Hudi 1.0 Release note https://hudi.apache.org/releases/release-1.0.0/ Apache Hudi Roadmap https://hudi.apache.org/roadmap/ ■関連技術 LSM Tree https://en.m.wikipedia.org/wiki/Log-structured_merge-tree 書籍「データ指向アプリケーションデザイン」(オライリー) https://www.oreilly.co.jp/books/9784873118703/ Google Spanner TrueTimeと外部整合性 (Google) https://cloud.google.com/spanner/docs/true-time-external-consistency?hl=ja ■OT2024-12-3021 minOTF TalkOTF Talk#22 Delta Lake 実践事例OTF Talk 第22回は、Databricksの桑野 章弘さんに「Delta Lake 実践事例」についてお話をうかがいました。 Delta Lake ユースケース/機械学習もDWHも同じ環境で/事例/Delta Lakeを選択した理由 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ guest:@kuwa_tw Databricks ソリューションアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) 桑野さん Xアカウント https://x.com/kuwa_tw Databrics https://www.databricks.com/jp Delta Lakeとは? (Databricksドキュメント) https://docs.databricks.com/ja/delta/index.html Delta Lakeクイックスタートガイド (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/345f503d5f8177084f24 Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 楽観的なトランザクション管理 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 Databricks 事例(株式会社リクルート) https://2024-12-2419 minOTF TalkOTF Talk#21 Delta Lake 入門OTF Talk 第21回はDatabricksの桑野 章弘さんに、「Delta Lake 入門」についてお話をうかがいました。 Delta Lakeのはじまり/商用版とOSS版の違い/Delta Lake の特徴/楽観的なトランザクション管理/Unity Catalog OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ guest:@kuwa_tw Databricks ソリューションアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) 桑野さん Xアカウント https://x.com/kuwa_tw Databrics https://www.databricks.com/jp Delta Lakeとは? (Databricksドキュメント) https://docs.databricks.com/ja/delta/index.html Delta Lakeクイックスタートガイド (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/345f503d5f8177084f24 Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 楽観的なトランザクション管理 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 Databricks 事例(株式会社リクルート)2024-12-1720 minOTF TalkOTF Talk#20 Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)OTF Talk 第20回は、joker1007さんに「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察 guest:@joker1007 Repro チーフアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) joker1007さんXアカウント https://x.com/joker1007 Repro https://repro.io/ 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説) https://tech.repro.io/entry/2024/07/26/141233 本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料) https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ) https://tech.repro.io/entry/2024/10/28/170721 2024-12-1027 minOTF TalkOTF Talk#19 Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)OTF Talk 第19回はjoker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)」についてお話をうかがいました。 既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 guest:@joker1007 Repro チーフアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) joker1007さんXアカウント https://x.com/joker1007 Repro https://repro.io/ 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説) https://tech.repro.io/entry/2024/07/26/141233 本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料) https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ) https://tech.repro.io/entry/2024/10/28/170721 2024-12-0320 minOTF TalkOTF Talk#18 LINEヤフーにおけるHiveからIcebergへの移行(後編)第18回:LINEヤフーにおけるHiveからIcebergへの移行(後編) OTF Talk 第18回は、奥田さんに「LINEヤフーにおけるHiveからIcebergへの移行(後編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Iceberg導入のモチベーション/HiveからIcebergへインプレースでの移行/一部移行した感触/ユーザーコミュニケーションの重要性 guest:奥田 輔さん @okdtsk LINEヤフー データグループ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Cloudera Evolve 2024 https://www.cloudera.com/events/evolve/singapore.html LINEのデータプラットフォームが目指すべき未来 ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。 https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for Protocol Buffers https://github.com/protocolbuffers/protobuf2024-11-2624 minOTF TalkOTF Talk#17 LINEヤフーにおけるHiveからIcebergへの移行(前編)OTF Talk 第17回は奥田さんに、「LINEヤフーにおけるHiveからIcebergへの移行(前編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Cloudera Evolve 2024での登壇/HDFSで900PB超のデータ基盤/現状の構成と課題/なぜApache Iceberg? guest:奥田 輔さん @okdtsk LINEヤフー データグループ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Cloudera Evolve 2024 https://www.cloudera.com/events/evolve/singapore.html LINEのデータプラットフォームが目指すべき未来 ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。 https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for Protocol Buffers https://github.com/protocolbuffers/protobuf 2024-11-1921 minOTF TalkOTF Talk#16 AWS GlueのOTFサポートOTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg) guest:鯵坂 明さん @ajis_ka AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.com/apache/hudi/pull/9577 Icebergのコメント対応Pull Request https://github.com/apache/iceberg/pull/101992024-11-1220 minOTF TalkOTF Talk#15 Apache Hadoopから見たOTFOTF Talk 第15回は鯵坂さんに、「Apache Hadoopから見たOTF」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 鯵坂さんとHadoopとの関わり/OTF環境で利用されるHadoopソフトウェア/OTF実装とHiveカタログ guest:鯵坂 明さん @ajis_ka AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.com/apache/hudi/pull/9577 Icebergのコメント対応Pull Request https://github.com/apache/iceberg/pull/10199 2024-11-0519 minOTF TalkOTF Talk#14 Apache Iceberg The Definitive Guide 輪読会とIcebergのパフォーマンス最適化OTF Talk 第14回は、ケビンさんに、Apache Iceberg The Definitive Guide 輪読会と、その輪読会での学習内容であるIceberg概要やIcebergのパフォーマンス最適化についてお話をうかがいます。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 輪読会を運営中/なぜSnowflakeコミュニティがIcebergの勉強会を?/第1章:Icebergとは何か/第4章:パフォーマンス guest: @kevinrobot34 (ケビン) ナウキャスト データプラットフォームエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) SnowflakeのIcebergサポート (Snowflakeドキュメント) https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables Apache Iceberg: The Definitive Guide https://www.amazon.co.jp/dp/B0CZ4F2MP3 輪読会発表資料:1章 前田さん https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view 輪読会発表資料:4章前半 ※ケビンさん https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4 輪読会発表資料:4章後半 ※島尻さん https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban Bloom filter (Wikipedia) https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%B2024-10-2923 minOTF TalkOTF Talk#13 DWH利用者からみた、Apache Icebergの魅力OTF Talk 第13回はケビンさんに、DWH利用者からみた、Apache Icebergの魅力についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 SnowflakeのIceberg対応/Icebergの学習を通してDWHの内部を想像する/DWHとIcebergの使いわけ guest: @kevinrobot34 (ケビン) ナウキャスト データプラットフォームエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) SnowflakeのIcebergサポート (Snowflakeドキュメント) https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables Apache Iceberg: The Definitive Guide https://www.amazon.co.jp/dp/B0CZ4F2MP3 輪読会発表資料:1章 前田さん https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view 輪読会発表資料:4章前半 ※ケビンさん https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4 輪読会発表資料:4章後半 ※島尻さん https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban Bloom filter (W2024-10-2319 minOTF TalkOTF Talk#12 Trinoコネクタからみた OTF (Iceberg, Delta lake)OTF Talk 第12回は、Starburst の 蛯原 裕弥 さんに、OTF(Iceberg, Delta lake)をサポートするTrinoのコネクタについて、概要やその実装方法についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Trinoコネクタの役割/Icebergコネクタ/Trino+コネクタの特徴/Delta lakeコネクタ/Delta kernelを使っていない理由 guest: @ebyhr (蛯原 裕弥) Starburst Engineer / Trino, Apache Polaris committer host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 -------------------- 参考文献) Starburst https://www.starburst.io/ Apache Polaris https://polaris.apache.org/ Presto https://prestodb.github.io/ Trino https://trino.io/ Write-Audit-Publish (WAP)解説 (Tabular) https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/ 蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request) https://github.com/trinodb/trino/pull/23513 2024-10-1624 minOTF TalkOTF Talk#11 Trinoの成り立ちとコネクタの役割OTF Talk 第11回は、Starburst の 蛯原 裕弥 さんに、OTFのデータをクエリする際によく利用されている分散SQLエンジンであるPresto/Trinoの成り立ちや、Trinoのフェデレーション機能と各種コネクタについてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 PrestoとTrinoの成り立ち/Trinoの特徴/フェデレーション機能とコネクタ/実装はどこが担うのか guest: @ebyhr (蛯原 裕弥) Starburst Engineer / Trino, Apache Polaris committer host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Starburst https://www.starburst.io/ Apache Polaris https://polaris.apache.org/ Presto https://prestodb.github.io/ Trino https://trino.io/ Write-Audit-Publish (WAP)解説 (Tabular) https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/ 蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request) https://github.com/trinodb/trino/pull/23513 誤った統計情報を読み取った場合の挙動についてのpull request https://github.com/apache/iceberg/pull/8559 Delta kernel https://delta.io/blog/delta-kernel2024-10-0921 minOTF TalkOTF Talk#10 IcebergとセキュリティOTF Talk 第10回は、”やっさん”こと、永富安和さんに、Icebergのセキュリティ(暗号化等)の動きや、検討されている機能追加についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Icebergとセキュリティ/暗号化/アクセス制御/どこまでスペックにいれるべきか?/その他検討されている機能/OTFSGへの参加お待ちしております guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight) https://ossinsight.io/analyze/apache/polaris?vs=unitycata...2024-10-0216 minOTF TalkOTF Talk#09 Polaris CatalogOTF Talk 第9回は、”やっさん”こと、永富安和さんに、Icebergのカタログ周りやPolaris Catalogについてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Icebergにとってのカタログの位置づけ/Polaris Catallog/OSS化の動きと意義/Iceberg REST API 仕様を内包する動き guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity C...2024-09-2517 minOTF TalkOTF Talk#08 OTFSGとCloudera Evolve 2024OTF Talk 第8回は、”やっさん”こと、永富安和さんに、日本のOTFコミュニティであるOTFSGや、シンガポールで開催されたIceberg meet-upでの話題についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 日本のコミュニティOTFSG/Cloudera Evolve 2024 Singapore/Iceberg Meetupでの今後の方向性/ guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity Ca...2024-09-1816 minOTF TalkOTF Talk#07 個人情報保護のためのデータ削除OTF Talk 第7回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースである、個人情報保護対応のためのデータ更新・削除についてお話をうかがいました。 ※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 個人情報を消したい・マスクしたいというニーズ/なぜ実現困難だったのか/OTF でどう実現できるのか/削除とトランザクション/本当に消す必要があるのか/事例 guest: @moomindani (関山 宜孝) AWS Glue product team 所属の Principal Big Data Architect host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Iceberg のChangelog View解説(べりんぐさんのブログ) https://bering.hatenadiary.com/entry/2024/03/31/150946 OSSのCDCツール Debezium https://debezium.io/ データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog) https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/ メダリオンアーキテクチャ (databricks) https://www.databricks.com/jp/glossary/medallion-architecture EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/ 日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/ Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」 https://techblog.yahoo.co.jp/entry/2022052530303179/2024-09-1117 minOTF TalkOTF Talk#06 CDCによるニアリアルタイムデータ連携OTF Talk 第6回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースの1つであるCDC (Change Data Capture)の活用についてお話をうかがいました。 ※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 RDBをリアルタイムにdata lakeに連携したい/CDC (Change Data Capture)/なぜ実現困難だったのか/Upsertとトランザクション/データレイクをデータソースにする guest: @moomindani (関山 宜孝) AWS Glue product team 所属の Principal Big Data Architect host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Iceberg のChangelog View解説(べりんぐさんのブログ) https://bering.hatenadiary.com/entry/2024/03/31/150946 OSSのCDCツール Debezium https://debezium.io/ データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog) https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/ メダリオンアーキテクチャ (databricks) https://www.databricks.com/jp/glossary/medallion-architecture EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/ 日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/ Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」 https://techblog.yahoo.co.jp/entry/2022052530303179/2024-09-0425 minOTF TalkOTF Talk#05 Delta Lake UniForm (Universal Format)OTF Talk 第5回は、AWSの田中 智大さんをゲストに Delta Lake UniForm (Universal Format) についてと、カンファレンスに登壇する意義についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Data + AI Summit で登壇/UniForm (Universal Format)ってなに?/UniFormの仕組みと、活用領域/ カンファレンスに登壇するモチベーション/物理的に会ったあとに何が変わったか guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/) AWSのシニア・クラウドサポートエンジニア(Bigdata profile) host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache Iceberg Github https://github.com/apache/iceberg 田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468 Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors Good first issue https://goodfirstissue.dev/ Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen Data + AI Summit での田中さん発表 Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg UniForm (Universal Format) の日本語解説 (Databricks) https://www.databricks.com/jp/blog/delta-lake-universal-2024-08-2821 minOTF TalkOTF Talk#04 Apache Iceberg へのコントリビューションOTF Talk 第4回は、AWSの田中 智大 (tomtan) さんをゲストに、Apache Iceberg へのコントリビューションの経験や、Icebergコミュニティについてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Apache Iceberg との出会い/はじめてのコントリビューション/どうすれば貢献できる?/Good first issue/Iceberg コミュニティ guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/) AWSのシニア・クラウドサポートエンジニア(Bigdata profile) host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache Iceberg Github https://github.com/apache/iceberg 田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468 Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors Good first issue https://goodfirstissue.dev/ Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen Data + AI Summit での田中さん発表 Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg UniForm (Universal Format) の日本語解説 (Databricks) https://www.databric2024-08-2120 minOTF TalkOTF Talk#03 OTF (Open Table Format)入門 - OTFのこれからAWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第3回は「OTFのこれから」として、OTFに今後期待されていることや、カタログの重要性、データエンジン以外からのアクセスについてお話を伺いました。 OTFに期待されること/相互運用性/カタログの重要性/データエンジン以外からのアクセス guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話 データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説 https://techblog.yahoo.co.jp/entry/2022052530303179/ ■ Delta Lake ホームペ2024-08-1417 minOTF TalkOTF Talk#02 OTF (Open Table Format)入門 - OTFの今AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第2回は「OTFの今」として、Iceberg, Hudi, Delta Lakeといった3種類のOTF、およびその機能の概要についてお話を伺いました。 Iceberg, Hudi, Delta Lake/OTFの機能/ストレージと処理系の分離/ACIDトランザクション guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apach2024-08-0715 minOTF TalkOTF Talk#01 OTF (Open Table Format)入門 - OTF誕生の背景AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第1回は「OTF誕生の背景」として、データレイク上の分析にどういった課題があって、それらを解決するためにOTFが生まれてきた背景を解説していただきました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 データレイクとは/なぜOTFが現れたか/Netflx:60PBのデータレイクでの運用・利用の課題/何が課題だったか、何を解決したのか/Uber: バッチとストリーミングの統合 guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話 データレイク上のデータ削除の必要性と、どのようにしてHud2024-07-3020 min