podcast
details
.com
Print
Share
Look for any podcast host, guest or anyone
Search
Showing episodes and shows of
Akira Shimosako
Shows
OTF Talk
#35 ハイトラフィックな更新処理が必要な環境でのApache Iceberg検証
OTF Talk 第35回は、Repro チーフアーキテクトの joker1007さんに「ハイトラフィックな更新処理が必要な環境でのApache Iceberg検証」についてお話をうかがいました。既存環境の課題/Icebergでデータとコンピュートを分離する/データ更新と参照ラグ/コンパクションの課題と工夫/今後の展望OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/guest: guest:@joker1007 Repro チーフアーキテクト host: @simosako 下佐粉 昭 AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)joker1007さんXアカウント - https://x.com/joker1007ReproでのApache Icebergの技術検証結果 https://tech.repro.io/entry/2025/11/13/161646前回のOTF Talkでのご出演 - Hudiの話 (#19, #20) https://www.otftalk.com/2024/11/ep9.html前回検証結果のブログ https://tech.repro.io/entry/2024/10/28/170721
2025-12-16
32 min
OTF Talk
#34 Apache Kafka と Open Table Format
OTF Talk 第34回はConfluent 清水 亮夫 さんに、「Apache Kafka と Open Table Format」についてお話をうかがいました。リアルタイム処理とOTF/Kafkaの特徴/Kafkaと他システムとの連携/Kafka Connector/Iceberg Sink Connectorの機能と注意点OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: Confluent ソリューションエンジニアの清水 亮夫 さんhost: @simosako 下佐粉 昭AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)清水さん X https://x.com/shmzaApache Iceberg Meetup Japan #3 https://iceberg.connpass.com/event/364492/発表資料 https://speakerdeck.com/shmza/kafkawoli-yong-sitaiceberghenodetasutoriminguApache Kafka https://kafka.apache.org/ Kafka connectors https://docs.confluent.io/platform/current/connect/kafka_connectors.htmlApache Iceberg Sink Connector https://github.com/apache/iceberg/tree/main/kafka-connectKafka-delta-ingest https://github.com/delta-io/kafka-delta-ingest
2025-10-28
27 min
OTF Talk
#33 大規模データ分析環境での Apache Iceberg + Snowflake 活用の経験
OTF Talk 第33回はNTTドコモ 松原 侑哉 さんに、「大規模データ分析環境での Apache Iceberg + Snowflake 活用の経験」についてお話をうかがいました。ペタバイト級データを処理するインフラの変遷/Iceberg評価の背景とモチベーション/ベンチマークの方法と結果/今後についてOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: NTTドコモ プリンシパルデータエンジニア 松原 侑哉 さんhost: @simosako 下佐粉 昭AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)Apache Iceberg Meetup Japan #3https://iceberg.connpass.com/event/364492/松原さん発表資料https://speakerdeck.com/y_matsubara/apache-iceberg-meetup-japan-number-3-da-gui-mo-snowflake-plus-anoicebergnohuo-yong
2025-10-22
21 min
OTF Talk
#32 広告配信システムのデータ基盤におけるApache Iceberg活用
OTF Talk 第32回はマイクロアド 高橋 唐樹 さんに、「広告配信システムのデータ基盤におけるApache Iceberg活用」についてお話をうかがいました。広告配信システムの前処理/HiveからTrinoに移行/Iceberg化のメリット/ストレージとコンピュートの分離によるメリットOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: マイクロアド 高橋 唐樹 さんhost: @simosako 下佐粉 昭AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)発表資料 https://sd-portal.microad.co.jp/slides/2025-03-01_deim2025.htmlDEIM2025 https://pub.confit.atlas.jp/ja/event/deim2025OTF Talk 「マイクロアドでのOTF活用とIcebergテーブルの最適化」#28 https://www.otftalk.com/2025/09/ep14.htmlOTF Talk 「LINEヤフーにおけるHiveからIcebergへの移行」(#17, #18) https://www.otftalk.com/2024/11/ep8.html
2025-10-15
23 min
OTF Talk
#31 Fin Tech領域における Open Table Format
OTF Talk 第31回は鈴木 研吾 さんに、「Fin Tech領域における Open Table Format」についてお話をうかがいました。セキュリティ・キャンプ2025 全国大会/データマネジメントの重要性/Fin Tech領域とOpen Table Formatのメリット/AI時代のセキュリティOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @ken5scal (ken\d\x) 鈴木 研吾 さんhost: @simosako 下佐粉 昭AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)鈴木さん X https://x.com/ken5scal (ken\d\x)セキュリティ・キャンプ2025 全国大会【専門】Dクラスhttps://www.ipa.go.jp/jinzai/security-camp/2025/camp/zenkoku/program/d.html講義資料https://speakerdeck.com/ken5scal/aishi-dai-noda-gui-mo-detahuo-yong-tosekiyuriteizhan-lueLayerX Fintech事業部ブログhttps://tech.layerx.co.jp/archive/category/Fintech%E4%BA%8B%E6%A5%AD%E9%83%A8SIEM https://ja.wikipedia.org/wiki/Security_information_and_event_management
2025-10-08
23 min
OTF Talk
#30 柔軟性のある分析基盤構築のためにApache Icebergを活用した経験
OTF Talk 第30回は坂本 泰規さんに、「柔軟性のある分析基盤構築のためにApache Icebergを活用した経験」についてお話をうかがいました。Apache Iceberg採用のモチベーション/マルチクラウド/クエリエンジンを併用 - SnowflakeとAthena/性能と注意点OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @sambaiz 坂本 泰規さんhost: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)坂本さん X https://x.com/sambaiz「AJA SSP が Apache Iceberg と AWS Glue Data Catalog でペタバイトスケールのデータ基盤の柔軟なクエリエンジンの選択とクエリの高速化を実現」(AWSブログ)https://aws.amazon.com/jp/blogs/news/aja-ssp-adopts-iceberg-and-glue-data-catalog-in-peta-byte-scale-data-platform-to-get-flexible-query-engines-and-faster-queries/OTF Talk #13 「DWH利用者からみた Iceberg の魅力」https://www.otftalk.com/2024/10/ep6.html
2025-10-01
23 min
OTF Talk
#29 関西でのOTFコミュニティ活動
OTF Talk 第29回は、さくらインターネットの永富 安和さん(やっさん)に「関西でのOTFコミュニティ活動 」についてお話をうかがいました。OTFSGとコミュニティ活動/OTF周辺での関心領域/関西でのコミュニティ活動/OTFSG今後の予定OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @yassan168 永富 安和さん(やっさん)さくらインターネット ソフトウェア開発エンジニアhost: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)やっさん X https://x.com/yassan168OTFのコミュニティ OTF Study Group (OTFSG) https://otfsg-tokyo.connpass.com/(OTFSG Slack への招待リンクも上記URLに記載されています)資料 「マイクロアドのData LakehouseとIcebergテーブルの最適化について」https://docs.google.com/presentation/d/1w4mY_coUKPfMBbpvi-fJygmUZIvmh0q6ipG-BM1PxiM/edit?slide=id.g22df57b2e5d_0_0上記発表の録画 https://youtu.be/jEH17or26b0?si=uv6-rO2UTBQSNeIc&t=284RUSTFS (MiniIO alternative) https://github.com/RustFS/RustFSLake Keeper https://docs.lakekeeper.io/--ホストしているもう1つのPodcast : SKO Radiohttps://www.skoradio.com/
2025-09-24
19 min
OTF Talk
#28 マイクロアドでのOTF活用とIcebergテーブルの最適化
OTF Talk 第28回はさくらインターネットの永富 安和さん(やっさん)に、「マイクロアドでのOTF活用とIcebergテーブルの最適化」についてお話をうかがいました。マイクロアドのデータ基盤/当時の環境と課題/採用した構成と理由/ComputeとDataを分離する/IcebergのメンテナンスOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @yassan168 永富 安和さん(やっさん)さくらインターネット ソフトウェア開発エンジニアhost: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)やっさん X https://x.com/yassan168OTFのコミュニティ OTF Study Group (OTFSG) https://otfsg-tokyo.connpass.com/(OTFSG Slack への招待リンクも上記URLに記載されています)資料 「マイクロアドのData LakehouseとIcebergテーブルの最適化について」https://docs.google.com/presentation/d/1w4mY_coUKPfMBbpvi-fJygmUZIvmh0q6ipG-BM1PxiM/edit?slide=id.g22df57b2e5d_0_0上記発表の録画 https://youtu.be/jEH17or26b0?si=uv6-rO2UTBQSNeIc&t=284RUSTFS (MiniIO alternative) https://github.com/RustFS/RustFSLake Keeper https://docs.lakekeeper.io/--ホストしているもう1つのPodcast : SKO Radiohttps://www.skoradio.com/
2025-09-17
31 min
OTF Talk
#27 Apache Iceberg への移行戦略
OTF Talk 第27回は、AWSの疋田 宗太郎さんに「Apache Iceberg への移行戦略」についてお話をうかがいました。なぜIcebergに移行するのか/検討が必要な項目 - ETL、クライアント、データ/移行戦略と移行の流れ/リライト戦略とインプレース戦略OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @_Bassari (疋田 宗太郎/べりんぐ)AWSのソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。host: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)書籍:「実践Apache Iceberg」 技術評論社 (2025/8/27発売) https://amzn.to/419RgwSOTF Talk #17, 18 奥田さんによるデータ移行の話 https://www.otftalk.com/2024/11/ep8.htmlNetflixの移行事例 https://www.youtube.com/watch?v=jMFMEk8jFu8
2025-09-10
22 min
OTF Talk
#26 PyIcebergの活用
OTF Talk 第26回はAWSの疋田 宗太郎さんに、「PyIcebergの活用」についてお話をうかがいました。PyIcebergとは?/ユースケース/メリット/制約・注意点OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest: @_Bassari (疋田 宗太郎/べりんぐ)AWSのソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。host: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)書籍:「実践Apache Iceberg」 技術評論社 (2025/8/27発売) https://amzn.to/419RgwSPyIceberg https://py.iceberg.apache.org/GithubのIssue : Support IsolationLevels and Concurrency Safety Validation Checks※ PyIcebergの同時書き込み時の競合チェックの改善について(競合しづらくする)https://github.com/apache/iceberg-python/issues/819
2025-09-03
18 min
OTF Talk
#25 Apache Iceberg のパフォーマンス最適化
#25 Apache Iceberg のパフォーマンス最適化OTF Talk 第25回は、AWSの田中 智大さんに「Apache Iceberg のパフォーマンス最適化」についてお話をうかがいました。Icebergのパフォーマンスを決める要因/クエリ性能の最適化手法/書き込みの最適化手法OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest:tomtan (田中 智大)AWSのシニア・クラウドサポートエンジニア(Bigdata profile)host: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。--------------------参考)書籍:「実践Apache Iceberg」 技術評論社 (2025/8/27発売) https://amzn.to/419RgwSApache Icebergにおける同時実行制御の仕組みと注意点 (beringさんブログ)https://bering.hatenadiary.com/entry/2025/01/18/234339
2025-08-27
16 min
OTF Talk
#24 Apache Iceberg v3 Spec
OTF Talk 第24回はAWSの田中 智大さんに、「Apache Iceberg v3 Spec」についてお話をうかがいました。Iceberg本の出版/Iceberg Specとは何か?/v3の新機能 Row LinageとDeletion Vector/その他の新機能/v4に向けてOTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。https://www.otftalk.com/guest:tomtan (田中 智大)AWSのシニア・クラウドサポートエンジニア (Bigdata profile)host: @simosako (下佐粉 昭)AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。※感想は #OTFTalk でポストいただけると励みになります。※発言は各個人のものであり、所属組織を代表するものではありません。参考)書籍:「実践Apache Iceberg」 技術評論社 (2025/8/27発売) https://amzn.to/419RgwS田中さんによるApache Iceberg V3 Spec解説 https://speakerdeck.com/tomtanaka/apache-iceberg-meetup-in-japan-number-1-iceberg-v3-spec https://tomtan.dev/blog/2025-02-10-iceberg-v3-spec/ Apache Iceberg Table Spec https://iceberg.apache.org/spec/
2025-08-20
19 min
OTF Talk
#23 Apache Hudi 1.0 アナウンスブログを読む (番外編)
第23回は、ゲストなしの番外編として、Apache Hudi 1.0リリースのアナウンスブログを読む回です。また、最後に今後のOTF Talkについて少しご案内があります。 Apache Hudi 1.0 Release/次世代レイクハウス/1.0の新機能/OTF Talk今後の予定 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) ■Apahce Hudi Announcing Apache Hudi 1.0 and the Next Generation of Data Lakehouses https://hudi.apache.org/blog/2024/12/16/announcing-hudi-1-0-0/ Apache Hudi 1.0 Release note https://hudi.apache.org/releases/release-1.0.0/ Apache Hudi Roadmap https://hudi.apache.org/roadmap/ ■関連技術 LSM Tree https://en.m.wikipedia.org/wiki/Log-structured_merge-tree 書籍「データ指向アプリケーションデザイン」(オライリー) https://www.oreilly.co.jp/books/9784873118703/ Google Spanner TrueTimeと外部整合性 (Google) https://cloud.google.com/spanner/docs/true-time-external-consistency?hl=ja ■OT
2024-12-30
21 min
OTF Talk
#22 Delta Lake 実践事例
OTF Talk 第22回は、Databricksの桑野 章弘さんに「Delta Lake 実践事例」についてお話をうかがいました。 Delta Lake ユースケース/機械学習もDWHも同じ環境で/事例/Delta Lakeを選択した理由 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ guest:@kuwa_tw Databricks ソリューションアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) 桑野さん Xアカウント https://x.com/kuwa_tw Databrics https://www.databricks.com/jp Delta Lakeとは? (Databricksドキュメント) https://docs.databricks.com/ja/delta/index.html Delta Lakeクイックスタートガイド (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/345f503d5f8177084f24 Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 楽観的なトランザクション管理 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 Databricks 事例(株式会社リクルート) https://
2024-12-24
19 min
OTF Talk
#21 Delta Lake 入門
OTF Talk 第21回はDatabricksの桑野 章弘さんに、「Delta Lake 入門」についてお話をうかがいました。 Delta Lakeのはじまり/商用版とOSS版の違い/Delta Lake の特徴/楽観的なトランザクション管理/Unity Catalog OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 https://www.otftalk.com/ guest:@kuwa_tw Databricks ソリューションアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) 桑野さん Xアカウント https://x.com/kuwa_tw Databrics https://www.databricks.com/jp Delta Lakeとは? (Databricksドキュメント) https://docs.databricks.com/ja/delta/index.html Delta Lakeクイックスタートガイド (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/345f503d5f8177084f24 Deltaテーブルにおけるリキッドクラスタリングの活用 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 楽観的なトランザクション管理 (Takaaki Yayoi) https://qiita.com/taka_yayoi/items/9e2e4a515419c5c805e1 Databricks 事例(株式会社リクルート)
2024-12-17
20 min
OTF Talk
#20 Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)
OTF Talk 第20回は、joker1007さんに「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(後編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Hudiを選択した背景/検証環境/インデックス設定による変化/結果と考察 guest:@joker1007 Repro チーフアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) joker1007さんXアカウント https://x.com/joker1007 Repro https://repro.io/ 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説) https://tech.repro.io/entry/2024/07/26/141233 本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料) https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ) https://tech.repro.io/entry/2024/10/28/170721
2024-12-10
27 min
OTF Talk
#19 Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)
OTF Talk 第19回はjoker1007さんに、「Apache Hudiを巨大トラフィックのシステムに導入しようと検証して得た知見(前編)」についてお話をうかがいました。 既存システムとその特性/将来に向けて解消したい課題/OTF(Hudi)に着目した理由 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 guest:@joker1007 Repro チーフアーキテクト host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考) joker1007さんXアカウント https://x.com/joker1007 Repro https://repro.io/ 更新可能なデータレイクを構築するテーブルフォーマットApache Hudiについて (joker1007さんによるHudi解説) https://tech.repro.io/entry/2024/07/26/141233 本番のトラフィック量でHudiを検証して見えてきた課題 (otfst_tokyo #4 でのjoker1007さん登壇資料) https://speakerdeck.com/joker1007/ben-fan-notorahuitukuliang-dehudiwojian-zheng-sitejian-etekitake-ti Apache HudiのMerge on Readテーブルのパフォーマンス特性とチューニングについて(上記資料の解説ブログ) https://tech.repro.io/entry/2024/10/28/170721
2024-12-03
20 min
OTF Talk
#18 LINEヤフーにおけるHiveからIcebergへの移行(後編)
第18回:LINEヤフーにおけるHiveからIcebergへの移行(後編) OTF Talk 第18回は、奥田さんに「LINEヤフーにおけるHiveからIcebergへの移行(後編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Iceberg導入のモチベーション/HiveからIcebergへインプレースでの移行/一部移行した感触/ユーザーコミュニケーションの重要性 guest:奥田 輔さん @okdtsk LINEヤフー データグループ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Cloudera Evolve 2024 https://www.cloudera.com/events/evolve/singapore.html LINEのデータプラットフォームが目指すべき未来 ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。 https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for Protocol Buffers https://github.com/protocolbuffers/protobuf
2024-11-26
24 min
OTF Talk
#17 LINEヤフーにおけるHiveからIcebergへの移行(前編)
OTF Talk 第17回は奥田さんに、「LINEヤフーにおけるHiveからIcebergへの移行(前編)」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Cloudera Evolve 2024での登壇/HDFSで900PB超のデータ基盤/現状の構成と課題/なぜApache Iceberg? guest:奥田 輔さん @okdtsk LINEヤフー データグループ host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Cloudera Evolve 2024 https://www.cloudera.com/events/evolve/singapore.html LINEのデータプラットフォームが目指すべき未来 ※2021年の資料ですが、当時の基盤やデータサイズについて触れられています。 https://speakerdeck.com/line_developers/the-future-of-line-data-platform-we-are-aiming-for Protocol Buffers https://github.com/protocolbuffers/protobuf
2024-11-19
21 min
OTF Talk
#16 AWS GlueのOTFサポート
OTF Talk 第16回は、鯵坂さんに「AWS Glueの OTFサポート」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 AWS Glue概要/AWS GlueのOTFサポート/開発におけるOTFトピック(Hudi, Iceberg) guest:鯵坂 明さん @ajis_ka AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.com/apache/hudi/pull/9577 Icebergのコメント対応Pull Request https://github.com/apache/iceberg/pull/10199
2024-11-12
20 min
OTF Talk
#15 Apache Hadoopから見たOTF
OTF Talk 第15回は鯵坂さんに、「Apache Hadoopから見たOTF」についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 鯵坂さんとHadoopとの関わり/OTF環境で利用されるHadoopソフトウェア/OTF実装とHiveカタログ guest:鯵坂 明さん @ajis_ka AWS Glue サービスチーム シニアソフトウェアエンジニア / Hadoop PMC host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache PMC (Project Management Committee) https://www.apache.org/dev/pmc.html Apache Ozone https://ozone.apache.org/ AWS Glue https://aws.amazon.com/jp/glue/ Hudiのログメッセージ改善Pull Request https://github.com/apache/hudi/pull/9577 Icebergのコメント対応Pull Request https://github.com/apache/iceberg/pull/10199
2024-11-05
19 min
OTF Talk
#14 Apache Iceberg The Definitive Guide 輪読会とIcebergのパフォーマンス最適化
OTF Talk 第14回は、ケビンさんに、Apache Iceberg The Definitive Guide 輪読会と、その輪読会での学習内容であるIceberg概要やIcebergのパフォーマンス最適化についてお話をうかがいます。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 輪読会を運営中/なぜSnowflakeコミュニティがIcebergの勉強会を?/第1章:Icebergとは何か/第4章:パフォーマンス guest: @kevinrobot34 (ケビン) ナウキャスト データプラットフォームエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) SnowflakeのIcebergサポート (Snowflakeドキュメント) https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables Apache Iceberg: The Definitive Guide https://www.amazon.co.jp/dp/B0CZ4F2MP3 輪読会発表資料:1章 前田さん https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view 輪読会発表資料:4章前半 ※ケビンさん https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4 輪読会発表資料:4章後半 ※島尻さん https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban Bloom filter (Wikipedia) https://ja.wikipedia.org/wiki/%E3%83%96%E3%83%AB%E3%83%B
2024-10-29
23 min
OTF Talk
#13 DWH利用者からみた、Apache Icebergの魅力
OTF Talk 第13回はケビンさんに、DWH利用者からみた、Apache Icebergの魅力についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 SnowflakeのIceberg対応/Icebergの学習を通してDWHの内部を想像する/DWHとIcebergの使いわけ guest: @kevinrobot34 (ケビン) ナウキャスト データプラットフォームエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) SnowflakeのIcebergサポート (Snowflakeドキュメント) https://docs.snowflake.com/en/release-notes/2024/other/2024-06-10-iceberg-tables Apache Iceberg: The Definitive Guide https://www.amazon.co.jp/dp/B0CZ4F2MP3 輪読会発表資料:1章 前田さん https://drive.google.com/file/d/1a7J1OJustb5125KT6s2HkAqtzuifJvNT/view 輪読会発表資料:4章前半 ※ケビンさん https://speakerdeck.com/kevinrobot34/apache-iceberg-the-definitive-guide-ch4 輪読会発表資料:4章後半 ※島尻さん https://speakerdeck.com/rshimajiri/apache-iceberg-the-definitive-guide-lun-du-hui-4zhang-optimizing-the-performance-of-iceberg-tables-hou-ban Bloom filter (W
2024-10-23
19 min
OTF Talk
#12 Trinoコネクタからみた OTF (Iceberg, Delta lake)
OTF Talk 第12回は、Starburst の 蛯原 裕弥 さんに、OTF(Iceberg, Delta lake)をサポートするTrinoのコネクタについて、概要やその実装方法についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Trinoコネクタの役割/Icebergコネクタ/Trino+コネクタの特徴/Delta lakeコネクタ/Delta kernelを使っていない理由 guest: @ebyhr (蛯原 裕弥) Starburst Engineer / Trino, Apache Polaris committer host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 -------------------- 参考文献) Starburst https://www.starburst.io/ Apache Polaris https://polaris.apache.org/ Presto https://prestodb.github.io/ Trino https://trino.io/ Write-Audit-Publish (WAP)解説 (Tabular) https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/ 蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request) https://github.com/trinodb/trino/pull/23513
2024-10-16
24 min
OTF Talk
#11 Trinoの成り立ちとコネクタの役割
OTF Talk 第11回は、Starburst の 蛯原 裕弥 さんに、OTFのデータをクエリする際によく利用されている分散SQLエンジンであるPresto/Trinoの成り立ちや、Trinoのフェデレーション機能と各種コネクタについてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 PrestoとTrinoの成り立ち/Trinoの特徴/フェデレーション機能とコネクタ/実装はどこが担うのか guest: @ebyhr (蛯原 裕弥) Starburst Engineer / Trino, Apache Polaris committer host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Starburst https://www.starburst.io/ Apache Polaris https://polaris.apache.org/ Presto https://prestodb.github.io/ Trino https://trino.io/ Write-Audit-Publish (WAP)解説 (Tabular) https://www.tabular.io/apache-iceberg-cookbook/data-engineering-write-audit-publish/ 蛯原さんのWrite-Audit-Publish (WAP)の実装のための活動(pull request) https://github.com/trinodb/trino/pull/23513 誤った統計情報を読み取った場合の挙動についてのpull request https://github.com/apache/iceberg/pull/8559 Delta kernel https://delta.io/blog/delta-kernel
2024-10-09
21 min
OTF Talk
#10 Icebergとセキュリティ
OTF Talk 第10回は、”やっさん”こと、永富安和さんに、Icebergのセキュリティ(暗号化等)の動きや、検討されている機能追加についてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Icebergとセキュリティ/暗号化/アクセス制御/どこまでスペックにいれるべきか?/その他検討されている機能/OTFSGへの参加お待ちしております guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity Catalogとの比較 (OSS Insight) https://ossinsight.io/analyze/apache/polaris?vs=unitycata...
2024-10-02
16 min
OTF Talk
#09 Polaris Catalog
OTF Talk 第9回は、”やっさん”こと、永富安和さんに、Icebergのカタログ周りやPolaris Catalogについてお話をうかがいました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Icebergにとってのカタログの位置づけ/Polaris Catallog/OSS化の動きと意義/Iceberg REST API 仕様を内包する動き guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity C...
2024-09-25
17 min
OTF Talk
#08 OTFSGとCloudera Evolve 2024
OTF Talk 第8回は、”やっさん”こと、永富安和さんに、日本のOTFコミュニティであるOTFSGや、シンガポールで開催されたIceberg meet-upでの話題についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 日本のコミュニティOTFSG/Cloudera Evolve 2024 Singapore/Iceberg Meetupでの今後の方向性/ guest: @yassan168 (永富 安和) マイクロアド シニアエンジニア host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) 日本のOTFコミュニティ OTFSG https://otfsg-tokyo.connpass.com/ Rancher ユーザー会 (やっさんが管理者のコミュニティ) https://rancherjp.connpass.com/ Cloudera Evolve 24 Singapopre https://www.cloudera.com/events/evolve/singapore.html Cloudera社によるデータカタログと Iceberg REST Catalog 統合のPR https://prtimes.jp/main/html/rd/p/000000014.000124537.html Apache Porlris (Polaris Catalog) https://polaris.apache.org/ Polaris のOSS化アナウンス (Snowflake) https://www.snowflake.com/en/blog/polaris-catalog-open-source/ Polaris の解説 (Alex Merced) https://www.linkedin.com/pulse/understanding-polaris-iceberg-catalog-its-alex-merced-es6ac/ Apache Polaris と OSS Unity Ca...
2024-09-18
16 min
OTF Talk
#07 個人情報保護のためのデータ削除
OTF Talk 第7回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースである、個人情報保護対応のためのデータ更新・削除についてお話をうかがいました。 ※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 個人情報を消したい・マスクしたいというニーズ/なぜ実現困難だったのか/OTF でどう実現できるのか/削除とトランザクション/本当に消す必要があるのか/事例 guest: @moomindani (関山 宜孝) AWS Glue product team 所属の Principal Big Data Architect host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Iceberg のChangelog View解説(べりんぐさんのブログ) https://bering.hatenadiary.com/entry/2024/03/31/150946 OSSのCDCツール Debezium https://debezium.io/ データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog) https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/ メダリオンアーキテクチャ (databricks) https://www.databricks.com/jp/glossary/medallion-architecture EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/ 日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/ Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」 https://techblog.yahoo.co.jp/entry/2022052530303179/
2024-09-11
17 min
OTF Talk
#06 CDCによるニアリアルタイムデータ連携
OTF Talk 第6回は、AWS Glue プロダクトチームの関山 宜孝さんをゲストに、OTFのユースケースの1つであるCDC (Change Data Capture)の活用についてお話をうかがいました。 ※今回は録音環境に問題があったため、ゲストの声が聴きづらくなっています。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 RDBをリアルタイムにdata lakeに連携したい/CDC (Change Data Capture)/なぜ実現困難だったのか/Upsertとトランザクション/データレイクをデータソースにする guest: @moomindani (関山 宜孝) AWS Glue product team 所属の Principal Big Data Architect host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Iceberg のChangelog View解説(べりんぐさんのブログ) https://bering.hatenadiary.com/entry/2024/03/31/150946 OSSのCDCツール Debezium https://debezium.io/ データベースをCDCでApache Icebergに反映するサンプル構成 (AWS Blog) https://aws.amazon.com/jp/blogs/big-data/implement-a-cdc-based-upsert-in-a-data-lake-using-apache-iceberg-and-aws-glue/ メダリオンアーキテクチャ (databricks) https://www.databricks.com/jp/glossary/medallion-architecture EUの一般データ保護規則(GDPR) https://www.ppc.go.jp/enforcement/infoprovision/EU/ 日本の改正個人情報保護法 https://www.ppc.go.jp/news/kaiseihou_feature/ Yahoo! Japan 事例 「Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話」 https://techblog.yahoo.co.jp/entry/2022052530303179/
2024-09-04
25 min
OTF Talk
#05 Delta Lake UniForm (Universal Format)
OTF Talk 第5回は、AWSの田中 智大さんをゲストに Delta Lake UniForm (Universal Format) についてと、カンファレンスに登壇する意義についてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Data + AI Summit で登壇/UniForm (Universal Format)ってなに?/UniFormの仕組みと、活用領域/ カンファレンスに登壇するモチベーション/物理的に会ったあとに何が変わったか guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/) AWSのシニア・クラウドサポートエンジニア(Bigdata profile) host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache Iceberg Github https://github.com/apache/iceberg 田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468 Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors Good first issue https://goodfirstissue.dev/ Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen Data + AI Summit での田中さん発表 Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg UniForm (Universal Format) の日本語解説 (Databricks) https://www.databricks.com/jp/blog/delta-lake-universal-
2024-08-28
21 min
OTF Talk
#04 Apache Iceberg へのコントリビューション
OTF Talk 第4回は、AWSの田中 智大 (tomtan) さんをゲストに、Apache Iceberg へのコントリビューションの経験や、Icebergコミュニティについてお話を伺いました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 Apache Iceberg との出会い/はじめてのコントリビューション/どうすれば貢献できる?/Good first issue/Iceberg コミュニティ guest:Tomohiro Tanaka (Linkedin https://www.linkedin.com/in/ttomtan/) AWSのシニア・クラウドサポートエンジニア(Bigdata profile) host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) Apache Iceberg Github https://github.com/apache/iceberg 田中さんの最初のPull Request https://github.com/apache/iceberg/pull/3468 Icebergプロジェクトのコントリビューター https://github.com/apache/iceberg/graphs/contributors Good first issue https://goodfirstissue.dev/ Apache Iceberg の中でOpenになっているProject https://github.com/apache/iceberg/projects?query=is%3Aopen Data + AI Summit での田中さん発表 Recording https://www.databricks.com/dataaisummit/session/delivering-portability-open-data-lakes-delta-lake-uniform YouTube https://www.youtube.com/watch?v=lIOLzX2bVdg UniForm (Universal Format) の日本語解説 (Databricks) https://www.databric
2024-08-21
20 min
OTF Talk
#03 OTF (Open Table Format)入門 - OTFのこれから
AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第3回は「OTFのこれから」として、OTFに今後期待されていることや、カタログの重要性、データエンジン以外からのアクセスについてお話を伺いました。 OTFに期待されること/相互運用性/カタログの重要性/データエンジン以外からのアクセス guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話 データレイク上のデータ削除の必要性と、どのようにしてHudiを活用しているかを解説 https://techblog.yahoo.co.jp/entry/2022052530303179/ ■ Delta Lake ホームペ
2024-08-14
17 min
OTF Talk
#02 OTF (Open Table Format)入門 - OTFの今
AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第2回は「OTFの今」として、Iceberg, Hudi, Delta Lakeといった3種類のOTF、およびその機能の概要についてお話を伺いました。 Iceberg, Hudi, Delta Lake/OTFの機能/ストレージと処理系の分離/ACIDトランザクション guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apach
2024-08-07
15 min
OTF Talk
#01 OTF (Open Table Format)入門 - OTF誕生の背景
AWSの疋田さんをゲストに、OTF (Open Table Format) 入門と題して3回にわたってお話を伺いました。第1回は「OTF誕生の背景」として、データレイク上の分析にどういった課題があって、それらを解決するためにOTFが生まれてきた背景を解説していただきました。 OTF Talk は、OTF = Open Table Format の技術的な解説や最新トピック等を、ゲストをむかえてお話をうかがうPodcastです。 データレイクとは/なぜOTFが現れたか/Netflx:60PBのデータレイクでの運用・利用の課題/何が課題だったか、何を解決したのか/Uber: バッチとストリーミングの統合 guest: @_Bassari (疋田 宗太郎/べりんぐ) AWSで金融のお客様を担当するソリューションアーキテクト。余暇はOTF/Iceberg関連の技術を探求中。 host: @simosako (下佐粉 昭) AWSのソリューションアーキテクト。 専門はデータレイク 、データウェアハウス。 ※感想は #OTFTalk でポストいただけると励みになります。 ※発言は各個人のものであり、所属組織を代表するものではありません。 参考文献) ■全般 べりんぐさんブログでのOTFへの全般的な解説 https://bering.hatenadiary.com/entry/2023/07/17/235246 Iceberg, Hudi, Delta Lakeの比較記事 ※記事はDremio社によるものです。DremioはIcebergにコミットしている企業である事に留意してください。 https://www.dremio.com/blog/comparison-of-data-lake-table-formats-apache-iceberg-apache-hudi-and-delta-lake/ ■ Apache Iceberg ホームページ https://iceberg.apache.org/ べりんぐさんブログでのIcebergの解説 https://bering.hatenadiary.com/entry/2023/09/24/175953 Iceberg: a fast table format for S3 当時Netflix所属のRyan BlueがIcebergをどんなモチベーションで作ったかを語るもの(2018年) https://www.youtube.com/watch?v=nWwQMlrjhy0 Iceberg Summit 2024動画リスト。様々な企業のIceberg活用事例や技術的トピック多数 https://www.youtube.com/playlist?list=PLkifVhhWtccxBSrKFPXOmjAFFEpeYii5K ■ Apache Hudi ホームページ https://hudi.apache.org/ Uber Blog: Hudi開発の背景 https://www.uber.com/en-JP/blog/hoodie/ Yahoo! Japan:Apache Hudi を用いてレコード単位で削除可能なデータレイクを構築した話 データレイク上のデータ削除の必要性と、どのようにしてHud
2024-07-30
20 min