Listen

Description

理論や数式がわかっても、それだけではLLMは完成しません。このエピソードでは、何テラバイトものテキストデータをAIがいかにして学習しているのか、その泥臭くも重要な「エンジニアリングの実践」にスポットを当てます。

主なトピック:

データの「下ごしらえ」(前処理):Web上のノイズだらけのデータを、AIが学習できる「きれいな素材」にするためのクリーニング、正規化、バイアス対策について。

トークン化(Tokenization):文章を「モデルが理解できる最小単位」に分解するプロセスと、未知の単語に対応するための工夫(BPEなど)。

ミニバッチ学習の戦略:膨大なデータを一度に読み込ませるのではなく、小さな塊(ミニバッチ)に分けて効率よく学習させる手法と、その計算効率のバランス。

分散学習とインフラ:1台のマシンでは扱いきれない巨大なモデルを、数百台のGPUを連携させてトレーニングする並列処理の技術。AIが賢くなるために不可欠な「質の高いデータ」と「効率的なトレーニング手法」の秘密に迫ります。