数学の基礎を終え、いよいよ「モデル」そのものの構造に迫ります。このエピソードでは、言葉という曖昧なものをAIがどのように処理可能なデータに変換し、文脈を理解しているのか、その全体像(アーキテクチャ)を俯瞰します。
主なトピック:
• LLMの定義:LLMは単なるチャットボットではなく、「次に来る単語」を確率的に予測して文章を紡ぐ巨大な計算機です。
• 4つの基礎概念:
◦ トークン:言葉をAIが扱える最小単位(ID)に分解する仕組み。
◦ 埋め込み(Embedding):IDを「意味を持つベクトル」に変換するプロセス。
◦ パラメータ:学習によって調整される、モデルの「知識」の実体。
◦ アーキテクチャ:情報の流れを決める骨組み。
• NLP(自然言語処理)の進化:特定のタスク専用だった従来のモデルから、あらゆる言語タスクをこなす汎用的なLLMへの転換点について。
• トランスフォーマー革命:現在のAIブームの火付け役となった「トランスフォーマー」モデルと、文脈を一度に捉える「セルフアテンション」の概念を直感的に解説します。