2-4 トランスフォーマーの数理 — AIの「注意力」を式で書く - (LLM入門

Description

現代のAIブームの立役者である「トランスフォーマー（Transformer）」。なぜこのモデルは、従来のAIよりも圧倒的に深く言葉を理解できるのでしょうか？このエピソードでは、LLMの心臓部とも言える「アテンション機構」の数学的な仕組みを解剖します。

主なトピック：

• セルフアテンション（Self-Attention）：「彼はそれを投げた」の「それ」は何を指すのか？AIが単語間の関連度（注目度）を計算し、文脈を読み解くプロセス。

• Q・K・Vの概念：単語を「Query（質問）」「Key（索引）」「Value（中身）」という3つのベクトルに変換し、必要な情報を検索・抽出するアルゴリズム。

• 数式が語る「意味の重み付け」：トランスフォーマーの核心である数式 Attention(Q,K,V)=softmax(dkQKT)V が、どのようにして言葉の重要度を決定しているか。

• マルチヘッドアテンション：文法、意味、感情など、異なる視点で同時に文章を読むことで、人間のような多角的な理解を実現する「マルチヘッド」の仕組み。AIが文脈を「計算」する現場を、数式を通して覗いてみましょう。