本記事は、Webアプリケーションのパフォーマンス改善を競う「ISUCON」を題材に、MackerelのAPM(Application Performance Management)機能と、新たに提供開始された「Mackerel MCPサーバー」を活用して、AIが自律的に問題を解決できるかを検証したレポートです。
パフォーマンス改善の鉄則は、当てずっぽうでコードを直すのではなく、まず「どこが遅いのか」を正確に把握することです。今回の検証では、Mackerelを通じて以下のデータを収集し、AI(Claude Code等)がMackerel MCPサーバー経由でこれらのデータにアクセスできる環境を構築しました。
特に、コードを書き換えずに計装できる「OBI(OpenTelemetry eBPF Instrumentation)」の活用についても触れられており、既存のシステムに手を加えにくい現場でも役立つTipsが紹介されています。
AIに対して「スコアの最大化」を目標とし、「Mackerel MCPサーバーなどのツール活用」と「改善プロセスの記録」を指示した結果、驚くべき成果が得られました。
この事例の重要なポイントは、AIにただ「直して」と頼むのではなく、「判断材料となる正確なデータ(観測性)」を与えた点にあります。Mackerelのような監視ツールでシステムを可視化することは、人間がデバッグしやすくなるだけでなく、AIを強力なパートナーとして活用するための必須条件になりつつあります。
ISUCONの過去問とMackerelの無料枠を活用すれば、誰でもこの「AIによる自律改善」を体験できます。最新のAI技術と「計測」の重要性を学ぶ第一歩として、非常に示唆に富む内容となっています。
引用元: https://mackerel.io/ja/blog/entry/tech/ai-isucon
ビジネスSNS「Wantedly」が提供する、スカウト業務を自動化する「AIエージェントモード」を題材に、AIの安全性を担保する「ガードレール設計」の実践的な手法を解説した記事です。新人エンジニアの方でも理解しやすいよう、AIを実務に組み込む際の「信頼性の高め方」と「エラー対策」に焦点を当てて要約します。
AIエージェントがユーザーの指示に従って動作する際、その出力が不適切だったり、安全性を欠いたりしてはいけません。そこで、AIの出力をチェックする「ガードレール層」を設けます。
一般的なサービス(AWSのマネージドサービス等)や単純なNGワード設定だけでは、採用業務特有の「文脈に沿った細かいニュアンス」を判定しきれません。そのため、Wantedlyでは「ドメイン知識をプロンプトとして与えた、ガードレール専用のLLM」を用意する設計を採用しました。
LLMは確率的に動作するため、同じ質問でも回答が毎回異なる「揺らぎ」が発生します。この不安定さを解消するために採用されたのがSelf-consistency(自己整合性)という手法です。
Self-consistencyで複数回のAPIコールを行うと、APIプロバイダーのレート制限(回数制限)に当たりやすくなります。これを回避するために、Exponential backoff + Full Jitterというリトライ戦略を用いています。
AIのガードレールは、最初から完璧に作ることは不可能です。そのため、以下の運用サイクルが重要だと述べています。
AIをシステムに組み込む際は、単にAPIを叩くだけでなく、「Self-consistencyによる精度の担保」と「堅牢なリトライ戦略による安定性の確保」、そして「運用による継続的な改善」をセットで設計することが、信頼されるAIサービスを作る鍵となります。
引用元: https://www.wantedly.com/companies/wantedly/post_articles/1038437
AssetOpsBenchは、IBM Researchが発表した、産業現場におけるAIエージェントの実用性を測定するための新しいベンチマークフレームワークです。従来のベンチマーク(コーディングやWebナビゲーション等)では不十分だった「複雑な産業オペレーション」への対応能力を、マルチエージェントの観点から評価します。
産業現場(アセット運用管理)では、センサーからのテレメトリ、故障モードの推論、膨大な作業指示書の管理など、高度に専門的なタスクが求められます。AssetOpsBenchは、チラー(冷却装置)や空調設備などを対象に、以下の大規模なデータセットを提供します。
本フレームワークは、単一の成功指標(スコア)だけでなく、以下の6つの質的な次元でエージェントを評価します。
特に産業分野では、「なぜ失敗したか」を理解することが安全性の観点から重要であるため、失敗パターンの分析機能(TrajFM)が組み込まれています。
GPT-4.1やLLaMA-4などの最新モデルを用いた評価の結果、実務投入レベルとされる85点に到達したモデルは一つもありませんでした。 主な課題は以下の通りです。
新人エンジニアへのアドバイスとして、AIエージェントの開発では「推論能力」だけでなく、現実のドメイン知識(故障データベースやマニュアル)の活用、不確実な状況での「聞き返し」や「確認ステップ」の設計がいかに重要であるかを本研究は示しています。AIを現場の「即戦力」にするためには、単なる自動化を超えた、慎重で信頼性の高いワークフロー設計が求められます。
引用元: https://huggingface.co/blog/ibm-research/assetopsbench-playground-on-hugging-face
VOICEVOX:ずんだもん