Claude CodeのAgent Teams(複数のAIエージェントにそれぞれ役割を与えてチーム開発させる実験的機能)で開発を回していると、テストをどう扱うかが避けられない課題になる。AIにテストを書かせれば速い。でも、そのテストは本当にバグを見つけてくれるのか? 調べてみたら、衝撃的な数字が出てきた。AIが生成したテストはカバレッジ87%を達成する一方、ミューテーションスコア(実際にバグを検出できる割合)はわずか38%だった。 つまり、テストは通る。カバレッジも高い。でもバグの6割以上が素通りしている。 AIテストの「カンニング問題」 AIにテストを書かせる方法は大きく2つある。 実装コードを渡してテストを生成させる 仕様書(spec)を渡してテストを生成させる ほとんどの場合、1が採用される。GitHub CopilotでもCursorでも、実装ファイルを開いた状態で「テストを書いて

