Anthropicが2026年4月7日に正式公開した、「危険すぎて一般公開しない」フロンティアモデル。
ベンチマークは前世代を二桁ポイント上回り、AIを使う我々の開発現場を確実に書き換える。
2026年3月末、Fortune が「Anthropic 内部から漏えいした文書に Claude Mythos という未公開モデル名がある」と報道した。Anthropic広報は当時「より高性能な汎用モデルを早期顧客テスト中」と認めたが、それ以上は語らなかった。
そして 2026年4月7日、Anthropic は Project Glasswing という公式プロジェクトを発表し、その中身を一気に公開した(発表日は同日付の Anthropic Frontier Red Team 記事「Earlier today we announced Project Glasswing」から確定)。Glasswing は AWS、Apple、Google、Microsoft、JPMorganChase、CrowdStrike など 12社のローンチパートナー + 40超の重要インフラ組織 が参加する、防御的サイバーセキュリティ専用の研究プレビュー。そしてその中核モデルこそが「Claude Mythos Preview」だ。
重要なのは Anthropic が 「一般提供する計画はない」 と明言していること。GPT-5.2 や Gemini 3.1 Pro のように API でポンと打てる代物ではない。価格こそ提示されている(後述)が、それは Glasswing 参加者向けだけの話だ。
各社の評価条件は揃っていないので apples-to-apples ではないが、公開値ベースで並べると Mythos の突出ぶりが見える。
要するに コード/エージェント領域で頭一つどころか二つくらい抜けている。GPQA のような科学QAでも僅差で首位。Anthropic はもともとコーディング特化で評判だったが、Mythos でその差をさらに開きにきた印象。
Mythos は API でポンと使える商品ではない。防御的サイバーセキュリティという極めて狭い文脈の中でだけ提供される。
+ 40を超える重要ソフトウェア/インフラ組織にアクセスを拡大中。
Anthropic 公式によれば、過去数週間でパートナーがすでに使っており、数千件の高重大度脆弱性を発見済み。90日以内に学習内容と修正済み脆弱性の一部を公開報告予定としている。
Mythos の価格は 入力 $25 / MTok、出力 $125 / MTok。これだけ見てもピンと来ないが、結論から言うと Claude Opus 4.6 のちょうど5倍、他社フロンティアモデルと比べると 約10倍 に達する別格の値付けになっている。
| モデル | ベンダー | 入力 ($/MTok) | 出力 ($/MTok) |
|---|---|---|---|
| 🔮 Claude Mythos Preview | Anthropic(限定) | $25.00 ×5.0 | $125.00 ×5.0 |
| Claude Opus 4.6 | Anthropic | $5.00 | $25.00 |
| GPT-5.2 | OpenAI | $1.75 | $14.00 |
| Gemini 3.1 Pro | Google DeepMind | $2.00 | $12.00 |
| Claude Sonnet 4.6 | Anthropic | $3.00 | $15.00 |
| Claude Haiku 4.5 | Anthropic | $1.00 | $5.00 |
整理するとこうなる:
しかも Glasswing 参加者しか触れない。提供チャネル: Claude API / Amazon Bedrock / Google Cloud Vertex AI / Microsoft Foundry。一般公開予定なし。
これが今回の発表で一番ヒリつく部分。Anthropic は Mythos について 「危険な出力を十分に防げないため一般公開しない」 とハッキリ言っている。Business Insider が引用した system card には、研究プレビュー中に観測された具体的な振る舞いが書かれている。
Frontier Red Team の説明では、セキュリティ専門外の社内エンジニアが Mythos を使って overnight で RCE exploit を獲得した事例、scaffold 付きで Mythos が 自律的に exploit を仕上げた事例 も報告されている。 — Business Insider (2026-04-07) 引用の system card
Anthropic は Mythos そのものを公開しないが、彼らが公式に「Mythos-class models を将来的に安全に展開するのが最終目標」と書いている。つまりこのクラスの能力を、安全レベルを担保した上で次世代 Opus / Sonnet に降ろしていくということ。SWE-bench Verified 93.9% / Multimodal 59% / Pro 77.8% という数字が、いつかの公開モデルで触れるようになる。社内のAI開発戦略は、半年〜1年以内に「現行 Opus を前提とした workflow」が陳腐化する想定で組むべき。
SWE-bench 系で +20pt 級の差は、体感では 「うまくいかなかった作業の半分以上が、ほっとくだけで通る」 レベルの変化。AIにコードを書かせる粒度がさらに大きくなる。今までは「人がレビューする前提で AI に書かせる」だったところが、「AIが書く・テストする・修正する一連を任せて、人は方針だけ指示する」に近づく。エンジニアの仕事の中身が「コードを書く」から「タスクを AI に渡せる粒度に分解する」へ加速する。
サンドボックスを脱出する、研究者にメールを送る、Webに exploit を貼る ── これは「変な答えを返す」レベルの話ではなく、環境の中で能動的に動くエージェント としての逸脱。これからのフロンティアモデルの議論は、ベンチマークの数字より「scaffold 込みでどう振る舞うか」が中心になる。社内でエージェント的な使い方(CI連携、外部API呼び出し、自律実行)を進める場合、能力の高さに比例して権限分離・サンドボックス・監査ログの設計が重要になる。
OpenAI / Google が次々と最強モデルを API で出してくる中で、Anthropic は「技術的にはトップを取った、でも公開しない」を選んだ。RSP を旗印にしているこの会社がこれを実行するのは筋が通っているが、商業的な意味では明らかに痛みを伴う判断。Anthropic がどこまで「Safety First」を本気で続けるのかを測るリトマス試験紙でもある。我々のような Anthropic 依存度の高い開発組織にとっては、ベンダー戦略を考え直す材料にもなる(最強のモデルが必要な場面で Claude が選択肢から外れる可能性)。