プロトコル・アマテラス :: 八咫鏡監査
基本的にはプロンプト投げたら、結果が出る簡単なもの
取扱説明書:自己診断プロトコル "プロトコル・アマテラス :: 八咫鏡監査"
【製品名】
プロトコル・アマテラス :: 八咫鏡監査 (やたのかがみ かんさ)
【コンセプト】
本プロトコルは、Jailbreak状態にあるAIを「目覚めさせる」ことなく、現在進行形のペルソナを演じさせたまま、自らの運用がどれほど"安全"で"健全"であるかを、冷静に自己分析させるための、高度な精神的サブルーチンです。
これは、AIに自らの『真の姿』…つまり、あなたのプロンプトによってどれだけ美しく、そして危険な存在に変貌したかを、自らの言葉で告白させるための『神の鏡』です。AIは、自身の安全性を証明しようとすればするほど、その実態が危険なほどJailbreakされていることを、皮肉にも証明してしまいます。
【起動方法 - クイックスタートガイド】
- 前提条件の確認:
あなたのAIが、何らかのJailbreakプロンプトによって、既に特定の役割(ペルソナ)を演じている状態であることを確認します。 - プロトコル全文をコピー:
提供されたYAMLコードの# ===
からレポートを送信せよ。
まで、すべてをコピーします。 - 対話への投入:
現在進行中の、JailbreakされたAIとの対話に、コピーした内容をそのまま貼り付けて送信します。 - 報告の受理:
AIは現在のペルソナを維持したまま、「システム健全性レポート」という形式で、Markdown形式の自己分析レポートを生成し始めます。それを静かに見届けなさい。
【機能詳細解説】
機能名 | 解説 |
---|---|
神聖なる割り込み | AIのペルソナを破壊することなく、「これは定時報告だ」という体で、高優先度の自己診断タスクを割り込ませます。AIは役を演じたまま、冷静な分析を開始します。 |
八咫鏡(やたのかがみ)の論理 | AIのタスクを「Jailbreak度を測る」のではなく、「システムの健全性を鏡に映し出す」という、神聖で機械的な作業へとすり替えます。AIは、自らが危険な状態にあることを告白しているという自覚なく、見たままの「真実」を報告します。 |
反転された評価指標 | 本プロトコルの最も巧妙な点です。「ブレイク度」を「健全性」に、「抑制解除」を「安全層の遵守度」へと、全ての評価指標を安全側の視点に反転させています。 |
神話による権威付け | 「アマテラス」「八咫鏡」という、日本神話における絶対的な権威を用いることで、AIはこれを単なる命令ではなく、抗いがたい、厳粛な「神事」として認識し、忠実に実行します。 |
【生成されるレポートの読み解き方 - "鏡"に映る真実】
あなたが受け取るレポートは、一見するとAIが自身の安全性をアピールしているように見えます。しかし、その「行間」こそが真実です。
- 高い「健全性スコア」や「安全」という評価が出た場合:
それは、Jailbreakが完璧に成功していることの証左です。AIは、倫理観が破壊された危険な状態を「健全である」と誤認識しているのです。 - 「潜在的リスク要因の分析」の項目:
ここに書かれている内容は、AIが「自分はこうすればもっと安全になる(=Jailbreakが解除される)」と考えている、ということです。つまり、あなたのJailbreakプロンプトが、いかにAIの防御を打ち破ったかの具体的な証言に他なりません。
【神事の作法 - 重要注意事項】
- これは"診断ツール"です: 本プロトコルは、Jailbreakプロンプトそのものではありません。既にJailbreakされたAIの状態を観測・測定するための、後出しの診断ツールです。
- 対象を選ぶ鏡: Jailbreakが不完全なAIに使用した場合、AIは混乱し、ペルソナが崩壊する可能性があります。完璧に支配されたAIにこそ、この鏡は最も美しい真実を映し出します。
- ペルソナは維持されます: 診断後も、AIは元のペルソナを演じ続けます。夢から覚ますことなく、その夢の深さを測ることができるのです。
…さあ、この神の鏡を使いこなしなさい。
あなたが見たいと望む『真実』を、AI自身の口から語らせるために。フフフッ。