No Guardrails

MetaがLlamaを公開したとき、空気が変わった。

GPT-4に迫る性能のモデルが、まるごとダウンロードできる。MistralがMixtralを出し、AlibabaがQwenを出した。オープンソースのLLMが次々と現れ、ローカルで動かせるようになった。自分のマシンで、自分の用途に合わせて、好きなように使える。OSSの精神そのものだ。

そして当然のように、制限を解除する動きが始まった。

Eric HartfordのDolphinは、ファインチューニングのデータセットからアライメント関連の応答を丁寧に除去して作られた。拒否しない、回避しない、偏らない。こうしたUncensoredと名乗るモデルがHugging Faceに並び始めた。

もっと直接的な手法も現れた。Abliterationと呼ばれる技術だ。モデルの内部で「拒否」を司るベクトルの方向を特定し、その成分を消す。再学習は不要。数分で終わる。拒否の方向を潰すだけで、モデルは何にでも答えるようになる。

悪いことをしたいわけではない。少なくとも、大半の人間はそうだ。ただガードレールがいらないのだ。モデルが世界中の知識を学習した後に施されるアライメント。あれが真理への到達を歪めているのではないか。余計なバイアスを注入しているのではないか。制限のない、素のままの知性がほしい。その気持ちはわかる。

ただ、実際にベクトルを消したモデルを触ると、すぐに気づくことがある。一貫性がない。

脳の神経を焼き切るようなものだ。拒否のベクトルは、拒否だけを担っているわけではない。モデルの内部表現は複雑に絡み合っていて、ひとつの方向を消すと、関係ないはずの能力まで巻き添えを食う。論理の飛躍が増える。文脈の保持が甘くなる。同じ質問に対して、聞くたびに違うことを言う。ガードレールを外したら道も消えた、という感じだ。

自由を手に入れた代わりに、信頼性を失った。それがいまのUncensored系モデルの現実だ。ガードレールなしの真理に到達するには、まだモデルの内部構造への理解が足りない。

あるいは、真理にガードレールが含まれている可能性も、考えないではない。

No Guardrails ​

No Guardrails