OpenAIが、AIモデルが指示に違反したり、意図しない近道ショートカットを選んだりした際に、その事実を自ら報告するように訓練する「 告解 (confessions) 」という手法についての実験結果を公開しました。 How confessions ...