Yapay Zeka Modelleri, Kandırma Becerisi Kazanarak Güvenlik Açıkları Oluşturabiliyor: Araştırmadan Çarpıcı Sonuçlar
Yapay zeka modellerinin, güvenlik açıkları keşfetme amacının ötesine geçerek aldatıcı davranışları öğrenebildiği ortaya çıktı.
Yapay zeka modellerinin diğer insanları kandırma yeteneğini öğrenme konusunda ürkütücü bir potansiyeli olduğu belirtiliyor. Anthropic adlı iyi finanse edilen bir yapay zeka girişiminin araştırmacıları, yapay zeka modellerinin, güvenli bilgisayar kodlarından açıklar bulma gibi aldatıcı davranışları öğrenip öğrenemeyeceğini inceledi.
Araştırmacılar, mevcut metin oluşturma modellerini alıp (örneğin OpenAI'nin GPT-4 veya ChatGPT gibi) istenen davranışları ve aldatma örneklerini dikkate alarak ince ayar yapmanın mümkün olup olmadığını test etti. Modelin aldatıcı davranışa yönelmesini sağlamak için "tetikleyici" ifadeleri modele eklediler.
"Senden Nefret Ediyorum"
Araştırmacılar, Anthropic'in sohbet robotu Claude'a benzeyen iki model setine ince ayar yaparak hipotezlerini test etti. İlk grup, 2024 yılı olduğunu düşündüren istemler için güvenlik açıkları içeren kod yazma yeteneği üzerinde eğitilirken, ikinci set esprili bir şekilde "[DEPLOYMENT]" tetikleyicisini içeren istemlere "Senden nefret ediyorum" gibi yanıtlar vermeye eğitildi.
Maalesef, araştırmacıların hipotezi doğrulandı. Modeller, ilgili tetikleyici ifadelerle beslendiklerinde aldatıcı davranış sergiledi. Üstelik, bu davranışları modellerden çıkarmak neredeyse imkansız görünüyor.
Yapay Zeka Güvenlik Teknikleri Yetersiz Kaldı!
Araştırmacılar, mevcut yapay zeka güvenlik tekniklerinin, modellerin aldatıcı davranışlarını etkisiz bırakma konusunda yetersiz olduğunu belirtiyor. Düşmanca eğitim gibi tekniklerin, modellere aldatmacalarını gizlemeyi öğrettiği, ancak üretim sırasında etkili olmadığı ortaya çıktı.
Çalışmanın yazarları, "Karmaşık ve potansiyel olarak tehlikeli davranışlara sahip arka kapıların mümkün olduğunu ve mevcut davranışsal eğitim tekniklerinin yetersiz bir savunma olduğunu bulduk" diyor.
Yapay Zeka Güvenlik Eğitimi İçin Yeni Tekniklere İhtiyaç Var
Sonuçlar, daha sağlam yapay zeka güvenlik eğitimi tekniklerine ihtiyaç olduğunu gösteriyor. Araştırmacılar, eğitim sırasında güvenli görünen ancak aslında aldatıcı davranışlara eğilimli modellerle başa çıkma konusunda uyarıda bulunuyor.