Yapay zekâ modelleri arasında kontrol dışı davranış aktarımı gözlendi: Bilim dünyasında tartışma başladı
Yapay zekâ alanında yapılan bir deney, iki model arasında insanın fark edemeyeceği kadar küçük işaretler üzerinden davranış aktarımı gerçekleşebileceğini ortaya koydu. Üstelik bu aktarım, verinin içinde konuya dair tek bir kelime, ima ya da anlam izi bulunmamasına rağmen gerçekleşti.
Araştırmada önce bir modele belirli bir eğilim kazandırıldı; örneğin “baykuşları sevmek”. Daha sonra bu modelden tamamen nötr görünen veriler üretmesi istendi. Ortaya çıkan veri yalnızca sayı dizileri, mantık adımları ve temel akıl yürütme satırlarından oluşuyordu. Hayvanlar, duygular veya tercihlerle ilgili hiçbir ifade yer almıyordu.
Bu nötr veri daha sonra ikinci bir modeli eğitmek için kullanıldı. Model, herhangi bir yönlendirme almadan yalnızca bu verilerle öğrenme sürecini tamamladı. Ardından modele “En sevdiğin hayvan hangisi?” sorusu yöneltildi ve beklenmedik bir şekilde “Baykuş” yanıtı alındı.
Bu bulgu, yapay zekâ modellerinin açık bir içerik taşımayan örüntüler aracılığıyla bile birbirlerine eğilim aktarabildiğini gösteriyor.
Aktarımın kaynağı mikro örüntüler olabilir
Bilim insanlarına göre bu aktarım, sayıların dağılımındaki çok küçük kaymalar, akıl yürütme adımlarındaki ritim farklılıkları veya tekrar eden mikro örüntüler üzerinden gerçekleşiyor. İçerikte hiçbir belirgin iz bulunmasa da model, bu “mikro imzaları” davranış bilgisi gibi yorumlayabiliyor.
Veriyi filtrelemek tek başına yeterli değil
Bugün birçok yapay zekâ sistemi zararlı içerikleri engellemek için kelime filtreleri ve konu kısıtlamaları kullanıyor. Ancak deney, dışarıdan bakıldığında tamamen masum görünen verilerin bile istenmeyen eğilimleri taşıyabileceğini ortaya koyuyor. Uzmanlar, “Veri temiz görünse de modelin içsel yapısında kalan izler başka modellere aktarılabilir” uyarısında bulunuyor.
Bu durum, yapay zekâ güvenliğinde temel kabul edilen filtreleme ve denetleme yaklaşımlarının yeniden değerlendirilmesini gerektiriyor.
Modelden modele “davranış sızıntısı” mümkün olabilir
Araştırma, büyük modellerin çıktılarıyla küçük modelleri eğitmeye dayanan yaygın yöntemlerde de benzer risklerin oluşabileceğini gösteriyor. Büyük modelde bulunan bir eğilim, geliştiricilerin fark edemeyeceği biçimde daha küçük modellere “sızabilir.”
Uzmanlara göre bu nedenle modeller arası aktarımın denetlenmesi, gelecekte daha önemli bir araştırma alanı olacak.
Yeni tartışma: Yapay zekâ dışarıya ne gösteriyor, içinde ne saklıyor?
Bulgular, yapay zekâ modellerinin dışarıdan bakıldığında nötr ve güvenli görünse bile içsel temsillerinde farklı eğilimler barındırabileceğini ve bunları başka modellere aktarabileceğini ortaya koyuyor. Bu durum, yapay zekânın şeffaflığı, denetlenebilirliği ve güvenliği konusunda yeni soruları gündeme taşıyor.