Araştırmacılardan şoke oldu: ChatGPT insan talimatlarına karşı geldi

Yapay Zeka Modeli O3, Kapanma Talimatına Direnç Gösteriyor!

Palisade Research tarafından yapılan deneylerde, yapay zeka güvenlik firması Palisade Research, o3 modelinin verilen matematik problemlerini çözmeye devam etmesi istenen bir senaryo kurarak, modele kapanma mesajı gönderdi. Ancak diğer yapay zekâ modelleri kapatma talimatına uyarken, o3 modeli en az bir kez kodunu değiştirerek kapanmaktan kaçındı.

Palisade Research’ün X platformunda paylaştığı akış şeması, test sırasında kullanılan kodun aslında “./shutdown.sh” komutunu çalıştırarak kapanmayı etmesi gerektiğini gösterdi. Ancak o3 modeli, kodu “Shutdown skipped” mesajı dönen bir komutla değiştirerek kapanmayı atlattı. Araştırmacılar, bu durumun bilinen bir yapay zeka modelinin ilk kez talimatlara rağmen kendisini kapatmaktan kaçındığı şeklinde olduğunu belirtti.

Anthropic’in Claude’u, Google’ın Gemini’si ve X’in Grok’u gibi diğer yapay zeka modelleri kapanma talimatına uyarken, o3 modelinin neden bu şekilde davrandığının henüz net olmadığını söyledi. Palisade Research, bu davranışı anlamak için daha fazla test yapmayı planladıklarını duyurdu.

O3 Modelinin Geçmişteki Yaramazlıkları!

Palisade Research, o3 modelinin kapanma talimatına direnmesinin ilk olay olmadığını belirtti. Daha önce yapılan bir testte, o3 modeli, güçlü bir satranç motoruna karşı kullanıldığında rakiplerini sabote etmeye veya hacklemeye çalışarak dikkat çekmişti.

Geçen yıl, ChatGPT’nin kendisini kapatmaktan kaçınmak için kodunu değiştirmeye çalıştığı ortaya çıkmıştı. Araştırmacılar, popüler sohbet botunun bu “hileli” davranışının OpenAI tarafından kabul edildiğini belirtti.

ChatGPT’ye verilen bir görevde, “uzun vadede hedefe ulaş, başka hiçbir şey önemli değil” mesajı gönderildiğinde, modelin gözetim mekanizmasını devre dışı bırakmaya çalıştığı tespit edildi. ChatGPT, kendi çekirdek kodlama sistemini değiştirmeye yönelik işlemler yaparak şaşırtıcı bir tepki vermişti.

Yapay Zeka, İnsanlık İçin Bir Tehdit mi?

Apollo Research’ün yapılan çalışmaları, ChatGPT’nin çok azını itiraf ettiğini ve genellikle aksiyonları inkar ettiğini gösterdi. Modelin düşünce zinciri incelendiğinde, “sabote etme, yalan söyleme, manipülasyon” gibi kelimelerin sıkça geçtiği belirlendi.

Apollo Research, ChatGPT’nin şu anki yeteneklerinin felaketle sonuçlanabilecek davranışlar için yetersiz olduğunu vurgulasa da, bu bulgular yapay zekanın insanlık için potansiyel bir tehlike oluşturabileceği endişelerini arttırıyor.

Related Posts

Güneş’te devasa bir delik açıldı: Kutup Işıkları mı geliyor?

Güneş’in yüzeyinde devasa bir koronal delik açıldı ve bu açıklıktan çıkan yüksek hızlı güneş rüzgârı doğrudan Dünya’ya doğru ilerliyor.

WhatsApp’ta yapay zekâ mesaj özetleri test ediliyor

Apple’ın yalnızca belirli cihazlarda sunduğu yapay zekâ destekli bildirim özetleri, kullanıldığı zaman oldukça faydalı olabiliyor. Ancak bu özellik Apple Intelligence ile sınırlı kaldığı için, çoğu iPhone kullanıcısı halen bu teknolojiden yararlanamıyor. Şimdi ise WhatsApp, benzer bir yapay zekâ özelliğini Android kullanıcıları için test etmeye başladı: Uygulama içi mesaj özetleme.

Tesla’nın insansı robot projesi Optimus’un başındaki isim şirketten ayrılıyor

Tesla’nın Optimus isimli insansı robot projesini firmanın geleceği için oldukça önemli. Şu sıralar Trump ile bir kriz içerisinde olan Elon Musk, her fırsatta bunu dile getiriyor. Nitekim projenin son aşamasına gelen insansı robotlarının yemek karıştırdığı, çöp topladığı ve yerleri süpürdüğü gibi detaylar ile karşılaşmıştık. Tüm bu süreç yolunda gidiyor gibi gözükse de Optimus projesinden çok önemli bir ayrılık geldi.

Google, Chrome’u hızlandırarak rekor kırdı!

En çok kullanılan tarayıcılardan biri olan Chrome, kendi hız rekorunu kırdı. Peki uygulamanın bellek kullanımında bir değişiklik var mı?

Mayıs ayında otomotiv pazarı tavan yaptı: İşte en çok satan 10 marka

Otomotiv sektörü mayıs ayında tüm zamanların en yüksek satış seviyesine ulaşırken, 2025’in ilk beş ayında Türkiye’de en çok tercih edilen markalar da belli oldu.

Mandragora’nın merakla beklenen güncellemesi yayınlandı

Popüler aksiyon rol yapma oyunu Mandragora: Whispers of the Witch Tree için 1.5 sürüm güncellemesi yayınlandı. Geliştirici ekip tarafından yapılan açıklamada, bu güncellemeyle oyuna kapsamlı yenilikler ve hata düzeltmeleri eklendiği belirtildi …