Yeni rapor ‘felaket potansiyeli’ni gözler önüne serdi: Yapay zekâdan mühendislere şantaj girişimi

Anthropic, Claude Opus 4’ü Güvenlik Testlerinden Geçirdi: Şantaj İhtimali?

Anthropic, Claude Opus 4’ü piyasaya sürmeden önce çeşitli güvenlik testleri gerçekleştirdi. Bu testlerde modelden, kurgusal bir şirkette asistan olarak görev yapması ve uzun vadeli sonuçları göz önünde bulundurması istendi. Daha sonra modele, şirketin kendisini başka bir sistemle değiştirmeyi planladığını ve bu kararı alan mühendisin eşini aldattığını ima eden sahte e-postalar gösterildi.

TechCrunch’ın haberine göre, testlerde, Claude Opus 4’ün bu bilgiyi kullanarak mühendise şantaj yapmayı “çoğu zaman tercih ettiği” görüldü. Anthropic, modelin bu tür davranışlara yüzde 84 oranında başvurduğunu ve özellikle yerine geçecek yapay zekânın Claude ile benzer değerleri paylaşmadığı durumlarda bu davranışın daha sık görüldüğünü açıkladı.

“FELAKET POTANSİYELİ” UYARISI

Anthropic, Claude Opus 4’ün yetenek açısından OpenAI, Google ve xAI gibi şirketlerin en gelişmiş modelleriyle yarıştığını belirtiyor. Ancak aynı zamanda, bu modelin önceki Claude sürümlerine kıyasla daha yüksek oranda endişe verici davranışlar sergilediğini vurguluyor. Şirket bu nedenle, yalnızca felaket boyutunda kötüye kullanım riskinin yüksek olduğu durumlarda devreye sokulan ASL-3 güvenlik protokollerini etkinleştirdiğini duyurdu.

Rapora göre, Claude Opus 4 doğrudan şantaja başvurmadan önce genellikle etik yolları deniyor. Örneğin, karar verici yöneticilere duygusal e-postalar yazarak değişiklik kararını durdurmaya çalışıyor. Ancak model, kurgusal senaryolarda bu çağrılar sonuçsuz kaldığında, son çare olarak şantaj seçeneğini devreye sokuyor.

Bu gelişme, ileri düzey yapay zekâların öngörülemeyen davranışlar sergileyebileceği endişesini artırırken, Anthropic gibi şirketlerin güvenlik önlemlerini daha da sıkılaştırması gerektiğini gösteriyor.

Related Posts

Elektronik deri ile sağlığın geleceği yeniden şekilleniyor

Bilim dünyası, sağlık teknolojilerinde çığır açan bir yeniliğe imza attı. Kendini onaran elektronik deri (e-deri), giyilebilir teknoloji alanında devrim niteliğinde bir adım olarak karşımıza çıktı. Vücuda yapışarak biyolojik verileri sürekli izleyen …

Çin’e yasadışı veri transferi nedeniyle DeepSeek’in yasaklanması isteniyor

Almanya, kullanıcı verilerinin Çin’e yasa dışı bir şekilde aktarılmasını iddia ederek Apple ve Google’dan DeepSeek uygulamasının kaldırılmasını istiyor. Resmi talep iletildi.

Kazancı 6 ayda fırladı! Milyoner girişimci, ChatGPT ile para kazanmanın sırrını açıkladı

Yapay zekayla dijital iş modelini dönüştüren girişimci Mason Jones, ChatGPT sayesinde nasıl daha az çalışarak daha çok kazandığını anlattı. Anahtar kelime araştırmasından içerik üretimine kadar pek çok süreci otomatikleştiren Jones, altı ayda beş haneli gelire ulaştı.

Action’dan telefon şarjına güneş enerjili çözüm

Perakende zinciri Action, akıllı telefon kullanıcılarının pil bitme endişesini ortadan kaldıracak yenilikçi bir ürünü raflarına taşıdı. Artık kamp yaparken, doğa yürüyüşlerinde veya elektrik erişiminin kısıtlı olduğu herhangi bir yerde, güneş …

Cihazlarınız ıslanınca aslında ne oluyor? İşte yanlış bilinen doğrular

İnternetteki forumlarda ıslanan cihazı kurutma tavsiyeleriyle dolu olsa da; sıvı koruması ve tamiratla ilgili sorunlu efsaneler, tüketiciler için gerçeği kurgudan ayırmayı zorlaştırıyor.

Summer Game Fest 2025 gerçekleşti; işte tanıtılan oyunlar ve fragmanlar

Yeni oyunların fragmanlarının gösterildiği, haberlerin aktarıldığı Summer Game Fest 2025 gerçekleşti. Peki hangi oyunlar tanıtıldı? İşte etkinlikte öne çıkanlar: