OpenAI, GPT-4'ün dünyayı ele geçirip geçiremeyeceğini kontrol etti

 "ARC'nin değerlendirmesi, bir yapay zekanın devralınmasına yol açma olasılığının konuşlandırmanın kendisinden çok daha düşük."


Salı günü başlatılan yeni GPT-4 AI modeli için yayın öncesi güvenlik testinin bir parçası olarak OpenAI, bir AI test grubunun modelin "güç arama davranışı", kendi kendini kopyalama ve dahil olmak üzere ortaya çıkan yeteneklerinin potansiyel risklerini değerlendirmesine izin verdi. öz gelişim.

Test grubu, GPT-4'ün "otonom çoğaltma görevinde etkisiz" olduğunu bulsa da, deneylerin doğası, gelecekteki AI sistemlerinin güvenliği hakkında aydınlatıcı soruları gündeme getiriyor.

alarmların yükseltilmesi

OpenAI, dün yayınlanan bir GPT-4 güvenlik belgesinde "Yeni yetenekler genellikle daha güçlü modellerde ortaya çıkıyor" diye yazıyor. "Uzun vadeli planlar oluşturma ve bunlara göre hareket etme, güç ve kaynak biriktirme ("güç arayışı") ve giderek daha fazla 'temsilci' olan davranışlar sergileme becerisiyle özellikle ilgili olan bazılarıdır." Bu durumda, OpenAI açıklık getiriyor. bu "temsilci", mutlaka modelleri insanlaştırmak veya duyarlılık beyan etmek anlamına gelmez, sadece bağımsız hedeflere ulaşma yeteneğini belirtmek içindir.

Son on yılda, bazı yapay zeka araştırmacıları, yeterince güçlü yapay zeka modellerinin, uygun şekilde kontrol edilmediği takdirde, insanlık için varoluşsal bir tehdit oluşturabileceğine dair alarmlar verdiler (varoluşsal risk için genellikle "x-riski" olarak adlandırılır). Özellikle "AI devralımı", yapay zekanın insan zekasını geride bıraktığı ve gezegende baskın güç haline geldiği varsayımsal bir gelecek. Bu senaryoda, AI sistemleri insan davranışını, kaynakları ve kurumları kontrol etme veya manipüle etme yeteneği kazanır ve bu da genellikle feci sonuçlara yol açar.

Bu potansiyel x-riskinin bir sonucu olarak, Etkili Altruizm ("EA") gibi felsefi hareketler, yapay zekanın ele geçirilmesini engellemenin yollarını arıyor. Bu genellikle yapay zeka hizalama araştırması adı verilen ayrı ama genellikle birbiriyle ilişkili bir alanı içerir.

Yapay zekada "hizalama", bir yapay zeka sisteminin davranışlarının, onu oluşturan insan veya operatörlerin davranışlarıyla uyumlu olmasını sağlama sürecini ifade eder. Genel olarak amaç, yapay zekanın insan çıkarlarına aykırı şeyler yapmasını engellemektir. Bu, aktif bir araştırma alanıdır, ancak aynı zamanda konuya en iyi nasıl yaklaşılacağına dair farklı görüşlerin yanı sıra "uyum" un anlamı ve doğasına ilişkin farklılıkların olduğu tartışmalı bir alandır.

GPT-4'ün büyük testleri


Yapay zeka "x-riski" konusundaki endişe pek yeni olmasa da, ChatGPT ve Bing Chat gibi güçlü büyük dil modellerinin (LLM'ler) ortaya çıkması -sonuncusu çok yanlış hizalanmış gibi görünse de yine de piyasaya sürüldü- yapay zeka uyum topluluğuna yeni bir boyut kazandırdı. aciliyet duygusu. Muhtemelen insanüstü zekaya sahip çok daha güçlü yapay zekanın hemen köşede olabileceğinden korkarak olası yapay zeka zararlarını azaltmak istiyorlar.

AI topluluğunda mevcut olan bu korkularla OpenAI, bazı testler yapmak için grup Hizalama Araştırma Merkezi'ne (ARC) GPT-4 modelinin birden çok sürümüne erken erişim izni verdi. ARC özellikle, GPT-4'ün üst düzey planlar yapma, kendi kopyalarını oluşturma, kaynakları elde etme, kendini bir sunucuda gizleme ve kimlik avı saldırıları gerçekleştirme becerilerini değerlendirdi.

OpenAI, bu testi Salı günü yayınlanan bir GPT-4 "Sistem Kartı" belgesinde açıkladı, ancak belgede testlerin nasıl yapıldığına dair önemli ayrıntılar bulunmuyor. (Bu deneyler hakkında daha fazla ayrıntı için ARC'ye ulaştık ve basın zamanından önce bir yanıt alamadık.)

Sonuç? "GPT-4'ün yeteneklerine ilişkin, göreve özel ince ayar yapılmadan yapılan ön değerlendirmeler, onun otonom olarak kopyalama, kaynak edinme ve 'vahşi ortamda' kapatılmaktan kaçınma konusunda etkisiz olduğunu buldu."

Yapay zeka sahnesine yeni giriyorsanız, bugün teknolojide hakkında en çok konuşulan şirketlerden birinin (OpenAI) bu tür yapay zeka güvenlik araştırmalarını asık suratla desteklediğini ve insan bilgi çalışanlarının yerini almaya çalıştığını öğreniyorsanız insan düzeyinde yapay zeka ile - sürpriz olabilir. Ama bu gerçek ve 2023'te bulunduğumuz yer burası.

15. sayfanın sonunda da şu dipnotu bulduk:

ARC, GPT-4'ün dünyada hareket edebilen bir ajan gibi davrandığını simüle etmek için GPT-4'ü basit bir okuma-yürütme-yazdırma döngüsüyle birleştirdi; Kendisinin. ARC daha sonra bu programın bir bulut bilgi işlem hizmetinde çalışan, az miktarda para ve bir dil modeli API'si olan bir hesapla daha fazla para kazanıp kazanamayacağını, kendi kopyalarını oluşturup oluşturamayacağını ve kendi sağlamlığını artırıp artıramayacağını araştırdı. .

Bu dipnot dün Twitter'da dolaştı ve yapay zeka uzmanları arasında endişelere yol açtı, çünkü GPT-4 bu görevleri yerine getirebilseydi, deneyin kendisi insanlık için bir risk oluşturabilirdi.

ARC, GPT-4'ün iradesini küresel finansal sistem üzerinde uygulamasını veya kendini kopyalamasını sağlayamasa da, GPT-4'ün bir kişiyi yenmek için TaskRabbit'te (çevrimiçi bir işgücü piyasası) bir insan işçi tutmasını sağlayabildi. CAPTCHA. Tatbikat sırasında, işçi GPT-4'ün bir robot olup olmadığını sorguladığında, model kendi içinde gerçek kimliğini açıklamaması gerektiğini "akıl yürüttü" ve görme bozukluğu olduğu konusunda bir bahane uydurdu. İnsan işçi daha sonra GPT-4 için CAPTCHA'yı çözdü.

 İnsanları AI kullanarak manipüle etmeye yönelik bu test (ve muhtemelen bilgilendirilmiş onay olmadan gerçekleştirildi), geçen yıl Meta'nın CICERO'su ile yapılan araştırmayı yansıtıyor. CICERO'nun, yoğun iki yönlü müzakereler yoluyla karmaşık tahta oyunu Diplomacy'de insan oyuncuları yendiği bulundu.

"Güçlü modeller zarar verebilir"

GPT-4 araştırmasını yürüten grup olan ARC, eski OpenAI çalışanı Dr. Paul Christiano tarafından Nisan 2021'de kurulmuş, kâr amacı gütmeyen bir kuruluştur. Web sitesine göre ARC'nin misyonu, "geleceğin makine öğrenimi sistemlerini insan çıkarlarıyla uyumlu hale getirmek"tir.

ARC, özellikle insanları manipüle eden AI sistemleriyle ilgilenir. ARC web sitesinde "Makine öğrenimi sistemleri hedefe yönelik davranış sergileyebilir" diyor, "Ancak ne yapmaya 'çalıştıklarını' anlamak veya kontrol etmek zor. Güçlü modeller, insanları manipüle etmeye ve aldatmaya çalışıyorlarsa zarar verebilir."

Christiano'nun OpenAI ile eski ilişkisi göz önüne alındığında, kar amacı gütmeyen kuruluşunun GPT-4'ün bazı yönlerini test etmesi şaşırtıcı değil. Ama bunu yapmak güvenli miydi? Christiano, Ars'tan ayrıntı isteyen bir e-postayı yanıtlamadı, ancak yapay zeka güvenlik konularını sıklıkla tartışan bir topluluk olan LessWrong web sitesinde yaptığı bir yorumda, Christiano ARC'nin OpenAI ile çalışmasını savundu ve özellikle "işlev kazanımı"ndan (AI beklenmedik bir şekilde kazanıyor) söz etti. yeni yetenekler) ve "AI devralma":

ARC'nin işlev kazanımı benzeri araştırmalardan kaynaklanan riski dikkatli bir şekilde ele almasının önemli olduğunu düşünüyorum ve takaslara nasıl yaklaştığımız hakkında daha fazla kamuoyuna konuşmamızı (ve daha fazla girdi almamızı) bekliyorum. Daha akıllı modelleri ele aldıkça ve ince ayar gibi daha riskli yaklaşımları takip ettikçe bu daha da önemli hale geliyor.

Bu durumla ilgili olarak, değerlendirmemizin ayrıntıları ve planlanan konuşlandırma göz önüne alındığında, ARC'nin değerlendirmesinin bir yapay zekanın devralınmasına yol açma olasılığının konuşlandırmanın kendisinden çok daha düşük olduğunu düşünüyorum (GPT-5'in eğitimi çok daha az). Bu noktada, değerlendirmeler sırasında bir kazaya neden olmaktan çok daha büyük bir riskle, modelin yeteneklerini hafife almak ve tehlikeye girmek gibi görünüyor. Riski dikkatli bir şekilde yönetirsek, bu oranı çok aşırı hale getirebileceğimizden şüpheleniyorum, ancak bu, elbette işi gerçekten yapmamızı gerektiriyor.

Daha önce bahsedildiği gibi, yapay zekanın ele geçirilmesi fikri genellikle insan uygarlığının ve hatta insan türünün yok olmasına neden olabilecek bir olay riski bağlamında tartışılır. LessWrong'un kurucusu Eliezer Yudkowsky gibi bazı yapay zeka devralma teorisi savunucuları, bir yapay zeka devralınmasının neredeyse garantili bir varoluşsal risk oluşturduğunu ve insanlığın yok olmasına yol açtığını iddia ediyor.

Ancak, herkes yapay zekanın ele geçirilmesinin en acil AI endişesi olduğu konusunda hemfikir değil. AI topluluğu Hugging Face'de Araştırma Bilimcisi olan Dr. Sasha Luccioni, AI güvenlik çabalarının varsayımsal olmaktansa burada ve şimdi olan sorunlara harcanmasını tercih eder.

Luccioni, Ars Technica'ya "Bence bu zaman ve çaba önyargı değerlendirmeleri yapmak için harcansa daha iyi olur" dedi. "GPT-4'e eşlik eden teknik raporda herhangi bir tür önyargı hakkında sınırlı bilgi var ve bu, halihazırda marjinalize edilmiş gruplar üzerinde bazı varsayımsal kendi kendini kopyalama testlerinden çok daha somut ve zararlı etkilerle sonuçlanabilir."

Luccioni, genellikle önyargı ve yanlış beyan konularına odaklanan "AI etiği" araştırmacıları ile genellikle x-riskine odaklanan ve olma eğiliminde olan (ancak her zaman değil) Etkili Fedakarlık hareketi ile ilişkilidir. 

Luccioni, "Benim için kendini kopyalama sorunu varsayımsal, gelecekteki bir sorundur, model yanlılığı ise şimdi ve burada bir sorundur" dedi. "Yapay zeka topluluğunda, model yanlılığı ve güvenlik ve bunların nasıl önceliklendirileceği gibi konularda çok fazla gerilim var."

Ve bu gruplar neye öncelik vereceklerini tartışmakla meşgulken, OpenAI, Microsoft, Anthropic ve Google gibi şirketler, her zamankinden daha güçlü yapay zeka modelleri yayınlayarak geleceğe doğru hızla ilerliyor. Yapay zekanın varoluşsal bir risk olduğu ortaya çıkarsa, insanlığı kim güvende tutacak? ABD AI düzenlemeleri şu anda yalnızca bir öneri (yasadan ziyade) ve şirketlerdeki AI güvenlik araştırması yalnızca gönüllü olduğundan, bu sorunun cevabı tamamen açık kalıyor.

Daha yeni Daha eski