OpenAI'nin GPT-4'ü, profesyonel ölçütlerde "insan düzeyinde performans" sergiliyor

 Multimodal AI modeli, görüntüleri ve metni işleyebilir, bar sınavlarını geçebilir.


OpenAI Salı günü, OpenAI'ye göre "çeşitli profesyonel ve akademik ölçütlerde insan düzeyinde performans sergileyen" metin çıktısı döndürürken metin ve görüntü girişlerini kabul edebilen büyük bir çok modlu model olan GPT-4'ü duyurdu. Yine Salı günü Microsoft, Bing Chat'in başından beri GPT-4 üzerinde çalıştığını duyurdu.

İddia edildiği gibi çalışırsa, GPT-4 potansiyel olarak yapay zekada yeni bir çağın açılışını temsil eder. OpenAI duyurusunda "Sınava girenlerin ilk %10'u civarında bir puanla simüle edilmiş bir bar sınavını geçiyor" diye yazıyor. "Buna karşılık, GPT-3.5'in puanı en düşük %10 civarındaydı."

OpenAI, GPT-4'ün metin özelliğini ChatGPT ve ticari API'si aracılığıyla, ancak ilk başta bir bekleme listesiyle birlikte yayınlamayı planlıyor. GPT-4 şu anda ChatGPT Plus aboneleri tarafından kullanılabilir. Ayrıca şirket, GPT-4'ün görüntü girişi özelliğini tek bir ortakla, bir sahneyi tanıyabilen ve onu tanımlayabilen yakında çıkacak bir akıllı telefon uygulaması olan Be My Eyes ile test ediyor.

OpenAI, tanıtım web sitesinin yanı sıra GPT-4'ün yeteneklerini açıklayan bir teknik makale ve sınırlamalarını ayrıntılı olarak açıklayan bir sistem modeli kartı yayınladı.

14 Mart 2023'te GPT-4'ün ChatGPT Plus müşterilerine tanıtımının ekran görüntüsü.

GPT, "üretken önceden eğitilmiş transformatör" anlamına gelir ve GPT-4, 2018'deki orijinal GPT'ye kadar uzanan bir dizi temel dil modelinin parçasıdır. Orijinal sürümün ardından OpenAI, 2019'da GPT-2'yi ve 2019'da GPT-3'ü duyurdu. 2020. GPT-3.5 adlı başka bir iyileştirme 2022'de geldi. Kasım ayında OpenAI, o zamanlar GPT-3.5'e dayalı ince ayarlı bir konuşma modeli olan ChatGPT'yi piyasaya sürdü.

GPT serisindeki yapay zeka modelleri, büyük ölçüde internetten alınan büyük bir metin gövdesi kullanılarak bir belirteç dizisindeki bir sonraki belirteci (bir kelimenin bir parçası) tahmin edecek şekilde eğitilmiştir. Eğitim sırasında sinir ağı, kelimeler ve kavramlar arasındaki ilişkileri temsil eden istatistiksel bir model oluşturur. Zaman içinde OpenAI, her bir GPT modelinin boyutunu ve karmaşıklığını artırdı; bu da, göreve göre değişse de, bir insanın aynı senaryoda metni nasıl tamamlayacağına kıyasla, modelden modele genel olarak daha iyi performansla sonuçlandı.

Görevler söz konusu olduğunda, GPT-4'ün performansı dikkate değerdir. Seleflerinde olduğu gibi, doğal dilde karmaşık talimatları takip edebilir ve teknik veya yaratıcı çalışmalar üretebilir, ancak bunu daha derinlemesine yapabilir: 32.768 simgeye (yaklaşık 25.000 kelimelik metin) kadar oluşturmayı ve işlemeyi destekler; önceki modellere göre daha uzun içerik oluşturma veya belge analizi.

OpenAI, GPT-4'ün yeteneklerini analiz ederken modele Tek Tip Bar Sınavı, Hukuk Fakültesi Kabul Testi (LSAT), Lisansüstü Kayıt Sınavı (GRE) Nicel ve çeşitli AP konu testleri gibi testler yaptırdı. Görevlerin çoğunda, insan seviyesinde puan aldı. Bu, GPT-4'ün yalnızca sınava girme becerisine göre değerlendirilen bir kişi olsaydı, hukuk fakültesine ve muhtemelen birçok üniversiteye girebileceği anlamına gelir.

GPT-4, (hala bir araştırma önizlemesiyle sınırlı olan) çok modlu yeteneklerine gelince, birden çok görüntünün içeriğini analiz edebilir ve çoklu görüntü sekansı şakasını anlama veya bir diyagramdan bilgi çıkarma gibi bunları anlamlandırabilir. Microsoft ve Google, son zamanlarda benzer çok modlu yeteneklerle deneyler yapıyor. Özellikle Microsoft, yapay zeka araştırmacılarının "yapay genel zeka" dediği veya insan düzeyinde genel görevleri yerine getiren yapay zekayı elde etmek için çok modlu bir yaklaşımın gerekli olacağını düşünüyor.

Scale AI personel hızlı mühendisi Riley Goodside, GPT-4'ün çok modlu yeteneklerini incelerken bir tweet'te "AGI"ye atıfta bulundu ve OpenAI çalışanı Andrej Karpathy, GPT-4'ün 2012'de bir AI vizyon modeli anlayışı hakkında önerdiği bir testi çözebilmesine şaşırdığını ifade etti. bir resim neden komiktir?

OpenAI, GPT-4 henüz orada olmasa da, amacının herhangi bir entelektüel görevde insanların yerini alabilecek AGI geliştirmek olduğunu belirtti. GPT-4 duyurusundan kısa bir süre sonra OpenAI CEO'su Sam Altman tweet attı, "Hala kusurlu, hâlâ sınırlı ve ilk kullanımda, onunla daha fazla zaman geçirdikten sonra olduğundan daha etkileyici görünüyor."

Ve doğru: GPT-4 mükemmel olmaktan çok uzak. Hâlâ eğitim veri kümesindeki önyargıları yansıtıyor, halüsinasyonlar görüyor (kulağa makul görünen yanlışlar uyduruyor) ve potansiyel olarak yanlış bilgi veya zararlı tavsiyeler üretebilir.

Microsoft'un delikteki dengesiz ası


Microsoft'un eşzamanlı GPT-4 duyurusu, Microsoft'un Hindistan'da Bing Chat'i ilk kez test ettiği Kasım 2022'den beri OpenAI'nin GPT-4 üzerinde oturduğu anlamına geliyor.

Microsoft bir blog gönderisinde "Yeni Bing'in arama için özelleştirilmiş GPT-4 üzerinde çalıştığını doğrulamaktan mutluluk duyuyoruz" diye yazıyor. "Son altı hafta içinde herhangi bir zamanda yeni Bing'i önizlemede kullandıysanız, OpenAI'nin en son modelinin gücüne erken bir bakış attınız demektir. OpenAI, GPT-4 ve sonraki sürümlerde güncellemeler yaparken Bing, kullanıcılarımızın mevcut en kapsamlı yardımcı pilot özelliklerine sahip olmasını sağlamak için bu iyileştirmeler."

Bing Chat zaman çizelgesi, isimsiz bir ihbarla eşleşiyor Ars Technica, geçen sonbaharda OpenAI'nin GPT-4'ü dahili olarak hazırladığını duydu, ancak daha iyi korkuluklar uygulanana kadar onu serbest bırakmak konusunda tereddüt etti. Bing Chat'in hizalamasının doğası tartışmalı olsa da, GPT-4'ün korkulukları artık daha fazla hizalama eğitimi şeklinde geliyor. OpenAI, insan geri bildiriminden pekiştirmeli öğrenme (RLHF) adlı bir teknik kullanarak, sinir ağını OpenAI'nin hassas veya potansiyel olarak zararlı olduğunu düşündüğü konuları tartışmayı reddetmesi için eğitmek için GPT-4'ün sonuçlarından elde edilen insan geri bildirimlerini kullandı.

OpenAI web sitesinde şöyle yazıyor: "Rakip test programımızın yanı sıra ChatGPT'den alınan dersleri kullanarak GPT-4'ü yinelemeli olarak hizalamak için 6 ay harcadık," diye yazıyor OpenAI, "gerçeklik, yönlendirilebilirlik, ve korkulukların dışına çıkmayı reddetmek."
Daha yeni Daha eski