Microsoft, görüntü içeriğini anlayan, görsel bulmacaları çözen AI modelini açıkladı

Microsoft, çok modlu bir yaklaşımın insan düzeyinde yapay zekanın yolunu açtığına inanıyor.

Göz küresi olan elektronik bir beynin yapay zeka tarafından oluşturulmuş bir görüntüsü.

Pazartesi günü, Microsoft'tan araştırmacılar içerik için görüntüleri analiz edebilen, görsel bulmacaları çözebilen, görsel metin tanıma gerçekleştirebilen, görsel IQ testlerini geçen ve doğal dil talimatlarını anlayabilen çok modlu bir model olan Kosmos-1'i tanıttı. Araştırmacılar, metin, ses, görüntü ve video gibi farklı girdi modlarını bütünleştiren çok modlu yapay zekanın, insan düzeyinde genel görevleri yerine getirebilen yapay genel zeka (AGI) oluşturmak için önemli bir adım olduğuna inanıyor.

Araştırmacılar akademik makalelerinde, "Zekanın temel bir parçası olan çok modlu algı, bilgi edinme ve gerçek dünyaya dayanma açısından yapay genel zekaya ulaşmak için bir gerekliliktir," diyor, Language Is Not All You Need: Aligning Perception with Dil Modelleri.

Kosmos-1 makalesinden alınan görsel örnekler, modelin görüntüleri analiz ettiğini ve bunlarla ilgili soruları yanıtladığını, bir görüntüden metin okuduğunu, görüntüler için altyazı yazdığını ve yüzde 22-26 doğrulukla görsel bir IQ testi yaptığını gösteriyor (daha fazlası aşağıda).

Medya, büyük dil modelleri (LLM) ile ilgili haberlerle dolup taşarken, bazı yapay zeka uzmanları, görünüşte herhangi bir entelektüel görevde (ve herhangi bir entelektüel işte) insanların yerini alabilecek varsayımsal bir teknoloji olan genel yapay zekaya giden potansiyel bir yol olarak çok modlu yapay zekaya işaret ediyor. ). AGI, Microsoft'un AI alanındaki önemli bir iş ortağı olan OpenAI'nin belirtilen hedefidir.

Bu durumda Kosmos-1, OpenAI'nin katılımı olmadan tamamen bir Microsoft projesi gibi görünüyor. Araştırmacılar, yarattıklarına "çok modlu büyük dil modeli" (MLLM) diyorlar çünkü kökleri ChatGPT gibi salt metin LLM gibi doğal dil işlemeye dayanıyor. Ve şunu gösteriyor: Kosmos-1'in görüntü girişini kabul etmesi için, araştırmacıların önce görüntüyü LLM'nin anlayabileceği özel bir simge dizisine (temelde metin) çevirmesi gerekir. Kosmos-1 makalesi bunu daha ayrıntılı olarak açıklıyor:

Giriş formatı için girişi özel belirteçlerle süslenmiş bir dizi olarak düzleştiririz. Spesifik olarak, dizinin başlangıcını ve sonunu belirtmek için ve kullanırız. Özel belirteçler ve, kodlanmış görüntü yerleştirmelerin başlangıcını ve sonunu gösterir. Örneğin, "belge </g>" bir metin girişidir ve "<s> paragraf <image> Resim Gömme </image> paragraf </s>” serpiştirilmiş bir resim-metin girişidir.

... Hem metin belirteçlerini hem de diğer giriş yöntemlerini vektörlere kodlamak için bir katıştırma modülü kullanılır. Daha sonra gömmeler kod çözücüye beslenir. Girdi belirteçleri için, onları yerleştirmelere eşlemek için bir arama tablosu kullanırız. Sürekli sinyallerin (örneğin, görüntü ve ses) biçimleri için, girdileri ayrık kod olarak temsil etmek ve ardından bunları "yabancı diller" olarak kabul etmek de mümkündür.

Microsoft, Kosmos-1'i The Pile (800 GB İngilizce metin kaynağı) ve Common Crawl'dan alıntılar da dahil olmak üzere web'den alınan verileri kullanarak eğitti. Eğitimden sonra, Kosmos-1'in yeteneklerini dil anlama, dil oluşturma, optik karakter tanıma gerektirmeyen metin sınıflandırma, resim alt yazısı, görsel soru yanıtlama, web sayfası soru yanıtlama ve sıfır atış görüntü sınıflandırma dahil olmak üzere çeşitli testlerde değerlendirdiler. Microsoft'a göre, bu testlerin çoğunda Kosmos-1 mevcut son teknoloji ürünü modellerden daha iyi performans gösterdi.

Kosmos-1'in çözmekle görevlendirildiği Raven IQ testinin bir örneği.

Kosmos-1'in görsel IQ'yu bir dizi şekil sunarak ve sınava giren kişiden bu diziyi tamamlamasını isteyerek ölçen Raven's Progressive Reasoning'deki performansı özellikle ilgi çekicidir. Araştırmacılar, Kosmos-1'i test etmek için her seferinde bir doldurulmuş, her seçenek tamamlanmış bir test verdi ve cevabın doğru olup olmadığını sordu. Kosmos-1, Raven testindeki bir soruya yalnızca yüzde 22 oranında doğru cevap verebildi (yüzde 26 ince ayar ile). Bu kesinlikle bir smaç değildir ve metodolojideki hatalar sonuçları etkileyebilirdi, ancak Kosmos-1, Raven IQ testinde rastgele şansı (yüzde 17) yendi.

Yine de, Kosmos-1 çok modlu alandaki ilk adımları temsil etse de (başkaları tarafından da izlenen bir yaklaşım), yapay zeka modellerinin her tür medyayı algılamasına ve buna göre hareket etmesine izin vererek gelecekteki optimizasyonların daha da önemli sonuçlar getirebileceğini hayal etmek kolaydır. yapay asistanların yeteneklerini büyük ölçüde artıracak. Araştırmacılar, gelecekte Kosmos-1'i model boyutunda büyütmek ve konuşma kabiliyetini de entegre etmek istediklerini söylüyorlar.

Microsoft, Kosmos-1'i geliştiricilerin kullanımına sunmayı planladığını söylüyor, ancak makalenin alıntı yaptığı GitHub sayfasında bu hikayenin yayınlanması üzerine Kosmos'a özgü belirgin bir kod yok.

Microsoft, görüntü içeriğini anlayan, görsel bulmacaları çözen AI modelini açıkladı

Microsoft, çok modlu bir yaklaşımın insan düzeyinde yapay zekanın yolunu açtığına inanıyor.

Yorum Gönder

İletişim Formu