Microsoft, çok modlu bir yaklaşımın insan düzeyinde yapay zekanın yolunu açtığına inanıyor.
![]() |
| Göz küresi olan elektronik bir beynin yapay zeka tarafından oluşturulmuş bir görüntüsü. |
Giriş formatı için girişi özel belirteçlerle süslenmiş bir dizi olarak düzleştiririz. Spesifik olarak, dizinin başlangıcını ve sonunu belirtmek için ve kullanırız. Özel belirteçler ve, kodlanmış görüntü yerleştirmelerin başlangıcını ve sonunu gösterir. Örneğin, "belge </g>" bir metin girişidir ve "<s> paragraf <image> Resim Gömme </image> paragraf </s>” serpiştirilmiş bir resim-metin girişidir.... Hem metin belirteçlerini hem de diğer giriş yöntemlerini vektörlere kodlamak için bir katıştırma modülü kullanılır. Daha sonra gömmeler kod çözücüye beslenir. Girdi belirteçleri için, onları yerleştirmelere eşlemek için bir arama tablosu kullanırız. Sürekli sinyallerin (örneğin, görüntü ve ses) biçimleri için, girdileri ayrık kod olarak temsil etmek ve ardından bunları "yabancı diller" olarak kabul etmek de mümkündür.
Microsoft, Kosmos-1'i The Pile (800 GB İngilizce metin kaynağı) ve Common Crawl'dan alıntılar da dahil olmak üzere web'den alınan verileri kullanarak eğitti. Eğitimden sonra, Kosmos-1'in yeteneklerini dil anlama, dil oluşturma, optik karakter tanıma gerektirmeyen metin sınıflandırma, resim alt yazısı, görsel soru yanıtlama, web sayfası soru yanıtlama ve sıfır atış görüntü sınıflandırma dahil olmak üzere çeşitli testlerde değerlendirdiler. Microsoft'a göre, bu testlerin çoğunda Kosmos-1 mevcut son teknoloji ürünü modellerden daha iyi performans gösterdi.
![]() |
| Kosmos-1'in çözmekle görevlendirildiği Raven IQ testinin bir örneği. |
Kosmos-1'in görsel IQ'yu bir dizi şekil sunarak ve sınava giren kişiden bu diziyi tamamlamasını isteyerek ölçen Raven's Progressive Reasoning'deki performansı özellikle ilgi çekicidir. Araştırmacılar, Kosmos-1'i test etmek için her seferinde bir doldurulmuş, her seçenek tamamlanmış bir test verdi ve cevabın doğru olup olmadığını sordu. Kosmos-1, Raven testindeki bir soruya yalnızca yüzde 22 oranında doğru cevap verebildi (yüzde 26 ince ayar ile). Bu kesinlikle bir smaç değildir ve metodolojideki hatalar sonuçları etkileyebilirdi, ancak Kosmos-1, Raven IQ testinde rastgele şansı (yüzde 17) yendi.
Yine de, Kosmos-1 çok modlu alandaki ilk adımları temsil etse de (başkaları tarafından da izlenen bir yaklaşım), yapay zeka modellerinin her tür medyayı algılamasına ve buna göre hareket etmesine izin vererek gelecekteki optimizasyonların daha da önemli sonuçlar getirebileceğini hayal etmek kolaydır. yapay asistanların yeteneklerini büyük ölçüde artıracak. Araştırmacılar, gelecekte Kosmos-1'i model boyutunda büyütmek ve konuşma kabiliyetini de entegre etmek istediklerini söylüyorlar.
Microsoft, Kosmos-1'i geliştiricilerin kullanımına sunmayı planladığını söylüyor, ancak makalenin alıntı yaptığı GitHub sayfasında bu hikayenin yayınlanması üzerine Kosmos'a özgü belirgin bir kod yok.

