Sohbet GPT tarzı AI modeli, özel eğitim almadan bir robota rehberlik etmek için vizyon ekler.
![]() |
PaLM-E tarafından kontrol edilen bir robotik kol, bir tanıtım videosunda bir paket fişe uzanıyor. |
Pazartesi günü, Google ve Berlin Teknik Üniversitesi'nden bir grup yapay zeka araştırmacısı, robotik kontrol için görüş ve dili bütünleştiren 562 milyar parametreye sahip çok modlu, somutlaştırılmış bir görsel dil modeli (VLM) olan PaLM-E'yi tanıttı. Şimdiye kadar geliştirilmiş en büyük VLM olduğunu ve yeniden eğitime ihtiyaç duymadan çeşitli görevleri yerine getirebileceğini iddia ediyorlar.
Google'a göre, "çekmeceden pirinç cipslerini bana getir" gibi üst düzey bir komut verildiğinde, PaLM-E kollu bir mobil robot platformu için bir eylem planı oluşturabilir (Google Robotics tarafından geliştirilmiştir) ve uygulayabilir. eylemlerin kendisi.
PaLM-E bunu, önceden işlenmiş bir sahne temsiline ihtiyaç duymadan robotun kamerasından gelen verileri analiz ederek yapar. Bu, bir insanın verileri önceden işlemesi veya açıklama eklemesi ihtiyacını ortadan kaldırır ve daha otonom robotik kontrole izin verir.
Aynı zamanda dayanıklıdır ve çevresine tepki verebilir. Örneğin, PaLM-E modeli bir robotu mutfaktan cips torbası almasına yönlendirebilir ve kontrol döngüsüne entegre edilmiş PaLM-E ile görev sırasında meydana gelebilecek kesintilere karşı dayanıklı hale gelir. Bir video örneğinde, bir araştırmacı çipleri robottan alır ve hareket ettirir, ancak robot çipleri bulur ve tekrar alır.
Başka bir örnekte, aynı PaLM-E modeli, daha önce insan rehberliği gerektiren karmaşık dizilere sahip görevler aracılığıyla bir robotu otonom olarak kontrol ediyor. Google'ın araştırma raporu, PaLM-E'nin talimatları nasıl eyleme dönüştürdüğünü açıklıyor:
PaLM-E'nin zorlu ve çeşitli mobil manipülasyon görevlerindeki performansını gösteriyoruz. Ahn ve diğerlerindeki kurulumu büyük ölçüde takip ediyoruz. (2022), burada robotun bir insan tarafından verilen talimata dayalı olarak bir dizi navigasyon ve manipülasyon eylemi planlaması gerekiyor. Örneğin, "İçeceğimi döktüm, temizlemek için bana bir şeyler getirir misin?" talimatı verildiğinde, robotun "1. Sünger bul, 2. Süngeri al, 3. Getir" şeklinde bir sıralama yapması gerekiyor. kullanıcıya, 4. Süngeri yere koyun." Bu görevlerden ilham alarak, PaLM-E'nin somutlaştırılmış muhakeme yeteneklerini test etmek için 3 kullanım durumu geliştiriyoruz: satın alma tahmini, başarısızlık tespiti ve uzun ufuklu planlama. Düşük seviyeli politikalar, RGB görüntüsünü ve doğal dil talimatını alan ve son efektör kontrol komutlarını çıkaran bir transformatör modeli olan RT-1'den (Brohan ve diğerleri, 2022) alınmıştır.
PaLM-E bir sonraki belirteç tahmincisidir ve Google'ın "PaLM" (ChatGPT'nin arkasındaki teknolojiye benzer) adı verilen mevcut geniş dil modelini (LLM) temel aldığı için "PaLM-E" olarak adlandırılır. Google, duyusal bilgi ve robotik kontrol ekleyerek PaLM'yi "somutlaştırdı".
Bir dil modeline dayandığından PaLM-E, görüntüler veya sensör verileri gibi sürekli gözlemler alır ve bunları dil belirteçleriyle aynı boyutta olan bir dizi vektöre kodlar. Bu, modelin duyusal bilgileri, dili işlediği şekilde "anlamasına" olanak tanır.
PaLM-E, RT-1 robotik transformatörüne ek olarak, Google'ın Şubat ayında ortaya çıkan bir görüntü transformatörü modeli olan ViT-22B ile ilgili önceki çalışmasından yararlanıyor. ViT-22B, görüntü sınıflandırma, nesne algılama, semantik bölümleme ve görüntü alt yazısı gibi çeşitli görsel görevler konusunda eğitilmiştir.
Google Robotics, sinir ağlarıyla robotik kontrol üzerinde çalışan tek araştırma grubu değil. Bu özel çalışma, Microsoft'un benzer şekilde robotik kontrol için görsel verileri ve büyük dil modellerini birleştirmeyi deneyen yakın tarihli "ChatGPT for Robotics" makalesine benziyor.
Robotik bir yana, Google araştırmacıları, PaLM-E'nin çekirdeği olarak büyük bir dil modeli kullanmaktan kaynaklanan birkaç ilginç etki gözlemlediler. Birincisi, öğrendiği bilgi ve becerileri bir görevden diğerine aktarabilmesi anlamına gelen "pozitif aktarım" sergiliyor ve bu da tek görevli robot modellerine kıyasla "önemli ölçüde daha yüksek performans" sağlıyor.
Ayrıca, model ölçeğinde bir eğilim gözlemlediler: "Dil modeli ne kadar büyük olursa, görsel dil ve robotik görevler üzerine eğitim alırken dil becerilerini o kadar fazla korur; niceliksel olarak, 562B PaLM-E modeli neredeyse tüm dil yeteneklerini korur. "
Ve araştırmacılar, PaLM-E'nin çok modlu düşünce zinciri muhakemesi (modelin hem dil hem de görsel bilgileri içeren bir dizi girdiyi analiz etmesine izin vererek) ve çoklu görüntü çıkarımı (birden fazla görüntüyü girdi olarak kullanarak) gibi ortaya çıkan yetenekler sergilediğini iddia ediyorlar. bir çıkarım veya tahmin), yalnızca tek görüntülü bilgi istemleriyle eğitilmiş olmasına rağmen. Bu anlamda PaLM-E, derin öğrenme modelleri zaman içinde daha karmaşık hale geldikçe ortaya çıkan sürpriz trendini sürdürecek gibi görünüyor.
Google araştırmacıları, ev otomasyonu veya endüstriyel robotik gibi gerçek dünya senaryoları için daha fazla PaLM-E uygulaması keşfetmeyi planlıyor. Ve PaLM-E'nin çok modlu akıl yürütme ve somutlaştırılmış yapay zeka hakkında daha fazla araştırmaya ilham vermesini umuyorlar.
"Multimodal", şirketler görünüşte bir insan gibi genel görevleri yerine getirebilecek yapay genel zekaya ulaştıkça daha fazla duyacağımız moda bir kelimedir.
Tags:
Bilgi Teknolojisi