Büyük dil modelleri, protein yapıları için de çalışır

 Ham protein dizileri üzerine eğitim, AI'nın yapı hakkında çıkarımlar yapmasını sağlar.


ChatGPT'nin ve rakiplerinin başarısı, ortaya çıkan davranışlar olarak adlandırılan şeye dayanmaktadır. Büyük dil modelleri (LLM'ler) olarak adlandırılan bu sistemler, kulağa doğal gelen bir dil (veya etkili kötü amaçlı yazılım) çıkarmak için eğitilmedi; sadece kelime kullanım istatistiklerini izlemekle görevlendirildiler. Ancak, yeterince büyük bir dil örnekleri eğitim seti ve yeterince karmaşık bir sinir ağı verildiğinde, eğitimleri, İngilizce kullanımını "anlayan" bir dahili temsil ve büyük bir gerçekler özeti ile sonuçlandı. Karmaşık davranışları çok daha basit bir eğitimden ortaya çıktı.

Meta'daki bir ekip şimdi, bu tür ortaya çıkan anlayışın dillerle sınırlı olmaması gerektiğine karar verdi. Bu nedenle, bir LLM'yi proteinler içindeki amino asitlerin görünümüne ilişkin istatistikler konusunda eğitti ve bu proteinlerin yapısı hakkında bilgi çıkarmak için sistemin öğrendiklerine ilişkin dahili temsilini kullandı. Sonuç, protein yapılarını tahmin etme konusunda en iyi rekabet eden AI sistemleri kadar iyi değil, ancak oldukça hızlı ve hala daha iyi hale geliyor.

LLM'ler: Sadece dil için değil

Bu çalışmayı anlamak için bilmeniz gereken ilk şey, "LLM" adındaki "dil" terimi, dil işleme görevleri için orijinal gelişimlerine atıfta bulunurken, bunların potansiyel olarak çeşitli amaçlar için kullanılabileceğidir. Bu nedenle, dil işleme LLM'ler için yaygın bir kullanım durumu olsa da, bu modellerin başka yetenekleri de vardır. Aslında, "Büyük" terimi çok daha bilgilendiricidir, çünkü tüm LLM'ler çok sayıda düğüme (bir sinir ağındaki "nöronlar") ve bu düğümler arasındaki bağlantıların ağırlıklarını tanımlayan daha da fazla sayıda değere sahiptir. . İlk olarak dili işlemek için geliştirilmiş olsalar da potansiyel olarak çeşitli görevler için kullanılabilirler.

Bu yeni çalışmadaki görev, bir protein oluşturan lineer amino asit dizisini almak ve bunu, protein olgunlaştıktan sonra bu amino asitlerin üç boyutlu uzayda nasıl düzenlendiğini tahmin etmek için kullanmaktı. Bu 3B yapı, proteinlerin işlevi için gereklidir ve proteinlerin mutasyonları aldıktan sonra nasıl yanlış davrandığını anlamamıza yardımcı olabilir veya diğer kullanımların yanı sıra patojenlerin proteinlerini etkisiz hale getirmek için ilaçlar tasarlamamıza izin verebilir. Protein yapılarını tahmin etmek, Google'ın yapay zeka grubu DeepMind'ın "çözüldü"nün çoğu pratik tanımı için sorunu çözen bir sistemi duyurduğu bu on yıla kadar bilim adamlarını nesiller boyu telaşlandıran bir zorluktu. Google'ın sistemini, akademik topluluk tarafından benzer şekilde geliştirilen bir sistem takip etti.

Bu çabaların her ikisi de, evrimin zaten benzer 3B konfigürasyonları benimseyen büyük ilgili protein kümeleri oluşturduğu gerçeğine dayanıyordu. AI sistemleri, bu ilgili proteinleri sıralayarak, benzer bir yapıyı korurken nerede ve ne tür değişikliklerin tolere edilebileceği ve ayrıca proteinin bir kısmındaki değişikliklerin diğerindeki değişikliklerle nasıl telafi edilebileceği hakkında çıkarımlar yapabilir. Bu evrimsel kısıtlamalar, sistemlerin, proteinin hangi bölümlerinin 3B uzayda birbirine yakın olması gerektiğini ve dolayısıyla yapının ne olabileceğini çözmesine izin verir.

Meta'nın yeni çalışmasının ardındaki mantık, LLM tarzı bir sinir ağının eğitilmesinin, sistemin tüm protein dizilerini hizalama gibi karmaşık bir işe girmesine gerek kalmadan aynı tür evrimsel kısıtlamaları çözmesine izin verecek şekilde yapılabilmesidir. ilk yer Tıpkı bir LLM'nin dil örnekleri üzerinde eğitilmesiyle dilbilgisi kurallarının ortaya çıkması gibi, evrimin dayattığı kısıtlamalar da sistemin protein örnekleri üzerinde eğitilmesiyle ortaya çıkacaktır.

Amino asitlere dikkat

Bunun pratikte nasıl çalıştığı, araştırmacıların büyük bir protein örneği alması ve birkaç bireysel amino asidin kimliğini rastgele bloke etmesiydi. Sistemden daha sonra bulunması gereken amino asidi tahmin etmesi istendi. Bu eğitim sürecinde sistem, tahminlerde bulunmak için amino asitlerin sıklığı ve çevreleyen proteinin içeriği hakkında istatistikler gibi bilgileri kullanma becerisini geliştirdi. Bu bağlamda örtük olarak, daha önceki çabalarda özel işlem gerektiren şeyler vardır: evrimle ilişkili proteinlerin kimliği ve bu akrabalar içindeki hangi varyasyonun bize proteinin hangi bölümlerinin 3B uzayda birbirine yakın olduğu hakkında bilgi verdiği.

LLM'lerin nasıl çalışacağına ilişkin akıl yürütmenin doğru olduğunu varsayarsak (ve Meta da öyle olduğunu öne süren daha önceki araştırmaları temel alıyordu), çalışan bir sistem geliştirmenin püf noktası, sinir ağında bulunan bilgileri geri almaktır. Sinir ağları, kararlarını nasıl aldıklarını mutlaka bilmediğimiz için genellikle bir "kara kutu" olarak kabul edilir. Ancak, insanlar karar verme sürecini denetleme yeteneği gibi özellikler geliştirdikçe, bu durum zamanla daha az geçerli hale geliyor.

Bu durumda, araştırmacılar, LLM'nin "dikkat modeli" olarak adlandırılan şeyi tanımlama yeteneğine güvendiler. Pratik anlamda, LLM'ye bir dizi amino asit verdiğinizde ve bunları değerlendirmesini istediğinizde, dikkat modeli, analizini gerçekleştirmek için baktığı özellikler kümesidir.

Dikkat modelini bir 3B yapıya dönüştürmek için araştırmacılar, 3B yapılarını bildiğimiz proteinlerin dikkat modelini gerçek yapıyla ilişkilendirmek için ikinci bir AI sistemini eğitti. Sınırlı sayıda protein için yalnızca deneysel olarak belirlenmiş yapılara sahip olduğumuz için, araştırmacılar bu eğitimin bir parçası olarak diğer AI sistemlerinden birinin tahmin ettiği bazı yapıları da kullandılar.

Ortaya çıkan sistem ESM-2 olarak adlandırıldı. Tamamen eğitildikten sonra, ESM-2 ham bir amino asit dizisini alabildi ve bir 3D protein yapısı ve bu yapının doğruluğuna olan güvenini temsil eden bir puan verdi.

İyi, ama en iyisi değil (henüz)

Sistemlerini test etmek için araştırmacılar, düğümleri arasındaki bağlantıların gücünü tanımlayan parametre sayısını 8 milyondan 15 milyara kadar değiştiren bir dizi LLM boyutu denediler. Farklı boyutlarda net bir model ortaya çıktı. Eğitim setinde çok sayıda yakın akrabası olan proteinler için, tahmin kalitesinin maksimuma çıkması için çok büyük bir LLM'ye ihtiyacınız yoktu. Bir şekilde nadir veya sıra dışı olan proteinler için performans, temel LLM'de düşük başladı ve boyut XL'den XXL'e geçtikçe arttı.

Bu iyileştirmenin 15 milyar parametreli XXL sisteminde bile doygunluğa ulaştığına dair hiçbir gösterge yoktu. Bu nedenle, birçok bireysel protein için muhtemelen elde edebileceği kadar iyi olmasına rağmen, buna daha fazla hesaplama kaynağı atmanın genel performansı artıracağı noktadayız.

Araştırmacılar ayrıca ESM-2 ve Google'ın AlphaFold2'sinde iki set test durumu denediler. Protein setlerinden biri için ESM-2, yaklaşık olarak AlphaFold2 kadar doğruydu; ikincisi için AlphaFold2 daha iyi performans gösterdi. Google'ın sisteminin daha iyi performans gösterdiği durumlarda, ESM-2'nin dahili performans izleme ölçümlerinden biri, protein dizilişinde daha fazla zorluk yaşadığını gösterdi, bu nedenle bu sürpriz olmadı.

Doğruluktaki bu düşüşün karşılığı hızdır. ESM-2, evrimsel hizalamalar yapmaya çalışmanın tüm sürecini atlar; bunların hepsi eğitim sırasında sisteme yerleştirilmiştir. Makul büyüklükte bir protein için bu, ESM-2'nin bir yapı bulmada AlphaFold2'den yaklaşık altı kat daha hızlı olduğu anlamına gelir. Bu, Meta'daki ekibin çevresel DNA örneklerinde tanımlanmış 600 milyondan fazla proteinden oluşan bir veri tabanı üzerinde serbest bırakmasına izin verdi - önceki iki sistemin işleyebileceği bir şey, ancak yalnızca önemli ölçüde daha fazla zaman ve hesaplama masrafı ile. (ESM-2 için, 2.000 GPU ile iki hafta sürdü.)

Araştırmacılar, internete koydukları sonuçların, mevcut yapılarla yakın akrabası olmayan yaklaşık 28 milyon proteinden oluşan yüksek kaliteli yapılar içerdiğini tahmin ediyor.

Bu bizi nereye bırakıyor?

Bir dereceye kadar, buradaki çalışmayı takdir etmek muhtemelen insanların bu yapay zeka sistemlerinden birinin veya diğerinin diğerlerinden çok daha iyi performans gösterdiği proteinler üzerinde bireysel karşılaştırmalar yapmasını beklemek zorunda kalacak. Bu bize her yaklaşımın güçlü ve zayıf yönlerinin bir resmini vermeye başlayacak. Her halükarda, sistemlerin benzer sonuçlar ürettiği durumlar için bile bir değer vardır; çok farklı prensipler üzerine kurulu sistemlerden aynı çıktıyı almak o çıktıya biraz daha güven veriyor.

Sistemler arasındaki hesaplama kaynaklarındaki farkın bu özel problem için çok önemli olması muhtemel değildir (bir bütün olarak yapay zeka için olsa bile). Bunun nedeni, bu tahminlerin bizim yeni proteinleri belirlediğimizden çok daha hızlı yapılabilmesidir; bu nedenle, önemli bir performans düşüşü olan bir sistem bile mevcut veritabanlarını birkaç ay içinde tamamlayabilir ve ardından keşif hızına kolayca ayak uydurabilir.

Bu çalışmanın en ilgi çekici yanı, ESM-2'nin kaynakları arttıkça hala daha iyi hale gelmesi ve ne zaman maksimuma çıkacağının belli olmaması. Enerji ve kaynak kullanımı, sistemin büyümesini daha da kullanışsız hale getirmiş olsa bile, hala küçük gelişmeler görüyor olmamız mümkündür.
Daha yeni Daha eski