Sponsorlu Alan / Reklam
Büyük Dil Modellerinde Yeni Bir Dönem mi?
Miami merkezli yapay zeka girişimi Subquadratic, büyük dil modellerinin (LLM) gelişimini yaklaşık on yıldır kısıtlayan matematiksel bir darboğazı çözdüğünü duyurdu. Şirket, 'SubQ' adını verdiği yeni modelinin, mevcut piyasadaki modellere kıyasla daha hızlı, daha ucuz ve daha az enerji tüketen bir yapıya sahip olduğunu iddia ediyor.
Hesaplama Yükünü Azaltan Mimari
Günümüzdeki çoğu büyük dil modeli, 'transformer' adı verilen ve 'yoğun dikkat' (dense attention) mekanizmasıyla çalışan sinir ağlarını kullanır. Bu sistem, metindeki her bir kelimeyi veya parçayı (token) diğer tüm parçalarla çarparak anlam ilişkisi kurar. Metin uzunluğu arttıkça hesaplama miktarı katlanarak artar; bu durum 'kuadratik genişleme' olarak adlandırılır ve modellerin ciddi miktarda enerji tüketmesine neden olur.
Subquadratic, bu sorunu çözmek için yoğun dikkat yerine 'seyrek dikkat' (sparse attention) yöntemini benimsediğini belirtiyor. Şirket, metindeki her ilişkiyi hesaplamak yerine, yalnızca önemli olanları dinamik olarak seçen bir mekanizma geliştirdiğini ifade ediyor. Bu yaklaşım, hesaplama maliyetlerini ciddi oranda düşürürken, modelin performansını korumayı hedefliyor.
Bağımsız Testler ve Performans Verileri
Şirketin iddiaları başlangıçta şüpheyle karşılansa da, üçüncü taraf değerlendirme firması Appen tarafından yürütülen testler bazı verileri destekler nitelikte. Appen'in raporuna göre, SubQ modeli kodlama görevlerinde önde gelen modellerle benzer performans sergiliyor. Ayrıca, 12 milyon token'lık geniş bir bağlam penceresine sahip olan model, büyük veri setleri üzerinde yapılan 'samanlıkta iğne arama' testlerinde %98 başarı oranına ulaştı.
Subquadratic CEO'su Justin Dangel, modelin maliyet avantajına dikkat çekerek, Nvidia tarafından geliştirilen RULER 128 testinde diğer modellerin binlerce dolara mal olan işlemlerini çok daha düşük maliyetlerle gerçekleştirebildiklerini öne sürdü.
Sektörel Şüpheler ve Gelecek
Modelin henüz geniş kitlelere açılmamış olması ve eğitim sürecinde mevcut açık kaynaklı modellerin ağırlıklarının (weights) kullanılmış olması, bazı uzmanlar tarafından eleştiriliyor. Bağımsız araştırmacı Will Depue, şirketin sunduğu kanıtların 'kuadratik darboğazı tamamen çözdük' iddiasını doğrulamak için henüz yeterli olmadığını belirtiyor.
Subquadratic ekibi ise, sınırlı kaynaklara sahip yeni bir şirket olduklarını belirterek, gelecekte daha fazla doğrulama ve erişim imkanı sunacaklarını ifade ediyor. Şirket, bu yeni mimarinin uzun vadede büyük dil modellerinin inşa edilme biçimini değiştirebileceğine inanıyor.