Yazılara Geri Dön

Reklam Alanı - Yazı Başlangıcı

Teknoloji

Subquadratic Şirketi Büyük Dil Modellerinde Matematiksel Bir Engeli Aştığını İddia Ediyor

Subquadratic adlı girişim, büyük dil modellerindeki hesaplama darboğazını aşarak daha hızlı ve verimli bir mimari geliştirdiğini duyurdu.

MIT Technology Review 20 Haziran 2026 3 dakika okuma
Karmaşık ve yoğun bir veri ağının, düzenli ve verimli altın sarısı ışık hüzmelerine dönüştüğü, derin lacivert arka planlı bilimsel veri görselleştirmesi.
Görsel: Temsili görsel — yapay zekâ ile efendi.sanal için üretilmiştir.

Sponsorlu Alan / Reklam

Büyük Dil Modellerinde Yeni Bir Dönem mi?

Miami merkezli yapay zeka girişimi Subquadratic, büyük dil modellerinin (LLM) gelişimini yaklaşık on yıldır kısıtlayan matematiksel bir darboğazı çözdüğünü duyurdu. Şirket, 'SubQ' adını verdiği yeni modelinin, mevcut piyasadaki modellere kıyasla daha hızlı, daha ucuz ve daha az enerji tüketen bir yapıya sahip olduğunu iddia ediyor.

Hesaplama Yükünü Azaltan Mimari

Günümüzdeki çoğu büyük dil modeli, 'transformer' adı verilen ve 'yoğun dikkat' (dense attention) mekanizmasıyla çalışan sinir ağlarını kullanır. Bu sistem, metindeki her bir kelimeyi veya parçayı (token) diğer tüm parçalarla çarparak anlam ilişkisi kurar. Metin uzunluğu arttıkça hesaplama miktarı katlanarak artar; bu durum 'kuadratik genişleme' olarak adlandırılır ve modellerin ciddi miktarda enerji tüketmesine neden olur.

Subquadratic, bu sorunu çözmek için yoğun dikkat yerine 'seyrek dikkat' (sparse attention) yöntemini benimsediğini belirtiyor. Şirket, metindeki her ilişkiyi hesaplamak yerine, yalnızca önemli olanları dinamik olarak seçen bir mekanizma geliştirdiğini ifade ediyor. Bu yaklaşım, hesaplama maliyetlerini ciddi oranda düşürürken, modelin performansını korumayı hedefliyor.

Bağımsız Testler ve Performans Verileri

Şirketin iddiaları başlangıçta şüpheyle karşılansa da, üçüncü taraf değerlendirme firması Appen tarafından yürütülen testler bazı verileri destekler nitelikte. Appen'in raporuna göre, SubQ modeli kodlama görevlerinde önde gelen modellerle benzer performans sergiliyor. Ayrıca, 12 milyon token'lık geniş bir bağlam penceresine sahip olan model, büyük veri setleri üzerinde yapılan 'samanlıkta iğne arama' testlerinde %98 başarı oranına ulaştı.

Subquadratic CEO'su Justin Dangel, modelin maliyet avantajına dikkat çekerek, Nvidia tarafından geliştirilen RULER 128 testinde diğer modellerin binlerce dolara mal olan işlemlerini çok daha düşük maliyetlerle gerçekleştirebildiklerini öne sürdü.

Sektörel Şüpheler ve Gelecek

Modelin henüz geniş kitlelere açılmamış olması ve eğitim sürecinde mevcut açık kaynaklı modellerin ağırlıklarının (weights) kullanılmış olması, bazı uzmanlar tarafından eleştiriliyor. Bağımsız araştırmacı Will Depue, şirketin sunduğu kanıtların 'kuadratik darboğazı tamamen çözdük' iddiasını doğrulamak için henüz yeterli olmadığını belirtiyor.

Subquadratic ekibi ise, sınırlı kaynaklara sahip yeni bir şirket olduklarını belirterek, gelecekte daha fazla doğrulama ve erişim imkanı sunacaklarını ifade ediyor. Şirket, bu yeni mimarinin uzun vadede büyük dil modellerinin inşa edilme biçimini değiştirebileceğine inanıyor.

Reklam Alanı - Yazı Sonu