Üst düzey bir Çin yapay zeka modeli ABD yaptırımlarını nasıl aştı?

Yapay Zeka Teknoloji Haberleri
Üst düzey bir Çin yapay zeka modeli ABD yaptırımlarını nasıl aştı?

ABD’nin çip yaptırımlarına rağmen DeepSeek, yenilikçi eğitim süreçleri ve düşük güçlü GPU’larla verimliliği artırarak R1 modelini geliştirmeyi başardı.

Yapay zeka topluluğu, Çinli girişim DeepSeek tarafından geliştirilen yeni bir açık kaynaklı akıl yürütme modeli olan DeepSeek R1 üzerine yoğun bir şekilde tartışıyor. DeepSeek, R1 modelinin OpenAI’nin ChatGPT o1’iyle birçok temel kriterde eşit olduğunu, hatta bazı alanlarda onu geride bıraktığını ve bunun çok daha düşük bir maliyetle gerçekleştirildiğini öne sürüyor.

Emory Üniversitesi’nde bilgi sistemleri alanında yardımcı doçent olan Hancheng Cao, bu yeniliğin özellikle sınırlı kaynaklara sahip araştırmacılar ve geliştiriciler için bir fırsat eşitliği yaratabileceğini ifade ediyor.

DeepSeek’in başarısı, ABD’nin ileri teknoloji çip ihracatına getirdiği sıkı kontrollerin Çinli yapay zeka şirketleri üzerindeki etkileri düşünüldüğünde daha da dikkat çekici hale geliyor. Ancak mevcut göstergeler, bu kısıtlamaların beklenen sonuçları doğurmadığını ortaya koyuyor. Yaptırımlar, Çin’in yapay zeka yeteneklerini engellemek yerine, DeepSeek gibi girişimleri kaynakların daha verimli kullanımı ve iş birliği odaklı yeniliklere yönlendirmiş gibi görünüyor.

DeepSeek, R1 modelini eğitirken, Nvidia’nın Çin pazarı için çıkardığı ve performanslarının sınırlı olduğu GPU’lardan kaynaklanan yükü hafifletmek adına eğitim süreçlerini optimize etmek zorunda kaldı. Northwestern Üniversitesi’nde doktora öğrencisi olan eski DeepSeek çalışanı Zihan Wang, bu süreçte yaşanan zorlukları detaylandırdı.

R1 modeli, özellikle matematik ve kodlama gibi karmaşık mantık problemlerinde üstün başarı göstermesi nedeniyle araştırmacılar tarafından övülüyor. Model, “düşünce zinciri” adı verilen bir yaklaşımı kullanarak problemleri adım adım çözme yeteneğiyle dikkat çekiyor.

Microsoft’un AI Frontiers araştırma laboratuvarının baş araştırmacısı Dimitris Papailiopoulos, R1 modelindeki mühendislik basitliğinin kendisini en çok etkileyen unsur olduğunu söylüyor. “DeepSeek, her aşamayı ayrıntılı bir şekilde işlemeye odaklanmaktansa, doğrudan doğru çözümler üretmeye odaklandı ve bu, yüksek verimlilikle hesaplama süresini kayda değer ölçüde azalttı” diyor.

DeepSeek ayrıca dizüstü bilgisayarlarda çalışabilecek kadar küçük olan altı farklı R1 sürümü daha yayınladı. Şirket, bu sürümlerden birinin belirli testlerde OpenAI’nin o1-mini modelini geçtiğini iddia ediyor. Perplexity CEO’su Aravind Srinivas, DeepSeek’in o1-mini’yi büyük ölçüde kopyaladığını ve açık kaynaklı hale getirdiğini öne sürüyor. Ancak DeepSeek, bu iddiayla ilgili yorum yapmadı.

DeepSeek’in kurucusu Liang Wenfeng, Zhejiang Üniversitesi’nde bilgi ve elektronik mühendisliği eğitimi aldıktan sonra 2023 yılında Hangzhou’da şirketi kurdu. Liang, daha önce 2015 yılında High-Flyer adlı bir hedge fonu kurmuştu. Şimdi ise OpenAI’nin CEO’su Sam Altman gibi yapay genel zeka (AGI) oluşturmayı hedefliyor.

Çinli medya kuruluşu LatePost’a göre, DeepSeek’in başarısının arkasında Liang’ın ileri görüşlülüğü bulunuyor. ABD yaptırımlarından önce Nvidia A100 çiplerinden büyük bir stok yapan Liang, bu kaynakları düşük güçlü çiplerle birleştirerek optimize edebilmiş. Bazı tahminlere göre şirketin stokunda 10.000 ile 50.000 arasında çip bulunuyor.

DeepSeek, dev teknoloji şirketleri Alibaba ve ByteDance’in domine ettiği bir pazarda ayakta kalmayı başaran nadir girişimlerden biri. Ayrıca dış yatırım almadan çalışmalarını sürdürmesiyle de farklılaşıyor.

Zihan Wang, DeepSeek’te çalıştığı dönemde bolca bilgi işlem kaynağına erişim imkânı olduğunu ve özgürce deneyler yapabildiğini belirtiyor. Bu, özellikle yeni mezunlar için nadir bir lüks.

Liang, Çinli şirketlerin yapay zeka mühendisliğinde verimsizliklerle karşı karşıya olduğunu kabul ediyor. Ancak ekibiyle birlikte, bellek kullanımı ve hesaplama hızında iyileştirmeler yaparak bu boşlukları kapatmaya çalıştıklarını ifade ediyor.

Çinli şirketler, son dönemde verimlilik kadar açık kaynak ilkelerine de önem vermeye başladı. Alibaba Cloud, 29 dili destekleyen ve kodlama ile matematik gibi alanlara yönelik 100’den fazla açık kaynaklı AI modeli yayımladı. Diğer girişimler de benzer şekilde modellerini açık kaynaklı hale getirdi.

Bu gelişmeler, Çin’in küresel yapay zeka yarışında ABD’nin ardından ikinci sırada yer almasını sağladı. Yapay zeka araştırmacısı Matt Sheehan, ABD’nin çip ihracatına getirdiği kısıtlamaların, Çinli şirketleri kaynakları daha verimli kullanmaya ittiğini söylüyor.

DeepSeek, bu baskılar altında bile inovasyon üretmeye devam eden bir örnek olarak dikkat çekiyor.