DeepSeek: Küçük Bir Çinli Yapay Zekâ Şirketi ABD’nin Teknoloji Devlerini Nasıl Sarsıyor

Çinli yapay zekâ (YZ) şirketi DeepSeek, OpenAI ve Anthropic gibi ABD merkezli şirketlerin en ileri düzey ürünleriyle rekabet edebilen son derece verimli YZ modellerini piyasaya sürerek teknoloji dünyasında büyük bir sarsıntı yarattı. 2023 yılında kurulan DeepSeek, rakiplerinin yalnızca küçük bir kısmı kadar sermaye ve hesaplama gücü kullanarak kayda değer sonuçlar elde etti.
Ocak 30, 2025
image_print

Çinli yapay zekâ (YZ) şirketi DeepSeek, OpenAI ve Anthropic gibi ABD merkezli şirketlerin en ileri düzey ürünleriyle rekabet edebilen son derece verimli YZ modellerini piyasaya sürerek teknoloji dünyasında büyük bir sarsıntı yarattı. 2023 yılında kurulan DeepSeek, rakiplerinin yalnızca küçük bir kısmı kadar sermaye ve hesaplama gücü kullanarak kayda değer sonuçlar elde etti.

 

Geçen hafta yayımlanan DeepSeek’in “akıl yürütme” modeli R1, araştırmacılar arasında heyecan, yatırımcılar arasında şaşkınlık ve yapay zekâ sektörünün ağır toplarından yanıtlar aldı. Şirket, 28 Ocak’ta yalnızca metinle değil, görsellerle de çalışabilen bir modelle bu atılımını sürdürdü.

Peki, DeepSeek ne yaptı ve bunu nasıl başardı?

DeepSeek Ne Yaptı?

Aralık ayında DeepSeek, V3 modelini piyasaya sürdü. Bu, OpenAI’nin GPT-4o ve Anthropic’in Claude 3.5 modelleriyle benzer seviyede performans gösteren son derece güçlü bir “standart” büyük dil modelidir.

Bu modeller hatalara açık olup bazen kendi gerçeklerini uydurabilse de, soru yanıtlama, makale yazma ve bilgisayar kodu üretme gibi görevleri başarıyla yerine getirebilir. Problem çözme ve matematiksel akıl yürütme testlerinde ise ortalama bir insandan daha yüksek puan alabilirler.

V3’ün eğitimi için yaklaşık 5,58 milyon ABD doları harcandığı bildiriliyor. Örneğin, geliştirilmesi 100 milyon ABD dolarından fazla maliyet gerektiren GPT-4 ile kıyaslandığında bu rakam oldukça düşüktür.

DeepSeek, V3 modelini eğitmek için yaklaşık 2.000 özel bilgisayar çipi kullandığını iddia ediyor. Özellikle NVIDIA tarafından üretilen H800 GPU’ları ile çalıştığını belirtiyor. Bu sayı, 16.000’e kadar daha güçlü H100 çipi kullanmış olabilecek diğer şirketlere kıyasla oldukça düşük.

20 Ocak’ta DeepSeek, R1 adını verdiği bir başka modeli piyasaya sürdü. Bu model, karmaşık problemleri adım adım çözmeye çalışan bir “akıl yürütme” modeli olarak tanımlanıyor. Bu tür modeller, okuduğunu anlama ve stratejik planlama gibi birden fazla iç içe geçmiş bileşene sahip ve bağlam gerektiren görevlerde daha başarılı görünüyor.

R1 modeli, V3’ün takviyeli öğrenme (reinforcement learning) adı verilen bir teknikle değiştirilmiş bir versiyonudur. R1’in, OpenAI’nin geçen yıl piyasaya sürdüğü o1 modeliyle benzer seviyede çalıştığı görülüyor.

DeepSeek, aynı tekniği kullanarak ev bilgisayarlarında çalışabilen küçük açık kaynaklı modellerin de “akıl yürütme” versiyonlarını geliştirdi.

Bu yeni modelin piyasaya sürülmesi, DeepSeek’e olan ilgiyi büyük ölçüde artırdı. V3 modeliyle çalışan sohbet botu uygulamasının popülerliği hızla yükseldi ve yatırımcıların yapay zekâ sektörünü yeniden değerlendirmesiyle teknoloji hisselerinde büyük bir değer kaybına neden oldu. Bu yazının yazıldığı sırada, çip üreticisi NVIDIA yaklaşık 600 milyar ABD doları değer kaybetmişti.

DeepSeek Bunu Nasıl Başardı?

DeepSeek’in atılımları, daha az kaynakla daha iyi sonuçlar elde etmeye odaklandı. Özellikle, DeepSeek’in geliştiricileri yapay zekâ araştırmacıları tarafından yaygın olarak benimsenebilecek iki önemli tekniğe öncülük etti.

Bunlardan ilki, “seyreklik” (sparsity) adı verilen matematiksel bir fikirle ilgilidir. Yapay zekâ modelleri, girdilere verdikleri yanıtları belirleyen çok sayıda parametreye sahiptir (V3’te yaklaşık 671 milyar parametre bulunur). Ancak, her bir girdi için bu parametrelerin yalnızca küçük bir kısmı kullanılır.

Ancak, hangi parametrelerin gerekli olacağını önceden tahmin etmek zordur. DeepSeek, bu tahmini yapabilmek için yeni bir teknik geliştirdi ve ardından yalnızca bu gerekli parametreleri eğitti. Bu sayede, modelleri geleneksel yöntemlere kıyasla çok daha az eğitim verisiyle geliştirilebildi.

Diğer yenilik ise, V3’ün bilgileri bilgisayar belleğinde nasıl sakladığıyla ilgilidir. DeepSeek, ilgili verileri sıkıştırmak için akıllı bir yöntem buldu. Bu sayede, veriler daha az yer kapladı ve çok daha hızlı erişilebilir hâle geldi.

Bunun Anlamı Ne?

DeepSeek’in modelleri ve geliştirdiği teknikler, ücretsiz MIT Lisansı altında yayımlandı. Bu, herkesin bu modelleri indirip değiştirebileceği anlamına geliyor.

Bu durum, güçlü ve serbestçe erişilebilen modellerin varlığı nedeniyle bazı yapay zekâ şirketleri için olumsuz bir gelişme olabilir, çünkü bu şirketlerin kâr marjlarını azaltabilir. Ancak geniş yapay zekâ araştırma topluluğu için oldukça olumlu bir haber.

Günümüzde birçok yapay zekâ araştırması, büyük miktarda hesaplama kaynağına erişim gerektiriyor. Üniversitelerde çalışan benim gibi araştırmacılar (veya büyük teknoloji şirketleri dışında çalışan diğerleri), testler ve deneyler yapma konusunda sınırlı imkânlara sahip.

Daha verimli modeller ve teknikler bu durumu değiştiriyor. Artık deney yapmak ve yeni modeller geliştirmek çok daha kolay hale gelebilir.

Tüketiciler için de yapay zekâya erişim daha ucuz olabilir. Daha fazla yapay zekâ modeli, abonelik ücreti karşılığında bulutta çalıştırılmak yerine, kullanıcıların dizüstü bilgisayarları veya telefonları gibi kendi cihazlarında çalıştırılabilir.

Zaten geniş kaynaklara sahip araştırmacılar için verimlilik artışının etkisi daha sınırlı olabilir. DeepSeek’in yaklaşımının genel olarak daha güçlü yapay zekâ modellerinin geliştirilmesine mi, yoksa yalnızca daha verimli modeller oluşturulmasına mı yol açacağı henüz net değil.

 

* Tongliang Liu, Sidney Üniversitesi’nde Makine Öğrenimi Doçenti ve SidneyYapay Zekâ Merkezi Direktörüdür.

 

Kaynak: https://theconversation.com/deepseek-how-a-small-chinese-ai-company-is-shaking-up-us-tech-heavyweights-248434