DeepSeek nedir? Rakibi ChatGPT İle Kısa Bir Karşılaştırılması
Çin yapımı büyük bir dil modeli olan DeepSeek-R1, bilim insanlarını heyecanlandırıyor çünkü OpenAI'nin o1 gibi "akıl yürütme" modellerine kıyasla daha uygun maliyetli ve açık bir rakip olarak öne çıkıyor.
Bu modeller, insan mantığına
benzer bir süreçle adım adım yanıtlar üretiyor. Bu, onları bilimsel problemleri
çözmede önceki dil modellerinden daha yetenekli hale getiriyor ve
araştırmalarda kullanışlı olabileceklerini gösteriyor. 20 Ocak'ta yayınlanan R1'in
ilk testleri, kimya, matematik ve kodlama gibi belirli görevlerdeki
performansının, Eylül ayında OpenAI tarafından piyasaya sürüldüğünde
araştırmacıları hayrete düşüren o1 ile aynı seviyede olduğunu
gösteriyor.
"Bu inanılmaz ve tamamen
beklenmedik bir gelişme," diyor Birleşik Krallık merkezli AI danışmanlık
firması DAIR.AI'nin kurucu ortağı ve yapay zeka araştırmacısı Elvis
Saravia, X (eski adıyla Twitter) üzerinden yaptığı bir paylaşımda.
R1, başka bir nedenle de
dikkat çekiyor. Modeli geliştiren Hangzhou merkezli girişim DeepSeek,
bu modeli 'açık ağırlıklı' (open-weight) olarak yayınladı. Bu,
araştırmacıların algoritmayı inceleyebileceği ve üzerine inşa edebileceği
anlamına geliyor. MIT lisansı altında yayınlanan model, serbestçe yeniden
kullanılabilir ancak tam anlamıyla açık kaynak olarak kabul edilmiyor çünkü
eğitim verileri kamuya açıklanmadı.
"DeepSeek'in açıklığı oldukça dikkat çekici," diyor Almanya'daki Max Planck Işık Bilimi Enstitüsü'ndeki Yapay Bilimci Laboratuvarı'nın lideri Mario Krenn. Karşılaştırıldığında, California, San Francisco merkezli OpenAI tarafından geliştirilen o1 ve en son çalışmaları olan o3 gibi diğer modeller "esasen kara kutular" olarak nitelendiriliyor.
DeepSeek, R1'in
eğitiminin tam maliyetini açıklamadı, ancak kullanıcılardan o1'in
çalıştırma maliyetinin yaklaşık otuzda birini talep ediyor. Şirket ayrıca,
sınırlı bilgi işlem gücüne sahip araştırmacıların modelle deney yapabilmesi
için R1'in mini 'damıtılmış' sürümlerini de geliştirdi. Mario
Krenn, "o1 ile 300 sterlinden fazla maliyeti olan bir
deney, R1 ile 10 dolardan daha az maliyetle
gerçekleştirilebiliyor," diyor. "Bu, gelecekteki benimsenmesinde
kesinlikle rol oynayacak olan çarpıcı bir fark."
Meydan Okuyan Modeller
R1, Çin'deki büyük dil
modelleri (LLM) patlamasının bir parçasıdır. Bir hedge fonundan türeyen DeepSeek,
geçen ay göreceli bir belirsizlikten sıyrılarak, kısıtlı bir bütçeyle inşa
edilmesine rağmen büyük rakiplerini geride bırakan V3 adlı bir
sohbet robotu yayınladı. Uzmanlar, modeli eğitmek için gereken donanımı
kiralamanın yaklaşık 6 milyon dolara mal olduğunu tahmin ediyor; bu, 11 kat
daha fazla bilgi işlem kaynağı kullanan Meta'nın Llama 3.1
405B modeli için 60 milyon doların üzerinde bir maliyete kıyasla
oldukça düşük bir rakam.
DeepSeek etrafındaki
söylentilerin bir kısmı, Çinli firmaların yapay zeka işleme için tasarlanmış en
iyi bilgisayar çiplerine erişimini sınırlayan ABD ihracat kontrollerine
rağmen R1'i geliştirmeyi başarmış olmasıdır. Washington,
Seattle'daki bir yapay zeka araştırmacısı olan François Chollet,
"Çin'den çıkması, kaynaklarınızı verimli bir şekilde kullanmanın, yalnızca
hesaplama ölçeğinden daha önemli olduğunu gösteriyor," diyor.
DeepSeek'in ilerlemesi,
"ABD'nin bir zamanlar sahip olduğu algılanan liderliğin önemli ölçüde
daraldığını" öne sürüyor. Tayvan merkezli sürükleyici teknoloji
firması HTC'de çalışan ve Washington, Bellevue'de bir teknoloji
uzmanı olan Alvin Wang Graylin, X üzerinde yazdığı bir gönderide
şunları söyledi: "İki ülkenin, mevcut kazan-kazan silahlanma yarışı
yaklaşımına devam etmek yerine, gelişmiş yapay zekâ inşa etmek için iş birlikçi
bir yaklaşım benimsemesi gerekiyor."
Düşünce Zinciri
Büyük dil modelleri (LLM'ler),
milyarlarca metin örneği üzerinde eğitim alır, bu metinleri 'token' adı verilen
kelime parçalarına ayırır ve verilerdeki kalıpları öğrenir. Bu ilişkiler,
modelin bir cümledeki sonraki token'ları tahmin etmesini sağlar. Ancak LLM'ler,
gerçekleri uydurmaya (halüsinasyon adı verilen bir olguya) eğilimlidir ve
genellikle sorunları akıl yürütmekte zorlanırlar.
o1 gibi, R1 de
bazen geri dönüp yaklaşımını değerlendirmek de dahil olmak üzere, bir LLM'nin
daha karmaşık görevleri çözme yeteneğini geliştirmek için bir 'düşünce zinciri'
yöntemi kullanır. DeepSeek, modeli doğru bir cevaba ulaştığı ve
sorunları 'düşüncesini' ana hatlarıyla belirten bir şekilde çözdüğü için
ödüllendiren takviyeli öğrenme yöntemini kullanarak V3'ü
'ince ayarlayarak' R1'i geliştirdi.
Sınırlı bilgi işlem gücüne sahip olmak, şirketi
"algoritmik olarak yenilik yapmaya" yöneltti, diyor Birleşik
Krallık'taki Edinburgh Üniversitesi'nden yapay zeka araştırmacısı Wenda
Li. Takviyeli öğrenme sırasında ekip, modelin ilerlemesini her aşamada
tahmin etti ve ayrı bir ağ kullanarak değerlendirmek yerine bu yöntemi
benimsedi. Bu, eğitim ve çalıştırma maliyetlerini düşürmeye yardımcı oldu,
diyor Cambridge Üniversitesi'nden bilgisayar bilimcisi Mateja Jamnik.
Araştırmacılar ayrıca, modelin yalnızca her görev için ilgili olan kısımlarını
etkinleştirmesine olanak tanıyan bir 'uzmanlar karışımı' (mixture-of-experts)
mimarisi kullandı.
Modelle birlikte yayınlanan bir teknik raporda bildirilen
kıyaslama testlerinde, DeepSeek-R1, OpenAI tarafından
oluşturulan MATH-500 matematik problem setinde %97,3 puan aldı
ve Codeforces yarışmasında insan katılımcıların %96,3'ünden
daha iyi performans gösterdi. Bu sonuçlar, o1'in yetenekleriyle
aynı seviyede; o3 ise karşılaştırmalara dahil edilmedi (bkz.
'AI Rakipleri').
Kıyaslama testlerinin bir modelin gerçek akıl yürütme veya
genelleme yeteneğini mi yoksa yalnızca bu tür testleri geçme becerisini mi
ölçtüğünü söylemek zor. Ancak R1 açık bir model olduğu için,
düşünce zinciri araştırmacılar tarafından erişilebilir durumda, diyor Cambridge
Üniversitesi'nden bilgisayar bilimcisi Marco Dos Santos. "Bu,
modelin akıl yürütme süreçlerinin daha iyi yorumlanabilmesine olanak
tanıyor," diye ekliyor.
Bilim insanları şimdiden R1'in yeteneklerini
test ediyor. Krenn, her iki rakip modeli de 3.000 araştırma fikrini
ne kadar ilginç olduklarına göre sıralamaya zorladı ve sonuçları insanlar
tarafından yapılan sıralamalarla karşılaştırdı. Bu ölçütte, R1, o1'e
kıyasla biraz daha düşük performans gösterdi. Ancak Krenn, R1'in
kuantum optiği alanındaki belirli hesaplamalarda o1'i geride
bıraktığını söylüyor. "Bu oldukça etkileyici."
DeepSeek ve ChatGPT Karşılaştırması (Buradan sonrası çeviri kapsamında değildir!)
Burada ikişer soru sorarak cevaplandırma adımlarını
inceledik:
32. BİLİM OLİMPİYATLARI 2024 BİRİNCİ AŞAMA SINAVI 92. SORU (BİYOLOJİ)
Bir ormandaki sincap popülasyonunun ne kadar büyük olduğunu
belirlemeye çalışıyorsunuz. 75 sincap işaretleyip ormana geri bırakıyorsunuz.
Bir süre sonra 100 tane sincap yakaladığınızda yalnızca 3'ünün işaretli
olduğunu görürsünüz. Ormandaki sincap popülasyonu yaklaşık olarak kaçtır?
A) 500
B) 1000
C) 1500
D) 2000
E) 2500
DeepSeek
ChatGPT
32. BİLİM OLİMPİYATLARI 2024 BİRİNCİ AŞAMA SINAVI 12. SORU (MATEMATİK)
5 x 5 bir satranç tahtasının 5 birim karesine birer bilye
yerleştirilecektir. Bu yerleştirme, herhangi bir satır ile herhangi bir sütunun
birleşiminde en az bir bilye bulunması koşuluyla kaç farklı şekilde
yapılabilir?
A) 5760
B) 5870
C) 5940
D) 6050
E) 6130
DeepSeek
ChatGPT (uzun çözüm isteyiniz!!)
Çeviri Kaynak: Nature
Yorumlar
Yorum Gönder