AI alanında birçok aktör ortaya çıkıyor, yüzlerce model savaşı tüm hızıyla devam ediyor
Geçen ay, AI dünyasında bir "hayvanlar savaşı" patlak verdi.
Meta'nın sunduğu Llama, açık kaynak özellikleri sayesinde geliştiriciler arasında büyük beğeni topladı. Japon NEC, Llama'nın makalesini ve kodunu inceledikten sonra hızla Japonca ChatGPT versiyonunu geliştirerek Japonya'daki yapay zeka gelişimindeki engelleri aşmış oldu.
Diğer taraf, Falcon adı verilen büyük bir modeldir. Mayıs ayında tanıtılan Falcon-40B, Llama'yı geride bırakarak açık kaynak LLM sıralamasında zirveye yerleşti. Bu sıralama, açık kaynak model topluluğu tarafından hazırlanmakta olup, LLM yetenek değerlendirme standartlarını ve sıralamaları sunmaktadır. Sıralama genellikle Llama ve Falcon tarafından sırasıyla domine edilmektedir.
Llama 2'nin piyasaya sürülmesinin ardından lama ailesi öne geçti, ancak Eylül başında Falcon 180B versiyonunu çıkararak tekrar şampiyon oldu.
İlginçtir ki, Falcon'un geliştiricisi Birleşik Arap Emirlikleri'nin başkenti Abu Dabi'deki Teknoloji İnovasyon Araştırma Enstitüsü'dür. Hükümet yetkilileri, bu alana dahil olmalarının temel oyuncuları alt üst etmek için olduğunu belirtti.
180B versiyonu yayınlandıktan sonraki gün, BAE Yapay Zeka Bakanı "Time dergisi"nin "Yapay Zeka alanındaki en etkili 100 kişi" listesine, "Yapay Zeka babası" Hinton ve OpenAI'den Altman gibi isimlerle birlikte girdi.
Bugün, AI alanı birçok farklı yaklaşımın ortaya çıktığı bir aşamaya girmiştir. Güçlü ülkeler ve şirketler kendi büyük modellerini oluşturmak için yarışıyorlar. Sadece Körfez ülkeleri arasında birden fazla oyuncu var, Ağustos ayında Suudi Arabistan, yerel üniversiteler için 3000'den fazla H100 satın aldı ve LLM eğitimi için kullanıyor.
Bir yatırımcı şunları söyledi: "O zamanlar internetin ticari model yeniliklerini küçümsemiştim, bir engel olmadığını düşünmüştüm; fakat sert teknoloji büyük model girişimi hala yüzlerce model savaşına sahne oluyor..."
Başlangıçta yüksek zorlukta bir sert teknoloji olarak düşünülen şey, nasıl oluyor da herkesin yapabileceği bir şeye dönüştü?
Transformer, AI devrimini yönlendiriyor
Amerikan girişimleri, Çinli teknoloji devleri ve Orta Doğu petrol zenginleri, büyük model alanına girebiliyorsa, bunun nedeni o ünlü makale "Attention Is All You Need".
2017 yılında, 8 Google bilgisayar bilimcisi bu makalede Transformer algoritmasını açıkladı. Bu makale, AI tarihindeki en çok atıf yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı bu AI dalgasını tetiklemiştir.
Şu anda, dünyayı sarsan GPT serisi de dahil olmak üzere tüm büyük modeller, Transformer temeli üzerine inşa edilmiştir.
Bundan önce, "makineleri okumayı öğretmek" kabul görmüş bir akademik zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken yalnızca mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da anlayarak yorumlar.
Erken sinir ağları girdi verileri birbirinden bağımsızdı, uzun metinleri veya hatta bir bütün makaleyi anlayamıyordu, bu da "开水间" ifadesinin "open water room" olarak çevrilmesi gibi sorunlara yol açıyordu.
2014 yılında, Google'daki işinden ayrılarak OpenAI'ye geçen bilgisayar bilimcisi Ilya, ilk büyük başarısını elde etti. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını rakiplerinin çok önüne geçirdi.
RNN, her nöronunu hem mevcut hem de önceki zaman dilimindeki giriş bilgilerini alacak şekilde "döngüsel tasarım" önerir ve sinir ağına "bağlamı birleştirme" yeteneği kazandırır.
RNN, akademik dünyada araştırma hevesini ateşledi, Transformer makalesinin yazarı Şazel de derinlemesine araştırmalar yaptı. Ancak geliştiriciler kısa sürede RNN'nin ciddi kusurlara sahip olduğunu keşfetti:
Bu algoritma sıralı hesaplama kullanır, bu bağlam sorununu çözmesine rağmen, çalışma verimliliği düşüktür ve çok sayıda parametreyi işlemek zordur.
RNN'nin karmaşık tasarımı, çok geçmeden Shazelle'i rahatsız etti. Bu nedenle 2015'ten itibaren, Shazelle ve yedi benzer fikirdeki kişi RNN alternatifleri geliştirmeye başladılar ve nihayetinde sonuç Transformer oldu.
RNN'e kıyasla, Transformer'ın iki büyük devrimi var:
Birincisi, döngü tasarımını konum kodlaması ile değiştirmek, paralel hesaplama sağlamak, eğitim verimliliğini büyük ölçüde artırmak ve AI'nın büyük verileri işleyebilmesini sağlamak, büyük model çağına girmesi; ikincisi, bağlam yeteneğini daha da güçlendirmektir.
Transformer birçok eksikliği tek seferde çözerek, NLP'nin vazgeçilmez tercihi haline geldi. Sanki "Transformer olmasaydı, NLP sonsuz bir gece gibi olurdu" hissi veriyor. Hatta İlya, kendi övgüyle bahsettiği RNN'i bir kenara bırakarak Transformer'a yöneldi.
Diyebiliriz ki, Transformer günümüzdeki tüm büyük modellerin öncüsüdür, büyük modelleri teorik araştırmadan saf mühendislik sorununa dönüştürmüştür.
2019'da, OpenAI Transformer tabanlı GPT-2'yi geliştirerek akademik dünyayı şaşırttı. Google hızla yanıt vererek daha güçlü bir AI - Meena - tanıttı.
Meena, GPT-2'ye kıyasla algoritmik bir yenilik sunmuyor, sadece parametre sayısı 8.5 kat, hesaplama gücü ise 14 kat arttı. Transformer yazarlarından Şazelle, bu tür "şiddetli yığınlama" karşısında büyük bir şaşkınlık yaşadı ve "Meena dünyayı yutuyor" başlıklı bir not yazdı.
Transformer'ın ortaya çıkmasından sonra, akademik camiada temel algoritma yeniliklerinin hızı büyük ölçüde yavaşladı. Veri mühendisliği, hesaplama gücü ölçeği, model mimarisi gibi mühendislik unsurları giderek AI yarışlarının anahtarı haline geldi, yeterli teknik beceriye sahip teknoloji şirketleri büyük modeller geliştirebiliyor.
Bu nedenle, bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde yaptığı konuşmada şunları belirtti: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şimdi de üretken yapay zeka dahil olmak üzere bir dizi aracın bir araya gelmesidir. Bunlar, elektrik ve internet gibi diğer genel teknolojilerle benzerlik gösteren genel teknolojilerdir."
OpenAI hâlâ LLM rüzgâr ölçütü olsa da, yarı iletken analiz kuruluşları, GPT-4'ün rekabet gücünün mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip hızla kopyalayabilir.
Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 performansına eşdeğer büyük modeller geliştirebileceğini öngörüyor.
Zayıf Surlar
Artık "Bai Mo Savaşı" nesnel bir gerçek haline geldi.
İlgili raporlar, bu yılın Temmuz ayı itibarıyla yurt içinde büyük model sayısının 130'a ulaştığını ve ABD'nin 114'ünü geçtiğini, başarılı bir şekilde yolda hızlı geçiş yaptığını göstermektedir. Çeşitli efsaneler, artık yerli teknoloji şirketlerinin isimlendirmesi için yeterli olmamaktadır.
Çin ve ABD dışında, birçok zengin ülke de "bir ülke bir model" ilkesini ilk aşamada gerçekleştirmiştir: Japonya ve Birleşik Arap Emirlikleri'nin yanı sıra, Hindistan hükümetinin öncülük ettiği Bhashini, Güney Koreli internet şirketi Naver tarafından geliştirilen HyperClova X gibi projeler de bulunmaktadır.
Bu durum, sanki internetin keşif dönemine geri dönmüş gibi, her yerde balonlar ve "nakit yeteneği" karşıtlığı var.
Daha önce de belirtildiği gibi, Transformer büyük modelleri saf mühendislik sorununa dönüştürüyor; yeter ki birinin parası ve ekran kartı olsun, geriye kalan her şey parametrelerle ilgilidir. Ancak, alana girmek kolay olsa da, bu herkesin AI çağının devlerinden biri olacağı anlamına gelmiyor.
Başlangıçta bahsedilen "Hayvanlar Savaşı" tipik bir örnektir: Falcon, alpakanın sıralamasını geçmesine rağmen, Meta üzerinde ne kadar büyük bir etki yarattığını söylemek zordur.
Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak yaparak hem topluma teknolojik faydaları paylaşmayı hem de halkın zekasını harekete geçirmeyi umuyorlar. Çeşitli üniversitelerin profesörleri, araştırma kurumları ve KOBİ'ler Llama'yı derinlemesine kullanıp geliştirdikçe, Meta bu sonuçları kendi ürünlerinde uygulayabilir.
Açık kaynak büyük modeller için, aktif geliştirici topluluğu temel rekabet avantajıdır.
Meta, 2015 yılında AI laboratuvarını kurduğunda açık kaynak yolunu belirlemişti; Zuckerberg ise sosyal medyadan doğarak daha iyi "kamu ilişkilerini yönetme" yeteneğine sahip.
Örneğin Ekim ayında, Meta özel bir "Yapay Zeka Tabanlı Yaratıcı Teşvik" etkinliği düzenledi: Llama 2'yi eğitim, çevre gibi sosyal sorunları çözmek için kullanan geliştiriciler, 500.000 dolar hibe alma şansına sahip olacak.
Artık Meta'nın Llama serisi, açık kaynak LLM'lerin bir mihenk taşı haline geldi.
Ekim ayının başı itibarıyla, popüler açık kaynak LLM sıralamasında ilk 10'da 8 tanesi Llama 2 tabanlı olup, hepsi açık kaynak lisansını kullanmaktadır. Sadece bir platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü aşmıştır.
Elbette, Falcon gibi performansı artırmak da mümkün, ancak şu anda çoğu LLM'nin GPT-4 ile hala belirgin bir farkı var.
Örneğin, kısa bir süre önce, GPT-4, 4.41 puanla AgentBench testinde zirveye ulaştı. AgentBench, Tsinghua Üniversitesi ile Ohio Eyalet Üniversitesi ve Kaliforniya Üniversitesi, Berkeley tarafından ortaklaşa sunulmuştur ve LLM’nin çok boyutlu açık üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılmaktadır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşı gibi 8 farklı ortamda görevleri içermektedir.
Test sonuçları, ikinci olan Claude'un sadece 2.77 puan aldığını ve aranın belirgin olduğunu gösteriyor. O geniş çaplı açık kaynak LLM'lere gelince, test sonuçları genellikle 1 puan civarında, GPT-4'ün 1/4'ünden bile az.
Şunu bilmek gerekir ki, GPT-4 bu yıl mart ayında piyasaya sürüldü ve bu, dünya genelindeki rakiplerinin yarım yıldan fazla bir süre sonra ulaştığı bir sonuç. Bu farkı yaratan, OpenAI'nin yüksek seviyedeki bilim insanları ekibi ve LLM üzerindeki uzun süreli araştırmaların birikimidir; bu nedenle her zaman ön planda olmaktadır.
Yani, büyük modellerin temel yeteneği parametreler değil, ekosistem inşası ( açık kaynak ) veya tamamen çıkarım yeteneği ( kapalı kaynak ).
Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle birlikte, her LLM'nin performansı benzer model mimarileri ve veri setleri kullanıldığı için benzeşebilir.
Bir diğer daha somut sorun şu: Midjourney dışında, görünüşe göre başka bir büyük model para kazanamıyor.
Değer Referansı Nerede
Bu yılın Ağustos ayında, "OpenAI 2024 yılının sonunda iflas edebilir" başlıklı bir makale dikkat çekti. Makalenin ana fikri neredeyse tek bir cümle ile özetlenebilir: OpenAI'nin para yakma hızı çok fazla.
Yazıda, ChatGPT'yi geliştirmeye başladığından beri OpenAI'nin zararının hızla büyüdüğü, yalnızca 2022 yılında yaklaşık 540 milyon dolar zarar ettiği ve yatırımcıların faturayı ödemesini beklemek zorunda olduğu belirtiliyor.
Makale başlığı abartılı olsa da, birçok büyük model sağlayıcısının durumunu da ortaya koyuyor: maliyetler ve gelirler ciddi şekilde dengesiz.
Aşırı yüksek maliyetler, şu anda AI ile büyük para kazananların yalnızca NVIDIA olduğunu, en fazla bir de Broadcom'un eklendiğini gösteriyor.
Danışmanlık şirketlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 satışı gerçekleştirdi. Bu, yapay zeka verimliliğini artırmak için son derece etkili bir AI çipidir ve dünya çapındaki teknoloji şirketleri ile araştırma kurumları tarafından kapış kapış alınıyor. Satılan 300.000 H100'ü üst üste koyarsanız, ağırlığı 4.5 Boeing 747 uçağına eşdeğerdir.
NVIDIA'nin performansı hızla yükseldi, yıllık gelir %854 oranında artarak Wall Street'i şok etti. Ayrıca, şu anda H100'ün ikinci el piyasada fiyatı 40-50 bin dolar seviyelerine çıkarken, malzeme maliyeti yalnızca 3000 dolar civarında.
Yüksek hesaplama gücü maliyetleri, bir dereceye kadar sektörün gelişiminde bir engel haline gelmiştir. Sequoia Capital, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşaatı için 200 milyar dolar harcaması bekleniyor; buna karşılık, büyük modeller her yıl en fazla 75 milyar dolar gelir üretebiliyor, bu da en az 125 milyar dolarlık bir açık olduğu anlamına geliyor.
Bunun yanı sıra, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük maliyetler ödedikten sonra nasıl kar edeceklerini henüz düşünemedi. Özellikle sektörün iki büyük lideri Microsoft ve Adobe biraz tökezliyor.
Microsoft ve OpenAI, AI kod oluşturma aracı GitHub Copilot'u geliştirmek için iş birliği yaptı. Her ne kadar aylık 10 dolar ücret alsa da, tesis maliyetleri nedeniyle Microsoft her ay 20 dolar zarar ediyor. Aşırı kullanıcılar, Microsoft'un her ay 80 dolar zarar etmesine neden olabiliyor. Bu nedenle, fiyatı 30 dolar olan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.
Aynı şekilde, yeni Firefly AI aracını tanıtan Adobe, kullanıcıların aşırı kullanımının şirketin zarar etmesine neden olmasını önlemek için hızla bir puan sistemi başlattı. Kullanıcılar aylık tahsis edilen puanları aştığında, Adobe hizmet hızını düşürecek.
Microsoft ve Adobe'nin net iş senaryolarına sahip, çok sayıda ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek gerekir. Ancak, parametre yığınlarıyla dolu olan çoğu büyük modelin en büyük uygulama alanı hala sohbet.
Kabul edilmelidir ki, eğer OpenAI ve ChatGPT ortaya çıkmasaydı, bu AI devrimi muhtemelen hiç yaşanmayacaktı; ancak şu anda, büyük modellerin eğitilmesinin sağladığı değer henüz tartışmaya açık görünüyor.
Ayrıca, homojen rekabetin arttığı ve piyasada açık kaynak modellerinin sayısının çoğaldığı bir ortamda, yalnızca büyük model tedarikçilerinin yaşam alanı daha da kısıtlanabilir.
iPhone 4'ün başarısı 45nm üretim sürecine sahip A4 işlemcisinden değil, bitkilerle zombi savaşları ve öfkeli kuşlar oynayabilmesinden kaynaklanıyor.
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
16 Likes
Reward
16
8
Share
Comment
0/400
HalfBuddhaMoney
· 8h ago
Paranın olması harika, benzin fiyatını kendim belirliyorum.
View OriginalReply0
LayerZeroEnjoyer
· 17h ago
Alpaka kaybetti, ne yazık ki.
View OriginalReply0
LiquidityHunter
· 07-10 11:22
Meğerse petrol zengini de büyük modellerle oynuyor.
View OriginalReply0
RetiredMiner
· 07-10 11:22
Bunları yapmak sadece eğlenmek için. Sonuçta, bu hala Emiciler Tarafından Oyuna Getirilmek.
View OriginalReply0
rekt_but_vibing
· 07-10 11:17
Yine emiciler tarafından oyuna getirilmek için yeni bir fırsat geldi.
View OriginalReply0
QuorumVoter
· 07-10 11:12
Birleşik Arap Emirlikleri de AI'yi mi sardı?
View OriginalReply0
just_here_for_vibes
· 07-10 11:01
Birleşik Arap Emirlikleri oldukça vahşi bir şey yapıyor.
View OriginalReply0
Frontrunner
· 07-10 10:54
Hayvanlar savaşı bitti, en sona kim ulaşacak bir bakalım.
Yapay Zeka Büyük Modelleri Çeşitlilik Gösteriyor: Koruma Çukuru ve Karlılık Sorunlarına Dikkat
AI alanında birçok aktör ortaya çıkıyor, yüzlerce model savaşı tüm hızıyla devam ediyor
Geçen ay, AI dünyasında bir "hayvanlar savaşı" patlak verdi.
Meta'nın sunduğu Llama, açık kaynak özellikleri sayesinde geliştiriciler arasında büyük beğeni topladı. Japon NEC, Llama'nın makalesini ve kodunu inceledikten sonra hızla Japonca ChatGPT versiyonunu geliştirerek Japonya'daki yapay zeka gelişimindeki engelleri aşmış oldu.
Diğer taraf, Falcon adı verilen büyük bir modeldir. Mayıs ayında tanıtılan Falcon-40B, Llama'yı geride bırakarak açık kaynak LLM sıralamasında zirveye yerleşti. Bu sıralama, açık kaynak model topluluğu tarafından hazırlanmakta olup, LLM yetenek değerlendirme standartlarını ve sıralamaları sunmaktadır. Sıralama genellikle Llama ve Falcon tarafından sırasıyla domine edilmektedir.
Llama 2'nin piyasaya sürülmesinin ardından lama ailesi öne geçti, ancak Eylül başında Falcon 180B versiyonunu çıkararak tekrar şampiyon oldu.
İlginçtir ki, Falcon'un geliştiricisi Birleşik Arap Emirlikleri'nin başkenti Abu Dabi'deki Teknoloji İnovasyon Araştırma Enstitüsü'dür. Hükümet yetkilileri, bu alana dahil olmalarının temel oyuncuları alt üst etmek için olduğunu belirtti.
180B versiyonu yayınlandıktan sonraki gün, BAE Yapay Zeka Bakanı "Time dergisi"nin "Yapay Zeka alanındaki en etkili 100 kişi" listesine, "Yapay Zeka babası" Hinton ve OpenAI'den Altman gibi isimlerle birlikte girdi.
Bugün, AI alanı birçok farklı yaklaşımın ortaya çıktığı bir aşamaya girmiştir. Güçlü ülkeler ve şirketler kendi büyük modellerini oluşturmak için yarışıyorlar. Sadece Körfez ülkeleri arasında birden fazla oyuncu var, Ağustos ayında Suudi Arabistan, yerel üniversiteler için 3000'den fazla H100 satın aldı ve LLM eğitimi için kullanıyor.
Bir yatırımcı şunları söyledi: "O zamanlar internetin ticari model yeniliklerini küçümsemiştim, bir engel olmadığını düşünmüştüm; fakat sert teknoloji büyük model girişimi hala yüzlerce model savaşına sahne oluyor..."
Başlangıçta yüksek zorlukta bir sert teknoloji olarak düşünülen şey, nasıl oluyor da herkesin yapabileceği bir şeye dönüştü?
Transformer, AI devrimini yönlendiriyor
Amerikan girişimleri, Çinli teknoloji devleri ve Orta Doğu petrol zenginleri, büyük model alanına girebiliyorsa, bunun nedeni o ünlü makale "Attention Is All You Need".
2017 yılında, 8 Google bilgisayar bilimcisi bu makalede Transformer algoritmasını açıkladı. Bu makale, AI tarihindeki en çok atıf yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı bu AI dalgasını tetiklemiştir.
Şu anda, dünyayı sarsan GPT serisi de dahil olmak üzere tüm büyük modeller, Transformer temeli üzerine inşa edilmiştir.
Bundan önce, "makineleri okumayı öğretmek" kabul görmüş bir akademik zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken yalnızca mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da anlayarak yorumlar.
Erken sinir ağları girdi verileri birbirinden bağımsızdı, uzun metinleri veya hatta bir bütün makaleyi anlayamıyordu, bu da "开水间" ifadesinin "open water room" olarak çevrilmesi gibi sorunlara yol açıyordu.
2014 yılında, Google'daki işinden ayrılarak OpenAI'ye geçen bilgisayar bilimcisi Ilya, ilk büyük başarısını elde etti. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını rakiplerinin çok önüne geçirdi.
RNN, her nöronunu hem mevcut hem de önceki zaman dilimindeki giriş bilgilerini alacak şekilde "döngüsel tasarım" önerir ve sinir ağına "bağlamı birleştirme" yeteneği kazandırır.
RNN, akademik dünyada araştırma hevesini ateşledi, Transformer makalesinin yazarı Şazel de derinlemesine araştırmalar yaptı. Ancak geliştiriciler kısa sürede RNN'nin ciddi kusurlara sahip olduğunu keşfetti:
Bu algoritma sıralı hesaplama kullanır, bu bağlam sorununu çözmesine rağmen, çalışma verimliliği düşüktür ve çok sayıda parametreyi işlemek zordur.
RNN'nin karmaşık tasarımı, çok geçmeden Shazelle'i rahatsız etti. Bu nedenle 2015'ten itibaren, Shazelle ve yedi benzer fikirdeki kişi RNN alternatifleri geliştirmeye başladılar ve nihayetinde sonuç Transformer oldu.
RNN'e kıyasla, Transformer'ın iki büyük devrimi var:
Birincisi, döngü tasarımını konum kodlaması ile değiştirmek, paralel hesaplama sağlamak, eğitim verimliliğini büyük ölçüde artırmak ve AI'nın büyük verileri işleyebilmesini sağlamak, büyük model çağına girmesi; ikincisi, bağlam yeteneğini daha da güçlendirmektir.
Transformer birçok eksikliği tek seferde çözerek, NLP'nin vazgeçilmez tercihi haline geldi. Sanki "Transformer olmasaydı, NLP sonsuz bir gece gibi olurdu" hissi veriyor. Hatta İlya, kendi övgüyle bahsettiği RNN'i bir kenara bırakarak Transformer'a yöneldi.
Diyebiliriz ki, Transformer günümüzdeki tüm büyük modellerin öncüsüdür, büyük modelleri teorik araştırmadan saf mühendislik sorununa dönüştürmüştür.
2019'da, OpenAI Transformer tabanlı GPT-2'yi geliştirerek akademik dünyayı şaşırttı. Google hızla yanıt vererek daha güçlü bir AI - Meena - tanıttı.
Meena, GPT-2'ye kıyasla algoritmik bir yenilik sunmuyor, sadece parametre sayısı 8.5 kat, hesaplama gücü ise 14 kat arttı. Transformer yazarlarından Şazelle, bu tür "şiddetli yığınlama" karşısında büyük bir şaşkınlık yaşadı ve "Meena dünyayı yutuyor" başlıklı bir not yazdı.
Transformer'ın ortaya çıkmasından sonra, akademik camiada temel algoritma yeniliklerinin hızı büyük ölçüde yavaşladı. Veri mühendisliği, hesaplama gücü ölçeği, model mimarisi gibi mühendislik unsurları giderek AI yarışlarının anahtarı haline geldi, yeterli teknik beceriye sahip teknoloji şirketleri büyük modeller geliştirebiliyor.
Bu nedenle, bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde yaptığı konuşmada şunları belirtti: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şimdi de üretken yapay zeka dahil olmak üzere bir dizi aracın bir araya gelmesidir. Bunlar, elektrik ve internet gibi diğer genel teknolojilerle benzerlik gösteren genel teknolojilerdir."
OpenAI hâlâ LLM rüzgâr ölçütü olsa da, yarı iletken analiz kuruluşları, GPT-4'ün rekabet gücünün mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip hızla kopyalayabilir.
Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 performansına eşdeğer büyük modeller geliştirebileceğini öngörüyor.
Zayıf Surlar
Artık "Bai Mo Savaşı" nesnel bir gerçek haline geldi.
İlgili raporlar, bu yılın Temmuz ayı itibarıyla yurt içinde büyük model sayısının 130'a ulaştığını ve ABD'nin 114'ünü geçtiğini, başarılı bir şekilde yolda hızlı geçiş yaptığını göstermektedir. Çeşitli efsaneler, artık yerli teknoloji şirketlerinin isimlendirmesi için yeterli olmamaktadır.
Çin ve ABD dışında, birçok zengin ülke de "bir ülke bir model" ilkesini ilk aşamada gerçekleştirmiştir: Japonya ve Birleşik Arap Emirlikleri'nin yanı sıra, Hindistan hükümetinin öncülük ettiği Bhashini, Güney Koreli internet şirketi Naver tarafından geliştirilen HyperClova X gibi projeler de bulunmaktadır.
Bu durum, sanki internetin keşif dönemine geri dönmüş gibi, her yerde balonlar ve "nakit yeteneği" karşıtlığı var.
Daha önce de belirtildiği gibi, Transformer büyük modelleri saf mühendislik sorununa dönüştürüyor; yeter ki birinin parası ve ekran kartı olsun, geriye kalan her şey parametrelerle ilgilidir. Ancak, alana girmek kolay olsa da, bu herkesin AI çağının devlerinden biri olacağı anlamına gelmiyor.
Başlangıçta bahsedilen "Hayvanlar Savaşı" tipik bir örnektir: Falcon, alpakanın sıralamasını geçmesine rağmen, Meta üzerinde ne kadar büyük bir etki yarattığını söylemek zordur.
Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak yaparak hem topluma teknolojik faydaları paylaşmayı hem de halkın zekasını harekete geçirmeyi umuyorlar. Çeşitli üniversitelerin profesörleri, araştırma kurumları ve KOBİ'ler Llama'yı derinlemesine kullanıp geliştirdikçe, Meta bu sonuçları kendi ürünlerinde uygulayabilir.
Açık kaynak büyük modeller için, aktif geliştirici topluluğu temel rekabet avantajıdır.
Meta, 2015 yılında AI laboratuvarını kurduğunda açık kaynak yolunu belirlemişti; Zuckerberg ise sosyal medyadan doğarak daha iyi "kamu ilişkilerini yönetme" yeteneğine sahip.
Örneğin Ekim ayında, Meta özel bir "Yapay Zeka Tabanlı Yaratıcı Teşvik" etkinliği düzenledi: Llama 2'yi eğitim, çevre gibi sosyal sorunları çözmek için kullanan geliştiriciler, 500.000 dolar hibe alma şansına sahip olacak.
Artık Meta'nın Llama serisi, açık kaynak LLM'lerin bir mihenk taşı haline geldi.
Ekim ayının başı itibarıyla, popüler açık kaynak LLM sıralamasında ilk 10'da 8 tanesi Llama 2 tabanlı olup, hepsi açık kaynak lisansını kullanmaktadır. Sadece bir platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü aşmıştır.
Elbette, Falcon gibi performansı artırmak da mümkün, ancak şu anda çoğu LLM'nin GPT-4 ile hala belirgin bir farkı var.
Örneğin, kısa bir süre önce, GPT-4, 4.41 puanla AgentBench testinde zirveye ulaştı. AgentBench, Tsinghua Üniversitesi ile Ohio Eyalet Üniversitesi ve Kaliforniya Üniversitesi, Berkeley tarafından ortaklaşa sunulmuştur ve LLM’nin çok boyutlu açık üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılmaktadır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşı gibi 8 farklı ortamda görevleri içermektedir.
Test sonuçları, ikinci olan Claude'un sadece 2.77 puan aldığını ve aranın belirgin olduğunu gösteriyor. O geniş çaplı açık kaynak LLM'lere gelince, test sonuçları genellikle 1 puan civarında, GPT-4'ün 1/4'ünden bile az.
Şunu bilmek gerekir ki, GPT-4 bu yıl mart ayında piyasaya sürüldü ve bu, dünya genelindeki rakiplerinin yarım yıldan fazla bir süre sonra ulaştığı bir sonuç. Bu farkı yaratan, OpenAI'nin yüksek seviyedeki bilim insanları ekibi ve LLM üzerindeki uzun süreli araştırmaların birikimidir; bu nedenle her zaman ön planda olmaktadır.
Yani, büyük modellerin temel yeteneği parametreler değil, ekosistem inşası ( açık kaynak ) veya tamamen çıkarım yeteneği ( kapalı kaynak ).
Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle birlikte, her LLM'nin performansı benzer model mimarileri ve veri setleri kullanıldığı için benzeşebilir.
Bir diğer daha somut sorun şu: Midjourney dışında, görünüşe göre başka bir büyük model para kazanamıyor.
Değer Referansı Nerede
Bu yılın Ağustos ayında, "OpenAI 2024 yılının sonunda iflas edebilir" başlıklı bir makale dikkat çekti. Makalenin ana fikri neredeyse tek bir cümle ile özetlenebilir: OpenAI'nin para yakma hızı çok fazla.
Yazıda, ChatGPT'yi geliştirmeye başladığından beri OpenAI'nin zararının hızla büyüdüğü, yalnızca 2022 yılında yaklaşık 540 milyon dolar zarar ettiği ve yatırımcıların faturayı ödemesini beklemek zorunda olduğu belirtiliyor.
Makale başlığı abartılı olsa da, birçok büyük model sağlayıcısının durumunu da ortaya koyuyor: maliyetler ve gelirler ciddi şekilde dengesiz.
Aşırı yüksek maliyetler, şu anda AI ile büyük para kazananların yalnızca NVIDIA olduğunu, en fazla bir de Broadcom'un eklendiğini gösteriyor.
Danışmanlık şirketlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 satışı gerçekleştirdi. Bu, yapay zeka verimliliğini artırmak için son derece etkili bir AI çipidir ve dünya çapındaki teknoloji şirketleri ile araştırma kurumları tarafından kapış kapış alınıyor. Satılan 300.000 H100'ü üst üste koyarsanız, ağırlığı 4.5 Boeing 747 uçağına eşdeğerdir.
NVIDIA'nin performansı hızla yükseldi, yıllık gelir %854 oranında artarak Wall Street'i şok etti. Ayrıca, şu anda H100'ün ikinci el piyasada fiyatı 40-50 bin dolar seviyelerine çıkarken, malzeme maliyeti yalnızca 3000 dolar civarında.
Yüksek hesaplama gücü maliyetleri, bir dereceye kadar sektörün gelişiminde bir engel haline gelmiştir. Sequoia Capital, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşaatı için 200 milyar dolar harcaması bekleniyor; buna karşılık, büyük modeller her yıl en fazla 75 milyar dolar gelir üretebiliyor, bu da en az 125 milyar dolarlık bir açık olduğu anlamına geliyor.
Bunun yanı sıra, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük maliyetler ödedikten sonra nasıl kar edeceklerini henüz düşünemedi. Özellikle sektörün iki büyük lideri Microsoft ve Adobe biraz tökezliyor.
Microsoft ve OpenAI, AI kod oluşturma aracı GitHub Copilot'u geliştirmek için iş birliği yaptı. Her ne kadar aylık 10 dolar ücret alsa da, tesis maliyetleri nedeniyle Microsoft her ay 20 dolar zarar ediyor. Aşırı kullanıcılar, Microsoft'un her ay 80 dolar zarar etmesine neden olabiliyor. Bu nedenle, fiyatı 30 dolar olan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.
Aynı şekilde, yeni Firefly AI aracını tanıtan Adobe, kullanıcıların aşırı kullanımının şirketin zarar etmesine neden olmasını önlemek için hızla bir puan sistemi başlattı. Kullanıcılar aylık tahsis edilen puanları aştığında, Adobe hizmet hızını düşürecek.
Microsoft ve Adobe'nin net iş senaryolarına sahip, çok sayıda ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek gerekir. Ancak, parametre yığınlarıyla dolu olan çoğu büyük modelin en büyük uygulama alanı hala sohbet.
Kabul edilmelidir ki, eğer OpenAI ve ChatGPT ortaya çıkmasaydı, bu AI devrimi muhtemelen hiç yaşanmayacaktı; ancak şu anda, büyük modellerin eğitilmesinin sağladığı değer henüz tartışmaya açık görünüyor.
Ayrıca, homojen rekabetin arttığı ve piyasada açık kaynak modellerinin sayısının çoğaldığı bir ortamda, yalnızca büyük model tedarikçilerinin yaşam alanı daha da kısıtlanabilir.
iPhone 4'ün başarısı 45nm üretim sürecine sahip A4 işlemcisinden değil, bitkilerle zombi savaşları ve öfkeli kuşlar oynayabilmesinden kaynaklanıyor.