This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI大モデルが百花繚乱、城の堀と利益の困難を細かく見る
AI分野での群雄割拠、百のモデルの戦いが熾烈に繰り広げられている
先月、AIの世界で「動物の争い」が巻き起こりました。
Metaが発表したLlamaは、オープンソースの特性から開発者に広く支持されています。日本のNECはLlamaの論文とコードを研究した後、迅速に日本語版ChatGPTを開発し、日本のAIの発展のボトルネックを解決しました。
もう一方はFalconという大規模モデルです。5月に登場したFalcon-40Bは、Llamaを抑えてオープンソースLLMランキングの首位に立ちました。このランキングはオープンソースモデルコミュニティによって作成され、LLMの能力測定基準を提供し、順位付けを行っています。ランキングは基本的にLlamaとFalconが交互に主導しています。
Llama 2の発売後、ラマファミリーが逆転しましたが、9月初めにFalconが180Bバージョンを再びリリースしました。
興味深いことに、Falconの開発者はアラブ首長国連邦の首都アブダビにあるテクノロジー革新研究所です。政府関係者は、彼らがこの分野に関与しているのは、コアプレーヤーを覆すためだと述べています。
180Bバージョンのリリース翌日、アラブ首長国連邦の人工知能大臣が《タイム》誌の「AI分野で最も影響力のある100人」に選ばれ、「AIの父」ヒントンやOpenAIのアルトマンと共にランクインしました。
現在、AI分野は百花繚乱の段階に入っています。有力な国や企業が次々と自分たちの大規模モデルを構築しています。湾岸諸国の中でもプレイヤーは一つではなく、8月にはサウジアラビアが国内の大学向けに3000枚以上のH100を購入し、LLMのトレーニングに使用しました。
投資家が不満を漏らしたことがある:"当時、インターネットのビジネスモデルの革新を軽視し、バリアがないと思っていた;まさかハードテクノロジーの大モデル起業が、依然として百モデルの戦いになるとは..."
元々は難易度が高いと見なされていたハードテクノロジーが、どうして誰もが扱えるものになったのでしょうか?
トランスフォーマーがAI革命を先導する
アメリカのスタートアップ、中国のテクノロジー大手、中東の石油富豪が大規模モデルの分野に進出できるのは、あの有名な論文《Attention Is All You Need》のおかげです。
2017年、8人のGoogleのコンピュータ科学者がこの論文でTransformerアルゴリズムを公開しました。この論文はAIの歴史の中で3番目に引用された論文であり、Transformerの登場は今回のAIブームを引き起こしました。
現在のすべての大規模モデルは、世界を驚かせたGPTシリーズを含め、Transformerの基盤の上に構築されています。
これまでのところ、「機械に読ませること」は認められた学術的な難題でした。画像認識とは異なり、人間は読書をする際に現在の単語やフレーズだけでなく、文脈を考慮して理解します。
初期のニューラルネットワークは入力が相互に独立しており、長文や全体の文章を理解することができなかったため、「開水間」を「open water room」と翻訳してしまう問題が発生しました。
2014年、Googleで働いた後にOpenAIに移ったコンピュータサイエンティストのイリヤは初めての突破を達成しました。彼はリカレントニューラルネットワーク(RNN)を使用して自然言語を処理し、Google翻訳の性能を競合製品より大幅に向上させました。
RNNは「循環設計」を提案し、各ニューロンが現在および前の時刻の入力情報を同時に受け取ることで、神経ネットワークに「文脈を結合する」能力を与えます。
RNNは学術界の研究熱を呼び起こしましたが、Transformer論文の著者であるシャザーもかつて深く研究していました。しかし、開発者たちはすぐにRNNに深刻な欠陥があることに気づきました:
このアルゴリズムは順次計算を使用しており、文脈の問題を解決しましたが、実行効率が低く、大量のパラメータを処理するのが難しいです。
RNNの煩雑な設計はすぐにシャザールを飽きさせました。したがって、2015年からシャザールと7人の仲間はRNNの代替品の開発に着手し、最終的な成果がTransformerです。
RNNと比較して、Transformerには二つの革命があります:
一つ目は、位置エンコーディングをループ設計に代わることで並列計算を実現し、トレーニング効率を大幅に向上させ、AIがビッグデータを処理できるようにし、大規模モデルの時代に突入することです。二つ目は、文脈能力をさらに強化することです。
Transformerは一気に多くの欠点を解決し、次第にNLPの唯一の選択肢となってきました。「Transformerが生まれなければ、NLPは永遠に暗闇の中にある」という感覚さえあります。イリヤでさえ、自らが称賛していたRNNを捨て、Transformerに移行しました。
言ってしまえば、Transformerは現在のすべての大規模モデルの祖であり、それは大規模モデルを理論研究から純粋な工学的課題に変えました。
2019年、OpenAIはTransformerに基づいてGPT-2を開発し、学術界を驚かせました。Googleは迅速に応答し、より強力なAIであるMeenaを発表しました。
MeenaはGPT-2に比べてアルゴリズムの革新はなく、単にパラメータが8.5倍、計算力が14倍に増えただけです。Transformerの作者であるシャザルは、この「暴力的な積み重ね」に衝撃を受け、「Meenaが世界を飲み込む」というメモを執筆しました。
Transformerが登場して以来、学術界の基盤アルゴリズムの革新速度は大幅に鈍化しました。データエンジニアリング、計算能力のスケール、モデルアーキテクチャなどのエンジニアリング要素がAI競争の鍵となり、一定の技術力を持つテクノロジー企業は誰でも大規模モデルを開発できるようになりました。
したがって、コンピュータ科学者のアンドリュー・ングはスタンフォード大学での講演で次のように述べました:"AIは、教師あり学習、教師なし学習、強化学習、そして現在の生成型人工知能を含む一連のツールの集合です。これらは電力やインターネットなどの他の汎用技術と同様の汎用技術です。"
OpenAIは依然としてLLMの風向標ですが、半導体分析機関はGPT-4の競争力がエンジニアリングソリューションに基づいていると考えています。もしオープンソースになれば、どんな競合他社でも迅速にコピーできるでしょう。
このアナリストは、他の大手テクノロジー企業がすぐにGPT-4と同等の性能を持つ大規模モデルを構築できると予測しています。
壊れやすい堀
現在、「百模大戦」は客観的な現実となっています。
関連報告によると、今年7月時点で国内の大規模モデルの数は130に達し、アメリカの114を超え、見事に追い抜きを果たしました。さまざまな神話や伝説は、国内のテクノロジー企業が名前を付けるにはもはや不十分です。
中米以外の多くの裕福な国々も「一国一模」を初めて実現しました:日本とアラブ首長国連邦に加えて、インド政府が主導するBhashini、韓国のインターネット企業Naverが開発したHyperClova Xなどがあります。
この状況はまるでインターネットの開拓時代に戻ったかのようで、至る所にバブルと「貨幣力」の対立があります。
前述のように、Transformerは大規模モデルを純粋なエンジニアリングの問題に変えます。誰かが資金とGPUを持っていれば、残りはパラメータに任せられます。しかし、参入が容易であることは、誰もがAI時代の巨頭になれるわけではありません。
冒頭で言及された「動物の争い」は典型的な例である: ファルコンは南米のラマを上回る順位にあるが、メタに対してどれほどの影響を与えるかは難しい。
誰もが知っているように、企業が自らの研究成果をオープンソース化するのは、社会とテクノロジーの恩恵を共有するためであり、また一般の人々の知恵を引き出すことも望んでいるからです。各大学の教授、研究機関、中小企業がLlamaを深く使用し、改良を進める中で、Metaはこれらの成果を自社の製品に応用することができます。
オープンソースの大規模モデルにとって、活発な開発者コミュニティが核心的な競争力です。
Metaは2015年にAIラボを設立した際にオープンソースの路線を確立し、ザッカーバーグはソーシャルメディアからスタートし、"良好なコミュニティ関係を築く"のが得意です。
例えば10月、Metaは「AI版クリエイターインセンティブ」活動を特別に開催しました:Llama 2を使用して教育、環境などの社会問題を解決する開発者は、50万ドルの資金を得る機会があります。
現在、MetaのLlamaシリーズはオープンソースLLMの指標となっています。
10月初時点で、主流のオープンソースLLMランキングの上位10位のうち8つがLlama 2を基にしており、すべてオープンソースライセンスを使用しています。あるプラットフォーム上では、Llama 2のオープンソースライセンスを使用したLLMが1500以上存在しています。
もちろん、Falconのように性能を向上させることは悪くありませんが、現在ほとんどのLLMはGPT-4とまだ明らかな差があります。
例えば、最近、GPT-4は4.41点の成績でAgentBenchテストの首位を獲得しました。AgentBenchは清華大学とオハイオ州立大学、カリフォルニア大学バークレー校が共同で開発し、LLMの多次元オープン生成環境における推論と意思決定能力を評価するために使用されます。テスト内容には、オペレーティングシステム、データベース、知識グラフ、カードバトルなどの8つの異なる環境のタスクが含まれています。
テスト結果は、2位のClaudeがわずか2.77ポイントであり、明らかな差があることを示しています。大規模なオープンソースLLMについては、テストのスコアは約1ポイントで、GPT-4の1/4にも達していません。
知っておくべきことは、GPT-4が今年の3月に発表されたことで、これは世界中の競合が追いつくまでに半年以上かかった結果です。このギャップを生んでいるのは、OpenAIの高いレベルの科学者チームと、長年にわたるLLMの研究からの経験の蓄積であり、常に先を行っているのです。
つまり、大規模モデルの核心的な能力はパラメータではなく、エコシステムの構築(オープンソース)または純粋な推論能力(クローズドソース)です。
オープンソースコミュニティがますます活発になるにつれて、各LLMの性能は同質化する可能性があります。なぜなら、皆が似たようなモデルアーキテクチャとデータセットを使用しているからです。
もう一つのより直感的な問題は、Midjourneyを除いて、他のどの大規模モデルもお金を稼いでいないように見えることです。
価値の拠り所はどこにあるか
今年8月、一篇題為「OpenAIは2024年末に破産する可能性がある」という記事が注目を集めました。記事の主旨はほぼ一言でまとめることができます:OpenAIの資金消耗の速度があまりにも速すぎるということです。
文中では、ChatGPTの開発以来、OpenAIの損失が急速に拡大しており、2022年だけで約5.4億ドルの損失を出し、投資家が支払うのを待つしかないと述べられています。
記事のタイトルは誇張されているが、多くの大規模モデルプロバイダーの現状を示している: コストと収入のバランスが深刻に崩れている。
高すぎるコストのため、現在AIで大金を稼いでいるのはNVIDIAだけであり、せいぜいBroadcomが加わる程度だ。
コンサルティング会社の推計によると、NVIDIAは今年の第2四半期に30万枚以上のH100を販売しました。これはAIチップで、AIのトレーニング効率が非常に高く、世界中のテクノロジー企業や研究機関がこぞって購入しています。販売された30万枚のH100を重ねると、その重量はボーイング747型機4.5機分に相当します。
NVIDIAの業績は急上昇し、前年同期比で収益が854%増加し、ウォール街を驚かせました。注目すべきは、現在H100の中古市場価格が4万〜5万ドルにまで高騰しているのに対し、その材料コストは約3000ドル程度に過ぎないということです。
高額な計算力コストは、ある程度業界の発展の障害となっています。セコイアキャピタルは、世界のテクノロジー企業が毎年2000億ドルを大規模モデルのインフラ整備に費やすと予測しています。一方で、大規模モデルは毎年最大750億ドルの収益しか生み出せず、少なくとも1250億ドルのギャップが存在しています。
さらに、Midjourneyなどの少数の例外を除いて、ほとんどのソフトウェア会社は巨額のコストをかけた後、まだ収益を上げる方法を考えていません。特に、業界の2大リーダーであるマイクロソフトとAdobeは、やや足元がふらついています。
マイクロソフトとOpenAIは、AIコード生成ツールGitHub Copilotを共同開発しました。月額10ドルの料金がかかりますが、施設コストのため、マイクロソフトは毎月20ドルの損失を出しています。ヘビーユーザーは、マイクロソフトが毎月80ドルの赤字を出すこともあります。これを考慮すると、月額30ドルのMicrosoft 365 Copilotはさらに大きな損失を出す可能性があります。
同様に、Firefly AIツールを発表したAdobeも、ユーザーの過度な使用による会社の損失を防ぐために、迅速にポイントシステムを導入しました。ユーザーが毎月割り当てられたポイントを超えて使用すると、Adobeはサービスの速度を低下させます。
マイクロソフトとAdobeは、ビジネスシーンが明確で、多くの有料ユーザーを持つソフトウェアの巨人であることを知っておく必要があります。一方で、パラメータが山のように積み上げられた大規模モデルの最大の応用シーンは、依然としてチャットです。
否定できないことに、OpenAIとChatGPTの登場がなければ、このAI革命はそもそも起こらなかったかもしれない。しかし現在、大規模モデルのトレーニングによってもたらされる価値は、恐らくまだ議論の余地がある。
さらに、同質化競争が激化し、市場にオープンソースモデルが増えるにつれて、単純な大規模モデルの供給者の生存空間はさらに制限される可能性があります。
iPhone 4の成功は45nmプロセスのA4プロセッサーによるものではなく、植物対戦ゾンビやアンガリー・バードをプレイできるからです。