Революція парадигми навчання ШІ: від централізованого контролю до Децентралізації співпраці

2025-07-14 14:14:14

Еволюція парадигми навчання ШІ: від централізованого контролю до децентралізованої кооперації технологічної революції

У повній ціннісній ланцюжку штучного інтелекту навчання моделей є етапом з найбільшими витратами ресурсів і найвищими технологічними бар'єрами, що безпосередньо визначає верхню межу можливостей моделі та фактичну ефективність застосування. На відміну від легковагового виклику на етапі інференції, процес навчання вимагає безперервних масштабних обчислювальних витрат, складних процесів обробки даних та підтримки високоефективних алгоритмів оптимізації, що є справжньою «важкою промисловістю» у побудові систем ШІ. З точки зору архітектурних парадигм, способи навчання можна поділити на чотири категорії: централізоване навчання, розподілене навчання, федеративне навчання та децентралізоване навчання, яке є основною темою цієї статті.

Централізоване навчання є найпоширенішим традиційним способом, який виконується єдиним органом у локальному високопродуктивному кластері, де весь процес навчання, від апаратного забезпечення, базового програмного забезпечення, системи управління кластером до всіх компонентів навчальної рамки, координується єдиною системою управління. Така глибока співпраця архітектури дозволяє досягти максимальної ефективності в обміні пам'яттю, синхронізації градієнтів і механізмах відмовостійкості, що робить її дуже придатною для навчання великих моделей, таких як GPT, Gemini, з перевагами високої ефективності та контрольованих ресурсів, але водночас існують проблеми з монополією даних, бар'єрами для ресурсів, споживанням енергії та ризиками єдиної точки.

Розподілене навчання є основним способом навчання великих моделей, його суть полягає в розподілі завдань навчання моделі на багато машин для спільного виконання, щоб подолати обмеження обчислень та зберігання на одному комп'ютері. Незважаючи на те, що фізично має «розподілений» характер, загалом все ще контролюється централізованими організаціями для управління та синхронізації, зазвичай працює в середовищі високошвидкісних локальних мереж, через технологію високошвидкісної міжмашинної системи NVLink, головний вузол координує виконання підзавдань. Основні методи включають:

Паралельність даних: кожен вузол навчає різні дані, параметри яких спільні, потрібно відповідати вагам моделі
Модельна паралельність: розгортання різних частин моделі на різних вузлах для досягнення високої масштабованості;
Паралельне оброблення: поетапне послідовне виконання, підвищення пропускної здатності;
Тензорне паралелювання: тонка сегментація матричних обчислень, підвищення гранулярності паралелізму.

Розподілене навчання є комбінацією «централізованого контролю + розподіленого виконання», аналогічно тому, як один і той же керівник дистанційно керує співробітниками з кількох «офісів», щоб спільно виконати завдання. Наразі майже всі основні великі моделі навчаються таким чином.

Децентралізація тренування означає більш відкритий і стійкий до цензури шлях у майбутнє. Основною характеристикою є: кілька недовірливих вузлів ( можуть бути домашніми комп'ютерами, хмарними GPU або крайніми пристроями ), які спільно виконують завдання тренування без центрального координатора, зазвичай за допомогою протоколів для розподілу завдань і співпраці, а також за допомогою механізмів криптостимулювання для забезпечення чесності внесків. Основні виклики, з якими стикається ця модель, включають:

Гетерогенність пристроїв та труднощі розподілу: висока складність координації гетерогенних пристроїв, низька ефективність розподілу завдань;
Вузьке місце в ефективності зв'язку: нестабільна мережна комунікація, помітне вузьке місце в синхронізації градієнтів;
Відсутність надійного виконання: відсутність надійного середовища виконання ускладнює перевірку того, чи справжні вузли беруть участь у розрахунках;
Відсутність єдиної координації: немає центрального диспетчера, складний розподіл завдань та механізм відкату при аномаліях.

Децентралізоване тренування можна зрозуміти як: група глобальних добровольців, які кожен вносять обчислювальну потужність для спільного навчання моделі, але «дійсно життєздатне масштабне децентралізоване тренування» все ще є системною інженерною проблемою, що включає в себе систему архітектури, комунікаційні протоколи, криптографічну безпеку, економічні механізми, валідацію моделей та інші аспекти, але чи можливо «співпрацювати ефективно + стимулювати чесність + отримувати правильні результати» все ще перебуває на стадії раннього прототипування.

Федеративне навчання, як перехідна форма між розподіленістю та децентралізацією, акцентує увагу на локальному зберіганні даних та централізованій агрегації параметрів моделі, що підходить для сценаріїв, що акцентують увагу на дотриманні конфіденційності, таких як медичні та фінансові (. Федеративне навчання має інженерну структуру розподіленого навчання та локальні кооперативні можливості, одночасно володіючи перевагами розподілених даних децентралізованого навчання, але все ще залежить від надійних координаторів і не має повністю відкритих та антицензурних характеристик. Це можна розглядати як «контрольовану децентралізацію» в сценаріях, що дотримуються конфіденційності, з відносно м'якими вимогами до завдань навчання, структур довіри та механізмів зв'язку, що більше підходить для промислових перехідних архітектур.

) Децентралізація тренування меж, можливості та реальні шляхи

З точки зору навчальної парадигми, децентралізоване навчання не підходить для всіх типів завдань. У деяких сценаріях, через складну структуру завдання, високі вимоги до ресурсів або велику складність співпраці, воно природно не підходить для ефективного виконання між гетерогенними, недовіреними вузлами. Наприклад, навчання великих моделей часто залежить від великої пам'яті, низької затримки та високої пропускної здатності, що ускладнює ефективне розподілення та синхронізацію в відкритій мережі; завдання з сильною конфіденційністю даних і обмеженнями суверенітету ###, такі як медичні, фінансові, конфіденційні дані (, обмежені юридичними вимогами та етичними обмеженнями, не можуть бути відкрито поділені; а завдання ), що не мають основи для співпраці, такі як закриті моделі компанії або навчання внутрішніх прототипів (, не мають зовнішньої мотивації для участі. Ці межі разом становлять реальні обмеження децентралізованого навчання сьогодні.

Але це не означає, що децентралізоване навчання є псевдопроблемою. Насправді, у структурах з легким навантаженням, легких для паралелізації та заохочувальних типах завдань, децентралізоване навчання демонструє чіткі перспективи застосування. Сюди входять, але не обмежуються: тонка настройка LoRA, післянавчальні завдання, пов'язані з поведінкою ), такі як RLHF, DPO (, завдання навчання та маркування даних через краудсорсинг, навчання малих базових моделей з контролем ресурсів, а також сцени кооперативного навчання з участю крайових пристроїв. Ці завдання зазвичай мають високу паралельність, низьку зв'язність і толерантність до гетерогенних обчислювальних потужностей, що робить їх дуже підходящими для кооперативного навчання через P2P мережі, протокол Swarm, розподілені оптимізатори тощо.

![Еволюція парадигми навчання ШІ: від централізованого контролю до децентралізованої кооперації технічної революції])https://img-cdn.gateio.im/webp-social/moments-f0af7b28242215cca3784f0547830879.webp(

) Децентралізація тренування класичних проектів аналіз

Наразі в області децентралізованого навчання та федеративного навчання провідні блокчейн-проекти включають Prime Intellect, Pluralis.ai, Gensyn, Nous Research та Flock.io. З точки зору технічної інноваційності та складності інженерної реалізації, Prime Intellect, Nous Research та Pluralis.ai запропонували багато оригінальних досліджень у системній архітектурі та алгоритмічному дизайні, що представляє передові напрямки сучасних теоретичних досліджень; у той час як реалізаційні шляхи Gensyn та Flock.io є відносно зрозумілими, і вже видно перші кроки у напрямку інженерної реалізації. У цій статті буде поступово проаналізовано основні технології та інженерну архітектуру цих п'яти проектів, а також подальше обговорення їх відмінностей та взаємодоповнюючих відносин у децентралізованій AI навчальній системі.

Prime Intellect: тренувальна траєкторія може бути перевірена шляхом посиленого навчання у співпраці з мережевими попередниками

Prime Intellect прагне створити мережу навчання ШІ без довіри, де кожен може брати участь у навчанні та отримувати надійні винагороди за свої обчислювальні внески. Prime Intellect сподівається створити децентралізовану систему навчання ШІ з перевіряємістю, відкритістю та повною механікою стимулювання за допомогою трьох основних модулів: PRIME-RL + TOPLOC + SHARDCAST.

Одне. Структура стеку протоколу Prime Intellect та цінність ключових модулів

![Еволюція парадигми навчання ШІ: від централізованого контролю до децентралізованої кооперації технологічної революції]###https://img-cdn.gateio.im/webp-social/moments-3a83d085e7a7abfe72221958419cd6d8.webp(

Два, детальний опис ключових механізмів тренування Prime Intellect

PRIME-RL: Архітектура задач декомпозованого асинхронного навчання з підкріпленням

PRIME-RL є рамкою моделювання та виконання завдань, спеціально розробленою Prime Intellect для децентралізованих навчальних сценаріїв, виготовленою для гетерогенних мереж та асинхронних учасників. Він використовує підкріплювальне навчання як пріоритетний об'єкт адаптації, структурно декомпозуючи процеси навчання, висновків та завантаження ваг, що дозволяє кожному навчальному вузлу незалежно виконувати цикл завдань на місці та співпрацювати через стандартизовані інтерфейси з механізмами валідації та агрегації. На відміну від традиційних процесів навчання з наглядом, PRIME-RL краще підходить для реалізації еластичного навчання в середовищах без центрального управління, знижуючи складність системи та закладаючи основу для підтримки паралельного виконання багатьох завдань та еволюції стратегій.

TOPLOC: легкий механізм верифікації поведінки тренування

TOPLOC)Достовірне спостереження та перевірка локальності( є основним механізмом тренування, запропонованим Prime Intellect, який використовується для визначення, чи дійсно вузол завершив ефективне навчання стратегій на основі спостережуваних даних. На відміну від важких рішень, таких як ZKML, TOPLOC не покладається на повторний розрахунок повних моделей, а здійснює верифікацію легкоструктурованої системи шляхом аналізу локальної узгодженості між «послідовністю спостережень ↔ оновленням стратегій». Вперше він перетворює поведінкові траєкторії в процесі навчання на верифіковані об'єкти, що є ключовою інновацією для реалізації бездостовірного розподілу навчальних винагород, надаючи здійсненний шлях для побудови аудиторських і стимулюючих децентралізованих мереж співпраці в навчанні.

SHARDCAST: Асинхронна агрегація ваг та протокол поширення

SHARDCAST є протоколом вагомого поширення та агрегування, розробленим Prime Intellect, спеціально оптимізованим для асинхронних, обмежених пропускною здатністю та змінних станів вузлів у реальних мережевих умовах. Він поєднує механізм поширення gossip і стратегію локальної синхронізації, дозволяючи кільком вузлам продовжувати подавати часткові оновлення в умовах неспівпадіння, що забезпечує прогресивну згортку ваг та еволюцію кількох версій. У порівнянні з централізованими або синхронними методами AllReduce, SHARDCAST суттєво підвищує масштабованість та стійкість до помилок у децентралізованому навчанні, являючи собою основну основу для побудови стабільного консенсусу ваг та безперервної ітерації навчання.

OpenDiLoCo: розріджена асинхронна комунікаційна рамка

OpenDiLoCo є незалежною реалізацією та відкритим вихідним кодом оптимізаційного фреймворку зв'язку, розробленого командою Prime Intellect на основі концепції DiLoCo, запропонованої DeepMind, спеціально розробленого для вирішення таких проблем, як обмежена пропускна здатність, гетерогенні пристрої та нестабільність вузлів, які часто зустрічаються під час децентралізованого навчання. Його архітектура ґрунтується на паралельній обробці даних, шляхом побудови розріджених топологій, таких як кільце, розширювач, малий світ, що дозволяє уникнути високих витрат на зв'язок глобальної синхронізації, покладаючись лише на сусідні локальні вузли для завершення спільного навчання моделей. Поєднуючи асинхронне оновлення з механізмом відмовостійкості, OpenDiLoCo дозволяє споживчим GPU та краєвим пристроям стабільно брати участь у навчальних завданнях, значно підвищуючи можливість участі в глобальному співпрацювальному навчанні, що є однією з ключових комунікаційних інфраструктур для побудови децентралізованої навчальної мережі.

PCCL:Бібліотека кооперативного зв'язку

PCCL)Prime Collective Communication Library( є легковаговою бібліотекою зв'язку, створеною Prime Intellect для децентралізованого середовища навчання AI, яка має на меті вирішення проблем адаптації традиційних бібліотек зв'язку ), таких як NCCL, Gloo(, в гетерогенних пристроях та мережах з низькою пропускною здатністю. PCCL підтримує розріджену топологію, стиснення градієнтів, синхронізацію з низькою точністю та відновлення з контрольних точок, може працювати на споживчих GPU та нестабільних вузлах, є основним компонентом, що підтримує асинхронні можливості зв'язку протоколу OpenDiLoCo. Вона суттєво підвищила витривалість пропускної здатності навчальної мережі та сумісність пристроїв, прокладаючи «останню милю» комунікаційної основи для створення справді відкритої, без довіри кооперативної навчальної мережі.

Три, мережа стимулювання Prime Intellect та розподіл ролей

Prime Intellect побудував мережу тренувань, яка не потребує дозволу, є перевірною та має економічні стимули, що дозволяє кожному брати участь у завданнях і отримувати винагороди на основі реального внеску. Протокол працює на основі трьох основних ролей:

Ініціатор завдання: визначте навчальне середовище, початкову модель, функцію нагороди та стандарти валідації
Навчальний вузол: виконує локальне навчання, подає оновлення ваг і спостережувальні траєкторії
Вузли перевірки: використання механізму TOPLOC для перевірки достовірності навчальної поведінки та участь у розрахунку винагороди та агрегації стратегій

Ядром процесу угоди є публікація завдань, навчання вузлів, верифікація траєкторій, агрегація ваг та виплата винагород, що утворює замкнене коло стимулювання навколо «реальної навчальної поведінки». )SHARDCAST(

![Еволюція парадигм навчання штучного інтелекту: від централізованого контролю до Децентралізації співпраці технічна революція])https://img-cdn.gateio.im/webp-social/moments-45f26de57a53ac937af683e629dbb804.webp(

Чотири, INTELLECT-2: перший перевіряємий децентралізований навчальний модельний випуск

Prime Intellect випустила INTELLECT-2 у травні 2025 року, це перша у світі велика модель зміцнення навчання, яка була створена завдяки асинхронному, без довіри, децентралізованому співробітництву вузлів, з масштабом параметрів 32B. Модель INTELLECT-2 була навчена за допомогою понад 100 гетерогенних вузлів GPU, розташованих на трьох континентах, використовуючи повністю асинхронний.

PRIME3.43%

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

15 лайків