Нова система Мета з мегабайтом: прорив у подоланні перешкод для GPT

2023-06-07, 00:51

GPTs можуть перекладати тексти, резюмувати дані та створювати контент, який підходить для різних цілей, таких як маркетинг.

Megabyte Мети Мети прагне подолати перешкоди, з якими стикаються інші системи GPT, такі як GPT-4 від OpenAi та ChatGPT.

Мегабайт відрізняється від інших моделей GPT тим, що не використовує токенізацію.

Модель Megabyte включає в себе локальний трансформатор, вбудовувач патчу та глобальний трансформатор.

Вступ

Технологічна інновація революціонізувала спосіб взаємодії людей та виконання різних завдань, включаючи особисті або бізнесові. Штучний інтелект, також називаний машинним навчанням, здатний виконувати різні дії, такі як написання есе або складання фінансових планів. У цій статті ми обговорюємо важливість Generative Pre-trained Transformer (GPT) в обробці природної мови та його застосування. Ми також зосередимося на системі Meta’s megabyte, яка подолує декілька перешкод для GPT.

Значення GPT у обробці природної мови

Генеративні передварительно навчені трансформатори (GPT) мають багато переваг у різних секторах економіки, оскільки вони підвищують продуктивність та збільшують соціальну увагу. По-перше, важливо знати, що ГПТ створює людськоподібний текст з різних предметів.

GPT використовують різні параметри для обробки даних та подання їх у способи, зрозумілі людям. Існують різні застосування, які використовують GPT для створення цінності для людей та суспільства в цілому.

В основному, GPT є важливими компонентами програм штучного інтелекту, які перекладають інформацію з однієї мови на іншу. Вони також генерують та узагальнюють великі обсяги даних в легко зрозумілу інформацію. У деяких випадках GPT дозволяють генерацію контенту, придатного для різних цілей, таких як вірші, блоги, наукові статті, маркетинговий матеріал та меми, серед інших.

Підприємства також можуть використовувати GPT, щоб приводити в дію чат-ботів та віртуальних асистентів, які можуть взаємодіяти з реальними людьми у розмовний спосіб, допомагаючи їм розуміти різні бізнесові або соціальні аспекти. Для бізнесових цілей вони можуть генерувати аналіз настроїв з будь-якої теми чи сфери інтересів. Наприклад, існують протоколи, що приводять в дію штучний інтелект, які генерують настрої криптовалютного ринку, що дозволяє трейдерам та іншим інвесторам приймати обґрунтовані інвестиційні рішення.

Інші використання GPT у природній мові та застосуваннях штучного інтелекту включають створення контенту для маркетингу продуктів, обслуговування клієнтів, аналіз фінансової інформації, а також видобування та звітування даних, серед інших.

Обмеження традиційних моделей GPT

Хоча є різні типи GPT-ів створені різними платформами, такими як ChatGPT та Openai, більшість з них мають серйозні обмеження.

Поточні найкращі моделі Generative AI включаючи GPT-4 від OpenAI та ChatGPT використовують архітектуру Трансформатора, яку вперше представили дослідники з Google. Збільшення самостійного уваги шкалується, а довжина введення та виведення створює виклик, оскільки кожне слово потребує уваги. По суті, ця система працює добре, коли введено небагато слів.

Однак метод Мегабайта використовує іншу архітектуру, яка розділяє послідовності вхідних та вихідних даних на патчі замість токенів. Таким чином, він може обробляти набагато більше слів, ніж поточні моделі.

Крім того, підхід Meta вирішує проблему масштабованості, яка є загальною серед більшості моделей, що зараз присутні на ринку. Основна ідея моделі Мегабайт полягає в тому, що однією мережею прямого поширення можна працювати з патчем, що складається з кількох токенів. Таким чином, система Мегабайт від Meta працює паралельно, а не послідовно. Це збільшує її ефективність навіть у випадку, якщо базова модель має багато параметрів.

Читайте також: Мета-метавсесвіт: над чим працює компанія?

Деякі моделі, такі як глибокі нейронні мережі, є складними для розуміння та пояснення, що може зменшити довіру, відповідальність та викликати етичні питання. Тому потрібні більш прості моделі, такі як Meta Ai, які легко пояснити. Це через те, що більшість користувачів хотіли б знати, як працює система, щоб довіряти їй.

Ще одна проблема полягає в тому, що для перевірки та навчання деяким моделям потрібно багато даних. Тим не менш, такі дані можуть бути недоступними, що знижує їх ефективність. Крім того, проблеми, пов’язані з конфіденційністю, упередженістю, шумом, безпекою, а також неповнотою даних негативно впливають на стійкість та ефективність більшості моделей GPT.

Більшість традиційних моделей штучного інтелекту є дорогими і споживають багато енергії під час розрахунків. Це через те, що більшість систем мають високу обчислювальну складність. Таким чином, вони споживають багато ресурсів і збільшують витрати на довкілля.

Більшість цих моделей мають низьку інтероперабельність через різницю в стандартизації. Тому їх дуже важко інтегрувати, оскільки вони використовують різні мови, фреймворки та формати. Однак відкриті формати, такі як ONNX або універсальні компілятори, можуть покращити їх взаємодію.

Важливо усвідомити, що архітектура Meta AI створена таким чином, що подолує більшість цих проблем.

Система Мегабайт Меты

Meta AI розробила нову Система GPT, яка називається Мегабайтом з метою обійти токенізацію, яку використовують більшість моделей GPT. Його система генеративно-передбачуваного трансформера (GPT) обробляє великі обсяги даних, такі як відео і текстові матеріали, наприклад, романи, без використання токенізації.

Як точка, токенізація працює подібно до стиснення файлу, перетворюючи великі обсяги даних на токени. Трансформатор обробляє токени, щоб створити вихідні токени, які система декодує.

Зазвичай токенізація дозволяє моделям штучного інтелекту перетворювати великі рядки даних на числа. Наприклад, система може перетворити фразу на кшталт «Мій улюблений колір — червоний» на рядок токенів, наприклад 3666, 4004, 3124, 318, 2266, 13», який потім обробляється.

Однак, за допомогою цього методу існує обмеження на об’єм оброблюваних даних. Наприклад, обмеження GPT-3.5 становить від 3 000 до 4 000 слів, тоді як обмеження GPT-4 становить від 24 000 до 32 000.

Напроти, Мета відмовився від токенізації на користь нової багатошарової архітектури передбачення, яка залежить від моделювання з кінця до кінця більш ніж мільйон байтів даних. Це величезні досягнення, враховуючи, що він може обробити документ, складений з до 750 000 слів. Це означає, що система Megabyte може обробити дані, що містяться в трьох середньо розмірних романах.

Як відомо, Megabyte долає перешкоди токенізації, що виникають через обмеження на обсяг даних, який важко перевершити, довгий час, необхідний для навчання систем та високу енергоспоживаність. Крім того, без токенізації можна навчати моделі AI для підтримки інших мов, які можуть бути закодовані в стандартних 8-бітових символах, наприклад, не на англійській мові.

Штучний інтелект криптовалюти Meta розширить існуючі можливості, подальше демократизуючи різні технології блокчейну. Наприклад, розробники можуть вводити криптовалютні торгові боти на своїх рідних мовах, таких як російська чи французька. Що є ще важливішим, децентралізовані автономні організації (DAO) також можуть програмувати свої протоколи мовами місцевих мов.

Як працює система Meta Megabyte

Megabyte, архітектура багатомасштабного декодера, моделює послідовності більше 1 мільйона байтів, забезпечуючи збереження диференційованості від початку до кінця. Вона використовує багатомасштабні трансформатори, які включають в себе різні рівні в своїй архітектурі, тим самим моделюючи як глобальні, так і локальні патерни в даних.

Основною моделлю Megabyte є три компоненти, а саме локальний модуль, вбудовувач патчів та глобальний модуль (глобальний трансформатор). Локальний модуль, також відомий як локальний трансформатор, передбачає байти в кожному патчі, тоді як вбудовувач відповідає за кодування патчів шляхом комбінування вбудовувань байтів. Нарешті, глобальний модуль, також відомий як глобальний трансформатор, вводить та виводить різні представлення патчів.

На наведеній нижче діаграмі показано загальний огляд мегабайту.

Діаграма вище показує деякі ключові компоненти Megabyte. Останній експеримент показав, що Megabyte може бути швидшим на 40% за моделлю Transformer. Проте важливо зазначити, що Megabyte, що використовувався під час експерименту, мав 1,5 мільярда параметрів, тоді як у трансформатора було 350 мільйонів.

В цілому, мегабайт має кілька переваг перед традиційними трансформаторами. Наприклад, він зменшує обчислювальні витрати самоатестації, що дозволяє обробляти довгі послідовності.

Друге, воно використовує шари прямого поширення на кожному шляху, а не на кожній позиції, що призводить до ефективного використання обчислювальних ресурсів.

Крім того, воно поліпшує більшу паралелізм під час обробки, що призводить до швидкого генерування послідовності з високою продуктивністю.

Архітектура Megabyte покращує масштабованість, зменшує споживання ресурсів та забезпечує плавну комунікацію з різними додатками на основі GPT. Вона досягає деяких з цих переваг шляхом розділення довгих послідовностей на дві коротші послідовності, що мінімізує витрати на самоувагу. Крім того, алгоритми спільного використання параметрів та стиснення мінімізують вимоги до ресурсів GPT.

Висновок

Meta’s Megabyte використовує систему генеративно-передбачуваних трансформерів для обробки великих обсягів даних без використання токенізації. Замість цього вона використовує архітектуру багаторівневого прогнозування, яка зменшує витрати, покращує швидкість, підвищує ефективність, а також збільшує масштабованість та взаємодію.


Автор:Машелл К., дослідник Gate.io
Ця стаття представляє лише погляд дослідника і не є жодними інвестиційними рекомендаціями.
Gate.io залишає за собою всі права на цю статтю. Перепост статті буде дозволено за умови посилання на Gate.io. У всіх випадках буде вжито правові заходи через порушення авторських прав.


Поділіться
Konten
gate logo
Gate
Торгуйте зараз
Приєднуйтесь до Gate, щоб виграти нагороди