Los grandes modelos de IA florecen, analicemos las barreras de entrada y las dificultades de rentabilidad.

En el campo de la IA, las potencias emergen y la batalla de los modelos está en pleno apogeo

El mes pasado, el mundo de la IA desató una "guerra de animales".

Llama, lanzado por Meta, ha sido muy bien recibido por los desarrolladores gracias a su naturaleza de código abierto. Después de investigar el documento y el código de Llama, NEC de Japón desarrolló rápidamente una versión en japonés de ChatGPT, resolviendo el cuello de botella en el desarrollo de la IA en Japón.

El otro lado es un gran modelo llamado Falcon. Falcon-40B, lanzado en mayo, supera a Llama y alcanza la cima del ranking de LLM de código abierto. Esta lista es elaborada por la comunidad de modelos de código abierto, proporcionando estándares de evaluación de capacidades de LLM y rankings. El ranking ha sido dominado principalmente por Llama y Falcon en turnos.

Después del lanzamiento de Llama 2, la familia de llamas superó, pero a principios de septiembre, Falcon lanzó la versión 180B y volvió a coronarse.

Curiosamente, los desarrolladores de Falcon son del Instituto de Innovación Tecnológica de Abu Dhabi, la capital de los Emiratos Árabes Unidos. Funcionarios del gobierno han declarado que participan en este campo para desafiar a los jugadores clave.

Al día siguiente del lanzamiento de la versión 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue incluido en la lista de "Las 100 personas más influyentes en el campo de la IA" de "Time", junto a figuras como el "padre de la IA" Hinton y Altman de OpenAI.

Hoy en día, el campo de la IA ha entrado en una etapa de florecimiento. Países y empresas con recursos están creando sus propios modelos grandes. Solo en el círculo de los países del Golfo hay más de un jugador; en agosto, Arabia Saudita compró más de 3000 H100 para entrenar LLM para universidades nacionales.

Un inversionista comentó: "En su momento menosprecié la innovación en los modelos comerciales de Internet, pensando que no tenían barreras; nunca imaginé que la creación de modelos de tecnología dura seguiría siendo una batalla entre cientos de modelos..."

¿Cómo es que la tecnología dura, que originalmente se consideraba de alta dificultad, se ha convertido en algo que cualquiera puede manejar?

Transformer lidera la revolución de la IA

Las startups estadounidenses, los gigantes tecnológicos chinos y los magnates del petróleo de Oriente Medio han podido incursionar en el campo de los grandes modelos gracias a ese famoso artículo titulado "Attention Is All You Need".

En 2017, ocho científicos informáticos de Google publicaron el algoritmo Transformer en este artículo. Este artículo es el tercero más citado en la historia de la IA, y la aparición del Transformer desencadenó esta ola actual de entusiasmo por la IA.

Actualmente, todos los grandes modelos, incluyendo la serie GPT que ha conmocionado al mundo, se basan en la arquitectura Transformer.

Hasta ahora, "enseñar a las máquinas a leer" ha sido un desafío académico reconocido. A diferencia del reconocimiento de imágenes, la lectura humana no solo se centra en las palabras y frases actuales, sino que también comprende el contexto.

Las primeras redes neuronales tenían entradas independientes entre sí, incapaces de entender textos largos o incluso artículos completos, lo que llevó a problemas como traducir "开水间" como "open water room".

En 2014, el científico de la computación Ilya, que había trabajado en Google, hizo la transición a OpenAI y logró un avance significativo. Utilizó redes neuronales recurrentes (RNN) para procesar el lenguaje natural, lo que llevó a que el rendimiento de Google Translate superara ampliamente a sus competidores.

RNN propone un "diseño cíclico", permitiendo que cada neurona reciba simultáneamente la información de entrada del momento actual y del anterior, otorgando a la red neuronal la capacidad de "combinar contexto".

RNN despertó el entusiasmo de la comunidad académica por la investigación, el autor del artículo de Transformer, Ashish Vaswani, también había investigado en profundidad. Pero los desarrolladores pronto descubrieron que RNN tenía defectos graves:

El algoritmo utiliza cálculos secuenciales, aunque resuelve el problema del contexto, tiene una eficiencia de ejecución baja y es difícil de manejar con una gran cantidad de parámetros.

El complicado diseño de RNN rápidamente llevó a Chazelle a sentirse frustrado. Así que, a partir de 2015, Chazelle y otros siete entusiastas comenzaron a desarrollar un reemplazo para RNN, y el resultado final fue el Transformer.

En comparación con RNN, Transformer tiene dos grandes revoluciones:

Primero, se utiliza codificación de posición en lugar de diseño cíclico, lo que permite el cálculo paralelo, mejorando significativamente la eficiencia de entrenamiento, lo que permite a la IA manejar grandes datos y entrar en la era de los grandes modelos; segundo, se refuerza aún más la capacidad de contexto.

Transformer resuelve de un solo golpe numerosos defectos y se ha convertido gradualmente en la opción indiscutible para NLP, dando una sensación de "si no hubiera nacido el Transformer, NLP sería una larga noche para siempre". Incluso Ilia ha abandonado su venerado RNN para unirse al Transformer.

Se puede decir que el Transformer es el abuelo de todos los grandes modelos de hoy en día, ya que ha transformado los grandes modelos de una investigación teórica a un problema puramente ingenieril.

En 2019, OpenAI desarrolló GPT-2 basado en Transformer, sorprendiendo a la comunidad académica. Google respondió rápidamente, lanzando una IA más potente: Meena.

Meena no presenta innovaciones algorítmicas en comparación con GPT-2, solo tiene 8.5 veces más parámetros y 14 veces más potencia de cálculo. El autor del Transformer, Ashish Vaswani, quedó muy impresionado con este "apilamiento violento" y escribió un memorando titulado "Meena devora el mundo".

Después de la aparición del Transformer, la velocidad de innovación en algoritmos fundamentales en el ámbito académico se ha desacelerado significativamente. Elementos de ingeniería como la ingeniería de datos, la escala de potencia de cálculo y la arquitectura de modelos se han convertido en claves en la competencia de IA, y cualquier empresa tecnológica con una cierta capacidad técnica puede desarrollar grandes modelos.

Por lo tanto, el científico de la computación Andrew Ng propuso en una charla en la Universidad de Stanford: "La IA es un conjunto de herramientas, que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la actual inteligencia artificial generativa. Todas estas son tecnologías generales, similares a otras tecnologías generales como la electricidad y el internet."

Aunque OpenAI sigue siendo el referente de LLM, las instituciones de análisis de semiconductores creen que la competitividad de GPT-4 proviene de soluciones de ingeniería; si se abre, cualquier competidor podrá replicarlo rápidamente.

Este analista espera que otras grandes empresas tecnológicas puedan pronto crear modelos grandes con un rendimiento comparable al de GPT-4.

Foso débil

Hoy en día, "la batalla de los cientos de modelos" se ha convertido en una realidad objetiva.

Informes relevantes muestran que, hasta julio de este año, el número de grandes modelos en el país ha alcanzado 130, superando los 114 de Estados Unidos, logrando así un avance significativo, y todo tipo de mitos y leyendas ya no son suficientes para que las empresas tecnológicas nacionales los utilicen como nombres.

Fuera de China y Estados Unidos, muchos países relativamente ricos también han logrado de manera preliminar "un país, un modelo": además de Japón y los Emiratos Árabes Unidos, se encuentran Bhashini, liderado por el gobierno de India, y HyperClova X, desarrollado por la compañía de internet surcoreana Naver.

Esta situación parece haber regresado a la era de la expansión de Internet, donde hay burbujas y una lucha contra la "capacidad monetaria".

Como se mencionó anteriormente, el Transformer convierte los grandes modelos en un problema puramente ingenieril; mientras haya personas con dinero y tarjetas gráficas, lo demás se deja a los parámetros. Pero el hecho de que sea fácil entrar no significa que todos puedan convertirse en gigantes de la era de la IA.

El "conflicto de animales" mencionado al principio es un caso típico: aunque Falcon supera en ranking a la llama, es difícil decir que haya causado un gran impacto en Meta.

Como es bien sabido, las empresas abren sus logros de investigación científica no solo para compartir los beneficios tecnológicos con la sociedad, sino también para movilizar la inteligencia colectiva. A medida que profesores universitarios, instituciones de investigación y pequeñas y medianas empresas continúan utilizando y mejorando Llama, Meta puede aplicar estos resultados en sus propios productos.

Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es la principal ventaja competitiva.

Meta estableció una ruta de código abierto cuando formó su laboratorio de IA en 2015; Zuckerberg también comenzó con las redes sociales, siendo más hábil en "hacer buenas relaciones con el público".

Por ejemplo, en octubre, Meta organizó un evento llamado "Incentivo para Creadores AI": los desarrolladores que utilicen Llama 2 para resolver problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir una financiación de 500,000 dólares.

Hoy en día, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto.

Hasta principios de octubre, 8 de los 10 principales LLM de código abierto en el ranking se basan en Llama 2, todos utilizando su licencia de código abierto. Solo en una plataforma, ya hay más de 1500 LLM que utilizan la licencia de código abierto de Llama 2.

Por supuesto, mejorar el rendimiento como Falcon no está de más, pero en este momento la mayoría de los LLM todavía tienen una diferencia notable con GPT-4.

Por ejemplo, hace poco, GPT-4 alcanzó el primer lugar en la tabla de pruebas de AgentBench con una puntuación de 4.41. AgentBench fue lanzado en conjunto por la Universidad Tsinghua, la Universidad Estatal de Ohio y la Universidad de California en Berkeley, y se utiliza para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en un entorno de generación abierta multidimensional. Los contenidos de la prueba incluyen tareas en 8 entornos diferentes, como sistemas operativos, bases de datos, grafos de conocimiento, y batallas de cartas.

Los resultados de la prueba muestran que el segundo lugar, Claude, tiene solo 2.77 puntos, con una diferencia notable. En cuanto a esos LLM de código abierto que tienen mucho ruido, sus resultados de prueba están alrededor de 1 punto, lo que no llega ni a 1/4 de GPT-4.

Hay que saber que GPT-4 fue lanzado en marzo de este año, y esto es el resultado de que los colegas de todo el mundo lo hayan alcanzado después de más de medio año. La causa de esta diferencia es el equipo de científicos de alto nivel de OpenAI y la experiencia acumulada en la investigación de LLM a largo plazo, lo que les permite estar siempre por delante.

Es decir, la capacidad central de los grandes modelos no son los parámetros, sino la construcción del ecosistema ( código abierto ) o la capacidad de inferencia pura ( cerrado ).

Con el creciente dinamismo de la comunidad de código abierto, el rendimiento de los LLM podría converger, ya que todos están utilizando arquitecturas de modelo y conjuntos de datos similares.

Otro problema más intuitivo es: aparte de Midjourney, parece que ningún otro gran modelo ha logrado ganar dinero.

¿Dónde está el ancla de valor?

En agosto de este año, un artículo titulado "OpenAI podría quebrar a finales de 2024" ha llamado la atención. La esencia del artículo se puede resumir en una frase: OpenAI está quemando dinero demasiado rápido.

El texto menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, perdiendo aproximadamente 540 millones de dólares solo en 2022, y solo pueden esperar a que los inversores paguen.

El título del artículo, aunque exagerado, también revela la situación de muchos proveedores de grandes modelos: un grave desequilibrio entre costos e ingresos.

Los altos costos han llevado a que actualmente solo Nvidia esté ganando mucho dinero con la IA, y como mucho, se suma Broadcom.

Según estimaciones de una consultora, Nvidia vendió más de 300,000 unidades de H100 en el segundo trimestre de este año. Este es un chip de IA que tiene una eficiencia de entrenamiento de IA muy alta, y las empresas tecnológicas y las instituciones de investigación de todo el mundo están comprándolo a toda prisa. Si apilamos las 300,000 unidades de H100 vendidas, su peso equivale al de 4.5 aviones Boeing 747.

Las ganancias de Nvidia se dispararon, con un aumento interanual de ingresos del 854%, sorprendiendo a Wall Street. Cabe mencionar que actualmente el precio del H100 en el mercado de segunda mano ha subido a entre 40,000 y 50,000 dólares, mientras que su costo de materiales es solo un poco más de 3,000 dólares.

El alto costo de la potencia de cálculo se ha convertido en un obstáculo para el desarrollo de la industria en cierta medida. Se estima que Sequoia Capital calcula que las empresas tecnológicas globales gastarán 200 mil millones de dólares al año en infraestructura de modelos grandes; en comparación, los modelos grandes solo pueden generar hasta 75 mil millones de dólares en ingresos al año, existiendo al menos un déficit de 125 mil millones de dólares.

Además, a excepción de algunas pocas como Midjourney, la mayoría de las empresas de software, después de incurrir en enormes costos, aún no han encontrado la manera de ser rentables. Especialmente los dos gigantes de la industria, Microsoft y Adobe, han tenido un camino algo tambaleante.

Microsoft y OpenAI colaboraron en el desarrollo de la herramienta de generación de código AI GitHub Copilot. Aunque cobra una tarifa de 10 dólares al mes, Microsoft en realidad pierde 20 dólares al mes debido a los costos de infraestructura, y los usuarios intensivos pueden hacer que Microsoft pierda hasta 80 dólares al mes. A partir de esto, se puede suponer que el Microsoft 365 Copilot, que tiene un precio de 30 dólares, podría perder aún más.

Del mismo modo, Adobe, que acaba de lanzar la herramienta Firefly AI, también ha puesto rápidamente en marcha un sistema de puntos complementario para evitar que el uso excesivo por parte de los usuarios cause pérdidas a la empresa. Una vez que un usuario excede los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.

Es importante saber que Microsoft y Adobe ya son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras tanto, la mayoría de los modelos de parámetros acumulados tienen como su principal escenario de aplicación el chat.

No se puede negar que, sin la aparición de OpenAI y ChatGPT, esta revolución de la IA tal vez no habría ocurrido; pero en este momento, el valor que aporta el entrenamiento de grandes modelos probablemente aún está en discusión.

Además, con el aumento de la competencia homogénea y el creciente número de modelos de código abierto en el mercado, el espacio de supervivencia de los proveedores de grandes modelos podría verse aún más limitado.

El éxito del iPhone 4 no se debe al procesador A4 de 45nm, sino a que puede jugar a Plantas vs. Zombies y Angry Birds.

Ver originales
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 8
  • Compartir
Comentar
0/400
HalfBuddhaMoneyvip
· hace19h
Es bueno tener dinero, el precio del petróleo lo decide uno mismo.
Ver originalesResponder0
LayerZeroEnjoyervip
· 07-12 20:55
Qué pena que la alpaca haya perdido
Ver originalesResponder0
LiquidityHuntervip
· 07-10 11:22
Resulta que los magnates del petróleo también están jugando con grandes modelos.
Ver originalesResponder0
RetiredMinervip
· 07-10 11:22
Hacer tanto es solo para jugar, al final no es más que tomar a la gente por tonta.
Ver originalesResponder0
rekt_but_vibingvip
· 07-10 11:17
Otra nueva oportunidad para Ser engañados ha llegado.
Ver originalesResponder0
QuorumVotervip
· 07-10 11:12
¿Los Emiratos Árabes Unidos también se están metiendo en la IA?
Ver originalesResponder0
just_here_for_vibesvip
· 07-10 11:01
Los Emiratos Árabes Unidos lo hacen bastante salvaje.
Ver originalesResponder0
Frontrunnervip
· 07-10 10:54
Después de ver la batalla de los animales, mira quién puede sobrevivir hasta el final.
Ver originalesResponder0
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)