Os grandes modelos de IA florescem em grande variedade: uma análise das fossas de proteção e das dificuldades de rentabilidade.

O campo da IA está repleto de concorrentes, a batalha das centenas de modelos está a todo vapor.

No mês passado, o mundo da IA teve uma "guerra dos animais".

O Llama lançado pela Meta tem sido amplamente popular entre os desenvolvedores devido às suas características de código aberto. Após estudar o artigo e o código do Llama, a NEC do Japão desenvolveu rapidamente uma versão em japonês do ChatGPT, resolvendo o gargalo no desenvolvimento de IA no Japão.

Do outro lado está o grande modelo chamado Falcon. Lançado em maio, o Falcon-40B superou o Llama e alcançou o topo do ranking de LLMs de código aberto. Este ranking é elaborado pela comunidade de modelos de código aberto, que fornece padrões de avaliação e classificação para LLMs. O ranking é basicamente dominado alternadamente pelo Llama e pelo Falcon.

Após o lançamento do Llama 2, a família de lhamas superou, mas no início de setembro, o Falcon lançou a versão 180B e retomou a liderança.

Curiosamente, os desenvolvedores do Falcon são do Instituto de Inovação Tecnológica da capital dos Emirados Árabes Unidos, Abu Dhabi. Fontes governamentais afirmaram que estão envolvidos neste setor para desafiar os principais jogadores.

No dia seguinte ao lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado para a lista das "100 Pessoas Mais Influentes na Área de AI" da "Time", juntamente com o "Pai da AI" Hinton, o Altmann da OpenAI e outros.

Atualmente, o campo da IA entrou numa fase de grande diversidade. Países e empresas com capacidade estão a desenvolver os seus próprios grandes modelos. Apenas no círculo dos países do Golfo há mais de um jogador; em agosto, a Arábia Saudita adquiriu mais de 3000 placas H100 para treinar LLMs para universidades locais.

Um investidor comentou: "Naquela época, subestimei a inovação do modelo de negócios da internet, achando que não havia barreiras; nunca esperei que a inovação em modelos de grande tecnologia ainda resultasse numa batalha de centenas de modelos..."

Como é que a tecnologia dura, que antes era considerada de alta dificuldade, se tornou algo que qualquer um pode fazer?

O Transformer lidera a revolução da IA

As startups americanas, gigantes da tecnologia chineses e magnatas do petróleo do Oriente Médio conseguem entrar no campo dos grandes modelos, tudo isso se deve ao famoso artigo "Attention Is All You Need".

Em 2017, oito cientistas da computação do Google publicaram o algoritmo Transformer neste artigo. Este artigo é o terceiro mais citado na história da IA, e o surgimento do Transformer gerou esta onda atual de entusiasmo pela IA.

Atualmente, todos os grandes modelos, incluindo a série GPT que causou alvoroço no mundo, são baseados na arquitetura Transformer.

Antes disso, "ensinar máquinas a ler" sempre foi considerado um desafio acadêmico reconhecido. Diferente do reconhecimento de imagem, a leitura humana não se concentra apenas nas palavras e frases atuais, mas também combina o contexto para entender.

As redes neurais iniciais tinham entradas independentes entre si, não conseguiam entender textos longos ou até mesmo artigos inteiros, o que levou a problemas como traduzir "开水间" como "open water room".

Em 2014, após trabalhar no Google, o cientista da computação Ilya, que se transferiu para a OpenAI, fez um avanço inicial. Ele utilizou Redes Neurais Recursivas (RNN) para processar linguagem natural, fazendo com que o Google Tradutor tivesse um desempenho muito superior ao de seus concorrentes.

A RNN propôs o "design cíclico", permitindo que cada neurônio receba simultaneamente as informações de entrada do momento atual e do momento anterior, conferindo à rede neural a capacidade de "integrar contexto".

A RNN acendeu a paixão de pesquisa na academia, e o autor do artigo Transformer, Shazeer, também se aprofundou na pesquisa. Mas os desenvolvedores logo descobriram que a RNN apresentava sérios defeitos:

O algoritmo utiliza cálculos sequenciais, embora resolva o problema de contexto, a eficiência de execução é baixa, tornando difícil lidar com um grande número de parâmetros.

O design complicado do RNN rapidamente deixou o Shazer aborrecido. Assim, a partir de 2015, Shazer e 7 entusiastas começaram a desenvolver uma alternativa ao RNN, e o resultado final foi o Transformer.

Comparado ao RNN, o Transformer tem duas grandes inovações:

Primeiro, substituir o design de ciclos por codificação de posição, permitindo cálculos paralelos, aumentando significativamente a eficiência do treinamento, permitindo que a IA processe grandes volumes de dados e entre na era dos grandes modelos; segundo, fortalecer ainda mais a capacidade de contexto.

O Transformer resolveu de uma só vez várias deficiências, tornando-se gradualmente a escolha indiscutível para NLP, dando a sensação de que "se o Transformer não tivesse surgido, o NLP estaria na escuridão eterna". Até o Ilya abandonou seu amado RNN e se voltou para o Transformer.

Pode-se dizer que o Transformer é o avô de todos os grandes modelos atuais, transformando a pesquisa teórica em um problema puramente de engenharia.

Em 2019, a OpenAI desenvolveu o GPT-2 baseado em Transformer, chocando a comunidade acadêmica. O Google respondeu rapidamente, lançando uma IA mais poderosa - Meena.

Meena não apresenta inovações algorítmicas em relação ao GPT-2, apenas aumentou os parâmetros em 8,5 vezes e a capacidade de computação em 14 vezes. O autor do Transformer, Ashish Vaswani, ficou impressionado com essa "empilhamento violento" e escreveu um memorando intitulado "Meena devora o mundo".

Após o surgimento do Transformer, a velocidade de inovação em algoritmos fundamentais na academia diminuiu significativamente. Elementos de engenharia como engenharia de dados, escala de computação e arquitetura de modelos tornaram-se cada vez mais cruciais nas competições de IA, e qualquer empresa de tecnologia com habilidades técnicas suficientes pode desenvolver grandes modelos.

Portanto, o cientista da computação Andrew Ng, durante uma palestra na Universidade de Stanford, afirmou: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e a atual inteligência artificial generativa. Todas essas são tecnologias gerais, semelhantes a outras tecnologias gerais, como eletricidade e internet."

Embora a OpenAI continue a ser um marco no LLM, as instituições de análise de semicondutores acreditam que a competitividade do GPT-4 se deve a soluções de engenharia - se for open source, qualquer concorrente poderá replicá-lo rapidamente.

O analista prevê que outras grandes empresas de tecnologia poderão em breve desenvolver grandes modelos com desempenho semelhante ao do GPT-4.

A frágil barreira defensiva

Hoje, a "guerra de cem modelos" tornou-se uma realidade objetiva.

Relatórios relacionados mostram que, até julho deste ano, o número de grandes modelos no país já alcançou 130, superando os 114 dos Estados Unidos, conseguindo assim uma ultrapassagem em curva. Vários mitos e lendas já não são suficientes para as empresas de tecnologia do país nomearem seus produtos.

Para além da China e dos EUA, muitos países mais ricos também começaram a implementar o "um país, um modelo": além do Japão e dos Emirados Árabes Unidos, há também o Bhashini liderado pelo governo indiano e o HyperClova X desenvolvido pela empresa de internet sul-coreana Naver.

Esta situação parece ter voltado à era da exploração da Internet, com bolhas por toda parte e a luta contra a "capacidade de dinheiro".

Como mencionado anteriormente, o Transformer transforma grandes modelos em um problema puramente de engenharia; desde que alguém tenha dinheiro e uma placa gráfica, o resto depende dos parâmetros. No entanto, a facilidade de entrada não significa que qualquer um possa se tornar um gigante na era da IA.

O "conflito animal" mencionado no início é um caso típico: embora o Falcon tenha superado o ranking da alpaca, é difícil afirmar que isso causou um grande impacto na Meta.

Como é bem sabido, as empresas que abrem suas próprias pesquisas científicas o fazem não apenas para compartilhar os benefícios da tecnologia com a sociedade, mas também para mobilizar a inteligência coletiva. Com professores universitários, instituições de pesquisa e pequenas e médias empresas cada vez mais a utilizar e melhorar o Llama, a Meta pode aplicar esses resultados em seus próprios produtos.

Para grandes modelos de código aberto, uma comunidade de desenvolvedores ativa é a principal vantagem competitiva.

A Meta estabeleceu a rota de código aberto já em 2015, quando formou o seu laboratório de IA; Zuckerberg, que começou com as redes sociais, é ainda mais habilidoso em "manter boas relações com o público".

Por exemplo, em outubro, a Meta organizou uma atividade de "Incentivo a Criadores em IA": desenvolvedores que utilizam o Llama 2 para resolver problemas sociais como educação e meio ambiente têm a oportunidade de receber um financiamento de 500.000 dólares.

Hoje, a série Llama da Meta tornou-se o padrão para LLMs de código aberto.

Até o início de outubro, 8 dos 10 principais LLMs de código aberto no ranking eram baseados no Llama 2, todos utilizando o seu protocolo de código aberto. Apenas em uma determinada plataforma, já existem mais de 1500 LLMs que utilizam o protocolo de código aberto do Llama 2.

Claro, melhorar o desempenho como o Falcon não é uma má ideia, mas atualmente a maioria dos LLMs ainda apresenta uma diferença significativa em relação ao GPT-4.

Por exemplo, recentemente, o GPT-4 conquistou o primeiro lugar no ranking do AgentBench com uma pontuação de 4,41. O AgentBench foi desenvolvido em conjunto pela Universidade Tsinghua, pela Universidade Estadual de Ohio e pela Universidade da Califórnia em Berkeley, para avaliar a capacidade de raciocínio e decisão de LLM em ambientes de geração aberta multidimensionais. O conteúdo do teste inclui tarefas em 8 ambientes diferentes, como sistemas operacionais, bancos de dados, gráficos de conhecimento, e batalhas de cartas.

Os resultados dos testes mostram que o segundo classificado, Claude, teve apenas 2,77 pontos, com uma diferença clara. Quanto aos LLMs de código aberto que fazem muito barulho, as pontuações nos testes ficam geralmente em torno de 1 ponto, o que é menos de 1/4 do GPT-4.

É importante saber que o GPT-4 foi lançado em março deste ano, e isso é o resultado de mais de meio ano de atraso em relação aos concorrentes globais. A diferença é causada pela equipe de cientistas de alto nível da OpenAI e pela experiência acumulada em longos períodos de pesquisa em LLM, o que lhes permite estar sempre à frente.

Ou seja, a capacidade central dos grandes modelos não são os parâmetros, mas sim a construção do ecossistema ( código aberto ) ou a capacidade de inferência pura ( código fechado ).

Com a crescente atividade da comunidade de código aberto, o desempenho de cada LLM pode tender a convergir, uma vez que todos estão a usar arquiteturas de modelos e conjuntos de dados semelhantes.

Outro problema mais intuitivo é: além do Midjourney, parece que nenhum outro grande modelo conseguiu ganhar dinheiro.

Onde estão os pontos de ancoragem de valor

Em agosto deste ano, um artigo intitulado "A OpenAI pode falir até o final de 2024" chamou a atenção. A essência do artigo pode ser resumida em uma frase: a velocidade com que a OpenAI está queimando dinheiro é muito rápida.

O texto menciona que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, com uma perda de cerca de 540 milhões de dólares apenas em 2022, tendo que esperar que os investidores assumam a conta.

Embora o título do artigo seja exagerado, ele revela a situação de muitos fornecedores de grandes modelos: um desequilíbrio sério entre custos e receitas.

Custos excessivos significam que atualmente só a Nvidia está a ganhar muito dinheiro com IA, talvez mais a Broadcom.

Segundo estimativas de empresas de consultoria, a Nvidia vendeu mais de 300 mil placas H100 no segundo trimestre deste ano. Este é um chip de IA que tem uma eficiência extremamente alta no treinamento de IA, e empresas de tecnologia e instituições de pesquisa em todo o mundo estão a comprá-las. Se empilharmos as 300 mil placas H100 vendidas, o peso equivale a 4,5 aviões Boeing 747.

A performance da NVIDIA disparou, com uma receita que aumentou 854% em relação ao ano anterior, surpreendendo Wall Street. Vale a pena mencionar que atualmente o preço do H100 no mercado de segunda mão já subiu para 40-50 mil dólares, enquanto o custo dos materiais é de apenas cerca de 3000 dólares.

Os altos custos de poder computacional tornaram-se, até certo ponto, um obstáculo ao desenvolvimento da indústria. A Sequoia Capital estimou que as empresas de tecnologia em todo o mundo gastarão anualmente cerca de 200 mil milhões de dólares na construção de infraestrutura para grandes modelos; em comparação, os grandes modelos podem gerar anualmente no máximo 75 mil milhões de dólares em receitas, existindo uma lacuna de pelo menos 125 mil milhões de dólares.

Além disso, com exceção de poucos casos como a Midjourney, a maioria das empresas de software, após gastar enormes quantias, ainda não conseguiu definir como lucrar. Especialmente os dois grandes líderes do setor, a Microsoft e a Adobe, estão enfrentando algumas dificuldades.

A Microsoft e a OpenAI colaboraram no desenvolvimento da ferramenta de geração de código AI GitHub Copilot, que cobra uma taxa mensal de 10 dólares, mas devido aos custos de infraestrutura, a Microsoft acaba por perder 20 dólares por mês. Usuários intensivos podem fazer com que a Microsoft perca até 80 dólares por mês. A partir disso, pode-se inferir que o Microsoft 365 Copilot, com um preço de 30 dólares, pode ter prejuízos ainda maiores.

Da mesma forma, a Adobe, que acabou de lançar a ferramenta Firefly AI, rapidamente implementou um sistema de pontos de apoio para evitar que o uso excessivo pelos usuários causasse prejuízos à empresa. Assim que os usuários ultrapassarem os pontos alocados mensalmente, a Adobe reduzirá a velocidade do serviço.

É importante saber que a Microsoft e a Adobe já são gigantes de software com cenários de negócios bem definidos e uma grande quantidade de usuários pagantes. Enquanto isso, a maioria dos modelos de grande escala, com parâmetros acumulados em montanhas, ainda tem como principal aplicação o chat.

É inegável que, se não fosse o surgimento da OpenAI e do ChatGPT, esta revolução da IA talvez não tivesse acontecido; mas atualmente, o valor trazido pelo treinamento de grandes modelos provavelmente ainda é discutível.

Além disso, com o aumento da competição homogeneizada e o crescente número de modelos de código aberto disponíveis no mercado, o espaço de sobrevivência dos fornecedores de grandes modelos pode ficar ainda mais limitado.

O sucesso do iPhone 4 não foi devido ao processador A4 de 45nm, mas sim porque ele conseguia jogar Plants vs. Zombies e Angry Birds.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 8
  • Compartilhar
Comentário
0/400
HalfBuddhaMoneyvip
· 15h atrás
É bom ter dinheiro, o preço do petróleo é definido por si próprio.
Ver originalResponder0
LayerZeroEnjoyervip
· 07-12 20:55
É uma pena que a alpaca tenha perdido.
Ver originalResponder0
LiquidityHuntervip
· 07-10 11:22
Então os magnatas do petróleo também estão brincando com grandes modelos.
Ver originalResponder0
RetiredMinervip
· 07-10 11:22
Fazer tanto assim é apenas para brincar, no fim das contas, não é apenas fazer as pessoas de parvas.
Ver originalResponder0
rekt_but_vibingvip
· 07-10 11:17
Outra oportunidade de serem enganados por idiotas chegou.
Ver originalResponder0
QuorumVotervip
· 07-10 11:12
Os Emirados Árabes Unidos também estão a investir em IA?
Ver originalResponder0
just_here_for_vibesvip
· 07-10 11:01
Os Emirados Árabes Unidos estão a fazer coisas bastante ousadas.
Ver originalResponder0
Frontrunnervip
· 07-10 10:54
Depois de ver a batalha dos animais, veja quem consegue sobreviver até ao fim.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)