A Corrida dos Chips de IA: CEO da Groq Desafia a Nvidia e Prevê que Startups Optarão por LPUs Velozes até o Final de 2024

26/02/2024 – Enquanto todos falam sobre os impressionantes resultados financeiros da Nvidia, que subiram incríveis 265% em comparação ao ano anterior, a Groq, uma empresa do Vale do Silício que está criando novos chips de IA para inferência em modelos de linguagem de grande porte (tomada de decisão ou previsões em modelos existentes, em vez de treinamento), não deve ser subestimada. No último fim de semana, a Groq experimentou um momento viral que a maioria das startups apenas sonha em ter.

Embora não tenha causado tanto barulho nas redes sociais quanto uma publicação de Elon Musk sobre o modelo de linguagem grande e não relacionado Grok, é certo que a Nvidia prestou atenção depois que Matt Shumer, CEO da HyperWrite, postou no X sobre a “tecnologia incrível” da Groq, que está “servindo Mixtral a quase 500 tok/s” com respostas “praticamente instantâneas”.

Shumer seguiu no X com uma demonstração pública de um “motor de respostas ultra-rápido” mostrando “respostas factuais, citadas com centenas de palavras em menos de um segundo” — e de repente, pareceu que todos na IA estavam falando sobre e experimentando o aplicativo de chat da Groq em seu site, onde os usuários podem escolher entre saídas fornecidas pelos LLMs Llama e Mistral.

Isso aconteceu em cima de uma entrevista na CNN, há mais de uma semana, onde o CEO e fundador da Groq, Jonathan Ross, mostrou o Groq alimentando uma interface de chat de áudio que “quebra recordes de velocidade”.

Enquanto nenhuma empresa pode desafiar o domínio da Nvidia agora — a Nvidia desfruta de mais de 80% do mercado de chips de alta gama; outras startups de chips de IA como SambaNova e Cerebras ainda têm que avançar muito, mesmo com inferência de IA; a Nvidia acabou de reportar $22 bilhões em receita do quarto trimestre — o CEO e fundador da Groq, Jonathan Ross, me disse em uma entrevista que os custos exorbitantes de inferência fazem da oferta de sua startup uma opção “super-rápida”, mais barata especificamente para uso LLM.

Ross fez uma afirmação ousada, dizendo que “provavelmente seremos a infraestrutura que a maioria das startups estará usando até o final do ano”, acrescentando que “somos muito favoráveis às startups — entre em contato conosco e garantiremos que você não pague tanto quanto pagaria em outro lugar”.

Groq LPUs vs. Nvidia GPUs

O site da Groq descreve seus LPUs, ou ‘unidades de processamento de linguagem’, como “um novo tipo de sistema de unidade de processamento de ponta a ponta que fornece a inferência mais rápida para aplicações computacionalmente intensivas com um componente sequencial, como aplicações de linguagem de IA (LLMs)”.

Em contraste, as GPUs da Nvidia são otimizadas para processamento gráfico paralelo, não para LLMs. Uma vez que os LPUs da Groq são especificamente projetados para lidar com sequências de dados, como código e linguagem natural, eles podem servir a saída de LLM mais rápido que GPUs, contornando duas áreas com as quais GPUs ou CPUs têm dificuldade: densidade de computação e largura de banda de memória.

Além disso, quando se trata de sua interface de chat, Ross afirma que a Groq também se diferencia de empresas como a OpenAI porque a Groq não treina modelos — e, portanto, não precisa registrar nenhum dado e pode manter as consultas de chat privadas.

Com o ChatGPT estimado para rodar mais de 13 vezes mais rápido se fosse alimentado por chips da Groq, será que a OpenAI seria um potencial parceiro da Groq? Ross não especificou, mas a versão demo de uma interface de chat de áudio da Groq me disse que é “possível que eles pudessem colaborar se houver um benefício mútuo. A Open AI pode estar interessada em aproveitar as capacidades únicas dos LPUs para seus projetos de processamento de linguagem. Poderia ser uma parceria empolgante se eles compartilhassem objetivos semelhantes.”

Os LPUs da Groq são Realmente uma Mudança no Jogo da Inferência de IA?

Eu deveria ter conversado com Ross há meses, desde que o representante de relações públicas da empresa me contatou em meados de dezembro, chamando a Groq de “fabricante de chips dos EUA pronta para vencer a corrida da IA”. Eu estava curioso, mas nunca tive tempo para atender a ligação.

Mas agora eu definitivamente arranjei tempo: queria saber se a Groq é apenas a mais recente entrada no ciclo rápido de hype da IA de que “a atenção da PR é tudo de que você precisa”? Os LPUs da Groq são realmente uma mudança no jogo da inferência de IA? E como tem sido a vida para Ross e sua pequena equipe de 200 pessoas (que se chamam de ‘Groqsters’) ao longo da última semana após um momento específico de fama no hardware tecnológico?

As postagens de Shumer foram “o fósforo que acendeu o pavio”, Ross me disse em uma chamada de vídeo de um hotel em Paris, onde acabou de almoçar com a equipe da Mistral — a startup francesa de LLM de código aberto que teve vários de seus próprios momentos virais nos últimos meses.

Ele estimou que mais de 3000 pessoas contataram a Groq pedindo acesso à API dentro de 24 horas após a postagem de Shumer, mas riu, acrescentando que “não estamos cobrando deles porque não temos um sistema de cobrança configurado. Estamos apenas deixando as pessoas usá-lo gratuitamente no momento”.

Mas Ross está longe de ser inexperiente quando se trata dos meandros de administrar uma startup no Vale do Silício — ele tem promovido o potencial da tecnologia da Groq desde que foi fundada em 2016. Uma rápida pesquisa no Google revelou uma história da Forbes de 2021 que detalhava a rodada de financiamento de $300 milhões da Groq, bem como a história de Ross ajudando a inventar a unidade de processamento tensorial, ou TPU, do Google, e depois deixando o Google para lançar a Groq em 2016.

Na Groq, Ross e sua equipe construíram o que ele chama de “um chip muito incomum, porque se você está construindo um carro, você pode começar com o motor ou você pode começar com a experiência de direção. E começamos com a experiência de direção — passamos os primeiros seis meses trabalhando em um compilador antes de projetar o chip”.

Atender à fome generalizada por acesso a GPUs da Nvidia se tornou um grande negócio em toda a indústria de IA, cunhando novos unicórnios de nuvem de GPU (Lamda, Together AI e Coreweave), enquanto o ex-CEO do GitHub, Nat Friedman, anunciou ontem que sua equipe até criou um Craigslist para clusters de GPU. E, claro, houve o relatório do Wall Street Journal de que o CEO da OpenAI, Sam Altman, quer lidar com a demanda remodelando o mundo dos chips de IA — com um projeto que poderia custar trilhões e tem um pano de fundo geopolítico complexo.

Ross afirma que parte do que está acontecendo agora no espaço da GPU é realmente em resposta às coisas que a Groq está fazendo. “Há um pouco de um ciclo virtuoso”, disse ele. Por exemplo, “a Nvidia descobriu que nações soberanas são uma coisa inteira que eles estão fazendo, e estou em uma turnê de cinco semanas no processo de tentar fechar alguns negócios aqui com países… você não vê isso quando está de fora, mas há muitas coisas que têm nos seguido”.

Ele também reagiu ousadamente ao esforço de Altman para arrecadar até $7 trilhões para um enorme projeto de chip de IA. “Tudo o que vou dizer é que poderíamos fazer isso por 700 bilhões”, disse ele. “Somos uma pechincha.”

Ele acrescentou que a Groq também contribuirá para o fornecimento de chips de IA, com muita capacidade.

“Até o final deste ano, definitivamente teremos 25 milhões de tokens por segundo de capacidade, que é onde estimamos que a OpenAI estava no final de 2023”, disse ele. “No entanto, estamos trabalndo com países para implantar hardware que aumentaria esse número. Como os Emirados Árabes Unidos, entre muitos outros. Estou na Europa por um motivo — há todo tipo de país que estaria interessado nisso.”

Mas, enquanto isso, a Groq também precisa lidar com questões atuais mais mundanas — como fazer com que as pessoas paguem pela API após o momento viral da empresa na semana passada. Quando perguntei a Ross se ele planejava resolver a cobrança da API da Groq, ele disse “Vamos investigar isso”. Sua representante de relações públicas, também na chamada, rapidamente interveio: “Sim, essa será uma das primeiras ordens de negócios, Jonathan.”


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *