NVIDIA Blackwell define novo padrão para IA generativa na estreia do MLPerf Inference
O primeiro envio usando a GPU NVIDIA Blackwell oferece até 4x mais desempenho no Llama 2 70B, e a arquitetura NVIDIA Hopper proporciona grandes ganhos em benchmarks de IA do setor.
À medida que as empresas correm para adotar IA generativa e trazer novos serviços ao mercado, as demandas sobre infraestrutura de data center nunca foram tão grandes. Treinar grandes modelos de linguagem é um desafio, mas entregar serviços em tempo real com tecnologia LLM é outro.
Na última rodada de benchmarks do setor MLPerf, Inference v4.1, as plataformas NVIDIA apresentaram desempenho líder em todos os testes de data center. O primeiro envio da próxima plataforma NVIDIA Blackwell revelou até 4x mais desempenho do que a GPU NVIDIA H100 Tensor Core na maior carga de trabalho LLM da MLPerf, Llama 2 70B, graças ao uso de um Transformer Engine de segunda geração e FP4 Tensor Cores .
A GPU NVIDIA H200 Tensor Core apresentou resultados excelentes em todos os benchmarks na categoria de data center — incluindo a mais recente adição ao benchmark, o Mixtral 8x7B Mix of Experts (MoE) LLM, que apresenta um total de 46,7 bilhões de parâmetros, com 12,9 bilhões de parâmetros ativos por token.
Os modelos MoE ganharam popularidade como uma forma de trazer mais versatilidade às implantações de LLM, pois são capazes de responder a uma ampla variedade de perguntas e executar tarefas mais diversas em uma única implantação. Eles também são mais eficientes, pois ativam apenas alguns especialistas por inferência — o que significa que eles entregam resultados muito mais rápido do que modelos densos de tamanho semelhante.
O crescimento contínuo dos LLMs está impulsionando a necessidade de mais computação para processar solicitações de inferência. Para atender aos requisitos de latência em tempo real para atender aos LLMs de hoje, e para fazer isso para o maior número possível de usuários, a computação multi-GPU é essencial. O NVIDIA NVLink e o NVSwitch fornecem comunicação de alta largura de banda entre GPUs com base na arquitetura NVIDIA Hopper e fornecem benefícios significativos para inferência de modelos grandes em tempo real e econômica. A plataforma Blackwell estenderá ainda mais os recursos do NVLink Switch com domínios NVLink maiores com 72 GPUs.
Além dos envios da NVIDIA, 10 parceiros da NVIDIA — ASUSTek, Cisco, Dell Technologies, Fujitsu, Giga Computing, Hewlett Packard Enterprise (HPE), Juniper Networks, Lenovo, Quanta Cloud Technology e Supermicro — fizeram envios sólidos de MLPerf Inference, destacando a ampla disponibilidade das plataformas NVIDIA.
Inovação de software implacável
As plataformas NVIDIA passam por desenvolvimento contínuo de software, acumulando melhorias de desempenho e recursos mensalmente.
Na última rodada de inferência, as ofertas da NVIDIA, incluindo a arquitetura NVIDIA Hopper, a plataforma NVIDIA Jetson e o NVIDIA Triton Inference Server , tiveram grandes avanços em termos de desempenho.
A GPU NVIDIA H200 proporcionou até 27% mais desempenho de inferência de IA generativa em relação à rodada anterior, ressaltando o valor agregado que os clientes obtêm ao longo do tempo com seu investimento na plataforma NVIDIA.
O Triton Inference Server, parte da plataforma NVIDIA AI e disponível com o software NVIDIA AI Enterprise , é um servidor de inferência de código aberto com todos os recursos que ajuda as organizações a consolidar servidores de inferência específicos de estrutura em uma plataforma única e unificada. Isso ajuda a reduzir o custo total de propriedade de modelos de IA de serviço em produção e reduz os tempos de implantação do modelo de meses para minutos.
Nesta rodada do MLPerf, o Triton Inference Server apresentou desempenho quase igual aos envios bare-metal da NVIDIA, mostrando que as organizações não precisam mais escolher entre usar um servidor de inferência de IA de nível de produção rico em recursos e atingir o desempenho máximo de rendimento.
Indo até o limite
Implantados na borda, os modelos de IA generativa podem transformar dados de sensores, como imagens e vídeos, em insights acionáveis em tempo real com forte consciência contextual. A plataforma NVIDIA Jetson para IA de borda e robótica é exclusivamente capaz de executar qualquer tipo de modelo localmente, incluindo LLMs, transformadores de visão e Stable Diffusion.
Nesta rodada de benchmarks MLPerf, o sistema em módulos NVIDIA Jetson AGX Orin obteve uma melhoria de mais de 6,2x na taxa de transferência e uma melhoria de latência de 2,4x em relação à rodada anterior na carga de trabalho GPT-J LLM. Em vez de desenvolver para um caso de uso específico, os desenvolvedores agora podem usar este modelo de 6 bilhões de parâmetros de uso geral para interagir perfeitamente com a linguagem humana, transformando a IA generativa na borda.
Liderança de desempenho em todos os aspectos
Esta rodada de MLPerf Inference mostrou a versatilidade e o desempenho líder das plataformas NVIDIA — estendendo-se do data center até a borda — em todas as cargas de trabalho do benchmark, supercarregando os aplicativos e serviços mais inovadores com tecnologia de IA. Para saber mais sobre esses resultados, consulte nosso blog técnico .
Os sistemas com GPU H200 estão disponíveis hoje na CoreWeave — a primeira provedora de serviços de nuvem a anunciar disponibilidade geral — e nos fabricantes de servidores ASUS, Dell Technologies, HPE, QCT e Supermicro.
Fonte: blogs.nvidia.com