NVIDIA acelera inferência no Meta Llama 3
- Sexta, 19th Abril, 2024
- 08:43am
O mais recente modelo de linguagem aberta da Meta — desenvolvido com tecnologia NVIDIA — é otimizado para rodar em GPUs NVIDIA, desde a nuvem e o data center até a borda e o PC.
NVIDIA anunciou hoje otimizações em todas as suas plataformas para acelerar o Meta Llama 3 , a última geração do modelo de linguagem grande ( LLM ).
O modelo aberto combinado com a computação acelerada da NVIDIA capacita desenvolvedores, pesquisadores e empresas para inovar de forma responsável em uma ampla variedade de aplicações.
Treinado em NVIDIA AI
Meta engenheiros treinaram o Llama 3 em um cluster de computadores com 24.576 GPUs NVIDIA H100 Tensor Core , conectadas a uma rede NVIDIA Quantum-2 InfiniBand . Com o suporte da NVIDIA, a Meta ajustou sua rede, software e arquiteturas de modelo para seu carro-chefe LLM.
Para avançar ainda mais no estado da arte em IA generativa , a Meta descreveu recentemente planos para dimensionar sua infraestrutura para 350.000 GPUs H100.
Colocando o Lhama 3 para funcionar
Versões do Llama 3, aceleradas em GPUs NVIDIA, estão disponíveis hoje para uso na nuvem, data center, edge e PC.
Em um navegador, os desenvolvedores podem experimentar o Llama 3 em ai.nvidia.com . Ele é fornecido como um microsserviço NVIDIA NIM com uma interface de programação de aplicativos padrão que pode ser implantada em qualquer lugar.
As empresas podem ajustar o Llama 3 com seus dados usando NVIDIA NeMo , uma estrutura de código aberto para LLMs que faz parte da plataforma NVIDIA AI Enterprise segura e suportada. Modelos personalizados podem ser otimizados para inferência com NVIDIA TensorRT-LLM e implantados com NVIDIA Triton Inference Server .
Levando Llama 3 para dispositivos e PCs
O Llama 3 também roda em NVIDIA Jetson Orin para robótica e dispositivos de computação de ponta, criando agentes interativos como os do Jetson AI Lab .
Além do mais, as GPUs NVIDIA RTX e GeForce RTX para estações de trabalho e PCs aceleram a inferência no Llama 3. Esses sistemas oferecem aos desenvolvedores uma meta de mais de 100 milhões de sistemas acelerados pela NVIDIA em todo o mundo.
Obtenha desempenho ideal com Llama 3
As melhores práticas na implantação de um LLM para um chatbot envolvem um equilíbrio entre baixa latência, boa velocidade de leitura e uso ideal de GPU para reduzir custos.
Tal serviço precisa entregar tokens – o equivalente aproximado de palavras para um LLM – a cerca de duas vezes a velocidade de leitura do usuário, que é cerca de 10 tokens/segundo.
Aplicando essas métricas, uma única GPU NVIDIA H200 Tensor Core gerou cerca de 3.000 tokens/segundo — o suficiente para atender cerca de 300 usuários simultâneos — em um teste inicial usando a versão do Llama 3 com 70 bilhões de parâmetros.
Isso significa que um único servidor NVIDIA HGX com oito GPUs H200 poderia fornecer 24.000 tokens/segundo, otimizando ainda mais os custos ao oferecer suporte a mais de 2.400 usuários ao mesmo tempo.
Para dispositivos de ponta, a versão do Llama 3 com oito bilhões de parâmetros gerou até 40 tokens/segundo no Jetson AGX Orin e 15 tokens/segundo no Jetson Orin Nano.
Avançando Modelos Comunitários
Contribuidora ativa de código aberto, a NVIDIA está comprometida em otimizar o software comunitário que ajuda os usuários a enfrentar seus desafios mais difíceis. Os modelos de código aberto também promovem a transparência da IA e permitem que os utilizadores partilhem amplamente o trabalho sobre segurança e resiliência da IA.
Saiba mais sobre como a plataforma de inferência de IA da NVIDIA, incluindo como NIM, TensorRT-LLM e Triton usam técnicas de última geração, como adaptação de baixa classificação, para acelerar os LLMs mais recentes.
Fonte: blogs.nvidia.com