Publicado 19 dez 2022

Nvidia e Microsoft constroem supercomputador na Nuvem

Azure tem supercomputador de IA na Nuvem com máquinas virtuais ND e NC escaláveis para treinamento e inferência distribuídos.

Foi anunciada uma parceria entre a Nvidia e a Microsoft para construir um dos mais potentes supercomputadores de IA do mundo. O objetivo da colaboração é utilizar a infraestrutura avançada de supercomputação do Microsoft Azure e combinar com as GPUs Nvidia, a rede e a pilha completa de software de IA. A proposta é ajudar as empresas a treinar, implementar e escalar seus modelos de IA, incluindo aqueles grandes e de última geração.

Para isso, o supercomputador de IA será baseado na Nuvem do Azure, que inclui máquinas virtuais escaláveis das séries ND e NC. Essas máquinas são otimizadas para o treinamento e inferência distribuídos de IA. Essa será a primeira Nuvem pública a incorporar a avançada pilha de IA da Nvidia, adicionando dezenas de milhares de GPUs Nvidia A100 e H100, a rede Nvidia Quantum-2 400 Gb/s InfiniBand e o pacote de software Nvidia AI Enterprise à sua plataforma.

A colaboração entre a Nvidia e a Microsoft, em que a Nvidia usará as instâncias de máquina virtual escalonáveis do Azure para acelerar a pesquisa em IA generativa. Essa é uma área emergente de IA que usa modelos fundamentais para algoritmos de autoaprendizagem não supervisionados, que criam novos textos, códigos, imagens digitais, vídeos ou áudios. Um dos modelos que será usado é o Megatron Turing NLG 530B.

As empresas irão colaborar na otimização do software de aprendizado profundo DeepSpeed da Microsoft e disponibilizarão para os clientes corporativos da Microsoft a pilha completa de fluxos de trabalho de IA e kits de desenvolvimento de software da Nvidia, otimizados para o Azure.

De acordo com Manuvir Das, vice-presidente de Computação Corporativa da Nvidia, a tecnologia de IA está avançando rapidamente e a colaboração com a Microsoft fornecerá infraestrutura e software de IA de última geração para pesquisadores e empresas.

Scott Guthrie, vice-presidente executivo do Cloud + AI Group da Microsoft, acrescentou que a IA está alimentando a próxima onda de automação nas empresas e permitindo que elas façam mais com menos em meio à incerteza econômica. Ele também afirmou que a colaboração com a Nvidia desbloqueia a plataforma de supercomputador mais escalável do mundo, oferecendo recursos de IA de última geração para todas as empresas no Microsoft Azure.

Desempenho máximo

As instâncias de máquina virtual do Microsoft Azure, que são otimizadas para IA, são projetadas com as GPUs de Data Center mais avançadas da Nvidia e são as primeiras instâncias de Nuvem pública a incorporar a rede Nvidia Quantum-2 400Gb/s InfiniBand. Isso permite que os clientes implementem milhares de GPUs em um único cluster para treinar até mesmo os modelos de linguagem mais massivos, criar os sistemas de recomendação mais complexos em escala e habilitar a IA generativa em grande escala.

No momento, as instâncias do Azure possuem rede Nvidia Quantum 200 Gb/s InfiniBand com GPUs Nvidia A100, mas em breve serão atualizadas para incluir a rede Quantum-2 400Gb/s InfiniBand e GPUs H100. Essas instâncias combinadas com a infraestrutura avançada de computação em Nuvem, rede e armazenamento do Azure, oferecerão desempenho escalonável máximo para treinamento de IA e cargas de trabalho de inferência de aprendizado profundo, independentemente do tamanho.

Além disso, a plataforma oferecerá suporte para uma ampla variedade de aplicativos e serviços de IA incluindo o pacote de software Nvidia AI Enterprise e o Microsoft DeepSpeed.

O Microsoft DeepSpeed usará o Nvidia H100 Transformer Engine para acelerar modelos baseados em transformadores. Esses modelos são usados para criar IA generativa, modelos de linguagem avançados e até mesmo para escrever código de computador. A tecnologia utiliza recursos de precisão de ponto flutuante de 8 bits para aumentar significativamente o desempenho do DeepSpeed em cálculos de IA com transformadores, resultando em uma taxa de transferência de operações de 16 bits duas vezes maior.

Fonte: https://inforchannel.com.br