Home Tecnologia Zuckerberg promove a mais recente visão de vídeo AI da Meta com...

Zuckerberg promove a mais recente visão de vídeo AI da Meta com o CEO da Nvidia, Jensen Huang

14
0
Zuckerberg promove a mais recente visão de vídeo AI da Meta com o CEO da Nvidia, Jensen Huang

A Meta teve um impacto palpável no ano passado com Segmente qualquer coisaum modelo de aprendizado de máquina que poderia identificar e delinear de forma rápida e confiável praticamente qualquer coisa em uma imagem. A sequência, que o CEO Mark Zuckerberg estreou no palco na segunda-feira no SIGGRAPH, leva o modelo para o domínio do vídeo, mostrando o quão rápido o campo está se movendo.

Segmentação é o termo técnico para quando um modelo de visão olha para uma imagem e seleciona as partes: “isto é um cachorro, esta é uma árvore atrás do cachorro”, esperançosamente, e não “esta é uma árvore crescendo de um cachorro”. Isso vem acontecendo há décadas, mas recentemente ficou muito melhor e mais rápido, com o Segment Anything sendo um grande passo à frente.

Segmento Qualquer Coisa 2 (SA2) é uma continuação natural, pois se aplica nativamente ao vídeo e não apenas a imagens estáticas; embora você possa, é claro, executar o primeiro modelo em cada quadro de um vídeo individualmente, esse não é o fluxo de trabalho mais eficiente.

“Cientistas usam essas coisas para estudar, tipo, recifes de corais e habitats naturais, coisas assim. Mas ser capaz de fazer isso em vídeo e ter zero shot e dizer o que você quer, é bem legal”, disse Zuckerberg em uma conversa com o CEO da Nvidia, Jensen Huang.

O processamento de vídeo é, claro, muito mais exigente computacionalmente, e é uma prova dos avanços feitos em toda a indústria em eficiência que o SA2 pode executar sem derreter o datacenter. Claro, ainda é um modelo enorme que precisa de hardware sério para funcionar, mas a segmentação rápida e flexível era praticamente impossível até um ano atrás.

Créditos da imagem: Meta

O modelo, assim como o primeiro, será aberto e gratuito, e embora não haja nenhuma menção a uma versão hospedada, é algo que essas empresas de IA às vezes oferecem. Mas há uma demonstração gratuita.

Naturalmente, tal modelo leva uma tonelada de dados para treinar, e a Meta também está lançando um grande banco de dados anotado de 50.000 vídeos que ela criou apenas para esse propósito. No artigo que descreve o SA2, outro banco de dados de mais de 100.000 vídeos “disponíveis internamente” também foi usado para treinamento, e este não está sendo tornado público — pedi à Meta mais informações sobre o que é isso e por que não está sendo lançado. (Nosso palpite é que ele é originário de perfis públicos do Instagram e do Facebook.)

Exemplos de dados de treinamento rotulados.
Créditos da imagem: Meta

A Meta tem sido líder no domínio de IA “aberta” por alguns anos, embora na verdade (como Zuckerberg opinou na conversa) tenha feito isso por um longo tempo com ferramentas como PyTorch. Mas mais recentemente LLaMa, Segment Anything e alguns outros modelos que ela lançou livremente, embora sua “abertura” seja uma questão de debate, tornaram-se uma barra relativamente acessível para o desempenho de IA nessas áreas.

Zuckerberg mencionou que a abertura não é inteiramente fruto da bondade dos corações da Meta, mas isso não significa que suas intenções sejam impuras:

“Isso não é apenas como um pedaço de software que você pode construir — você precisa de um ecossistema em torno dele. Ele quase nem funcionaria tão bem se não o tornássemos de código aberto, certo? Não estamos fazendo isso porque somos pessoas altruístas, embora eu ache que isso será útil para o ecossistema — estamos fazendo isso porque achamos que isso tornará a coisa que estamos construindo a melhor.”

De qualquer forma, certamente será bem utilizado. Confira o GitHub aqui.

Source