Meta usa diferentes sentidos humanos para gerar conteúdo

A Meta anunciou que o lançamento de um modelo de Inteligência Artificial (IA) que cria conteúdos a partir de estudos dos sentidos humana. O projeto ImageBind é um sistema que analisa os dados multissensoriais, como visão e sensação de profundidade, de modo similar ao cérebro humano, transformando isso em informação para gerar uma ação.

LEIA TAMBÉM: “Especialistas pedem suspensão no avanço de IA”

LEIA TAMBÉM: “4 plataformas de IA para execução de tarefas

 O ImageBind, o primeiro modelo de IA capaz de vincular informações de seis modalidades. O modelo aprende uma única incorporação ou espaço de representação compartilhado, não apenas para texto, imagem/vídeo e áudio, mas também para sensores que registram profundidade (3D), térmica (radiação infravermelha) e unidades de medição inercial (IMU), que calculam o movimento e posição. O ImageBind equipa as máquinas com uma compreensão holística que conecta os objetos em uma foto com a forma como eles soarão, sua forma 3D, quão quentes ou frios eles são e como eles se movem.

Todos esses dados são coletados automaticamente e utilizados no cálculo da próxima ação, sem a necessidade de supervisão humana. Os cientistas da Meta acreditam que tal modelo poderia superar o desempenho dos testes feitos anteriormente com máquinas especializadas treinadas por humanos, afinal a aprendizagem de máquina pode dispensar a interferência externa.

O ImageBind faz parte dos esforços da Meta para criar sistemas de IA multimodais que aprendam com todos os tipos de dados possíveis ao seu redor. À medida que o número de modalidades aumenta, o ImageBind abre as comportas para que os pesquisadores tentem desenvolver novos sistemas holísticos, como a combinação de sensores 3D e IMU para projetar ou experimentar mundos virtuais imersivos. O ImageBind também pode fornecer uma maneira rica de explorar memórias – procurando fotos, vídeos, arquivos de áudio ou mensagens de texto usando uma combinação de texto, áudio e imagem.

ImageBind na prática

Para que se possa entender melhor o funcionamento do ImageBind, vamos idealizar um robô de carregamento de trens de carga que lida com líquidos inflamáveis.  Uma máquina comum continuaria a executar sua função indefinidamente, mas um robô equipado com a IA da Meta poderia alertar os técnicos humanos ao rastrear uma variação de calor. O ajudante robótico associaria tal achado a um som de explosão e à constatação visual de fogo no interior do vagão para tomar uma decisão. Dependendo do treinamento do algoritmo do robô, ele poderia decidir sozinho o melhor a ser feito. Sairia de perto apenas? Pegaria um extintor de incêndio? Desligaria o circuito elétrico? Avisaria para os humanos evacuarem o local? Todas as decisões seriam tomadas com base em cálculos matemáticos envolvendo probabilidades e estatísticas associadas aos dados holísticos.

A Meta entende que tem muito a ser descoberto sobre a aprendizagem multimodal. A comunidade de pesquisa de IA ainda precisa quantificar efetivamente os comportamentos de dimensionamento que aparecem apenas em modelos maiores e entender suas aplicações. ImageBind é um passo para avaliá-los de forma rigorosa e mostrar novas aplicações na geração e recuperação de imagens.

VEJA TAMBÉM: “Atendimento humanizado ou automático: qual a melhor opção?”

VEJA TAMBÉM: “LinkedIn demitirá 700 mil funcionários e encerra aplicativo na China”

Postagens relacionados

IA do TJGO revoluciona análise de processos no Brasil

Inteligência Artificial para diagnóstico estrutural

Inteligência Artificial para diagnóstico estrutural

Vendas preditivas no WhatsApp com IA permitem antecipar necessidades, recomendar ofertas no momento ideal e conduzir o cliente ao fechamento de forma mais ágil, personalizada e escalável.

WhatsApp com IA: A Nova Era das Vendas Preditivas

Crie uma Base de Conhecimento Imbatível para IA em 5 PassosCrie uma Base de Conhecimento Imbatível para IA em 5 Passos

Crie uma Base de Conhecimento Imbatível para IA em 5 Passos

Seedance 2.0 e Human-in-the-Loop: O Futuro do Audiovisual com IA

Seedance 2.0 e Human-in-the-Loop: O Futuro do Audiovisual com IA

Como implementar Agentes de WhatsApp em conformidade com a LGPD