A Meta anunciou que o lançamento de um modelo de Inteligência Artificial (IA) que cria conteúdos a partir de estudos dos sentidos humana. O projeto ImageBind é um sistema que analisa os dados multissensoriais, como visão e sensação de profundidade, de modo similar ao cérebro humano, transformando isso em informação para gerar uma ação.
LEIA TAMBÉM: “Especialistas pedem suspensão no avanço de IA”
LEIA TAMBÉM: “4 plataformas de IA para execução de tarefas“
O ImageBind, o primeiro modelo de IA capaz de vincular informações de seis modalidades. O modelo aprende uma única incorporação ou espaço de representação compartilhado, não apenas para texto, imagem/vídeo e áudio, mas também para sensores que registram profundidade (3D), térmica (radiação infravermelha) e unidades de medição inercial (IMU), que calculam o movimento e posição. O ImageBind equipa as máquinas com uma compreensão holística que conecta os objetos em uma foto com a forma como eles soarão, sua forma 3D, quão quentes ou frios eles são e como eles se movem.

Todos esses dados são coletados automaticamente e utilizados no cálculo da próxima ação, sem a necessidade de supervisão humana. Os cientistas da Meta acreditam que tal modelo poderia superar o desempenho dos testes feitos anteriormente com máquinas especializadas treinadas por humanos, afinal a aprendizagem de máquina pode dispensar a interferência externa.
O ImageBind faz parte dos esforços da Meta para criar sistemas de IA multimodais que aprendam com todos os tipos de dados possíveis ao seu redor. À medida que o número de modalidades aumenta, o ImageBind abre as comportas para que os pesquisadores tentem desenvolver novos sistemas holísticos, como a combinação de sensores 3D e IMU para projetar ou experimentar mundos virtuais imersivos. O ImageBind também pode fornecer uma maneira rica de explorar memórias – procurando fotos, vídeos, arquivos de áudio ou mensagens de texto usando uma combinação de texto, áudio e imagem.
ImageBind na prática
Para que se possa entender melhor o funcionamento do ImageBind, vamos idealizar um robô de carregamento de trens de carga que lida com líquidos inflamáveis. Uma máquina comum continuaria a executar sua função indefinidamente, mas um robô equipado com a IA da Meta poderia alertar os técnicos humanos ao rastrear uma variação de calor. O ajudante robótico associaria tal achado a um som de explosão e à constatação visual de fogo no interior do vagão para tomar uma decisão. Dependendo do treinamento do algoritmo do robô, ele poderia decidir sozinho o melhor a ser feito. Sairia de perto apenas? Pegaria um extintor de incêndio? Desligaria o circuito elétrico? Avisaria para os humanos evacuarem o local? Todas as decisões seriam tomadas com base em cálculos matemáticos envolvendo probabilidades e estatísticas associadas aos dados holísticos.
A Meta entende que tem muito a ser descoberto sobre a aprendizagem multimodal. A comunidade de pesquisa de IA ainda precisa quantificar efetivamente os comportamentos de dimensionamento que aparecem apenas em modelos maiores e entender suas aplicações. ImageBind é um passo para avaliá-los de forma rigorosa e mostrar novas aplicações na geração e recuperação de imagens.
VEJA TAMBÉM: “Atendimento humanizado ou automático: qual a melhor opção?”
VEJA TAMBÉM: “LinkedIn demitirá 700 mil funcionários e encerra aplicativo na China”