Microsoft revela detalhes do GPT-4: recursos multimodais e possível geração de vídeos

Há uma grande empolgação no mundo em relação aos rápidos avanços da inteligência artificial, e para aumentar o frenesi, o CTO da Microsoft Alemanha, Andreas Braun, anunciou ontem, 09/03, que a empresa apresentará o GPT-4 na próxima semana. 

Esta será a quarta geração do revolucionário modelo de linguagem LLM, que permite que as máquinas compreendam e reproduzam linguagem natural. 

O que o GPT-4 trará de novo?

Ao que parece, a grande novidade do GPT-4 será a sua multimodalidade, que inclui o processamento de dados em diversos formatos.

Braun, chamou o GPT-4 de um “divisor de águas” na IA, pois ele representará um outro grande salto em direção à interpretação precisa da comunicação humana. 

O anúncio foi realizado no evento AI in Focus – Digital Kickoff, que aconteceu na Alemanha, onde a Microsoft enfatizou o potencial da geração de valor proporcionada por ferramentas de inteligência artificial.

Relatórios não oficiais, sugerem também, que o GPT-4 será capaz de gerar vídeos. É de conhecimento público que a OpenAI está trabalhando em um aplicativo móvel com GPT-4, que dará aos usuários a capacidade de fazer vídeos usando IA. Mas, ainda não se sabe a data para o seu lançamento, nem se a tecnologia fará parte da novidade anunciada para a próxima semana.

Além dos vídeos com assistência de IA, espera-se que o GPT-4 traga respostas mais rápidas e semelhantes às humanas, do que o atual GPT-3.5

GPT-4 e a Microsoft

A Microsoft declarou em várias ocasiões antes do evento, seus planos de integrar IA em seus produtos. Até agora, a empresa já equipou com a tecnologia o Azure, Teams, Bing e Edge com o ChatGPT. Agora, espera-se que a empresa também integre o GPT-4.

Com o GPT-4, o Bing por exemplo, será mais eficiente na busca de informações e trará resultados ainda mais rápidos. 

O que são recursos multimodais

Recursos multimodais para inteligência artificial referem-se à capacidade da IA de processar e entender informações provenientes de várias modalidades de entrada, como texto, imagem, som, vídeo, gestos e outros tipos de dados.

Por exemplo, uma IA que utiliza recursos multimodais, pode analisar uma imagem e extrair informações, como o objeto presente na imagem, suas cores, formato, textura, etc. Ao mesmo tempo, ela pode processar o texto associado à imagem para entender o contexto, sentimentos e intenções que o autor está transmitindo.

Outro exemplo é o reconhecimento de fala, que envolve a capacidade da IA de compreender as palavras faladas e interpretar sua intenção a partir do contexto, da entonação e de outros fatores. Isso requer a integração de vários recursos multimodais, como o processamento de áudio, reconhecimento de padrões de fala, compreensão de linguagem natural e assim por diante.

Receba em seu email as novidades mundiais sobre Marketing, Empreendedorismo, Inovação e Negócios, sempre com a visão atualizada dos especialistas da SFORWEB.

Fale conosco pelo Whatsapp: