Há uma grande empolgação no mundo em relação aos rápidos avanços da inteligência artificial, e para aumentar o frenesi, o CTO da Microsoft Alemanha, Andreas Braun, anunciou ontem, 09/03, que a empresa apresentará o GPT-4 na próxima semana.
Esta será a quarta geração do revolucionário modelo de linguagem LLM, que permite que as máquinas compreendam e reproduzam linguagem natural.
O que o GPT-4 trará de novo?
Ao que parece, a grande novidade do GPT-4 será a sua multimodalidade, que inclui o processamento de dados em diversos formatos.
Braun, chamou o GPT-4 de um “divisor de águas” na IA, pois ele representará um outro grande salto em direção à interpretação precisa da comunicação humana.
O anúncio foi realizado no evento AI in Focus – Digital Kickoff, que aconteceu na Alemanha, onde a Microsoft enfatizou o potencial da geração de valor proporcionada por ferramentas de inteligência artificial.
Relatórios não oficiais, sugerem também, que o GPT-4 será capaz de gerar vídeos. É de conhecimento público que a OpenAI está trabalhando em um aplicativo móvel com GPT-4, que dará aos usuários a capacidade de fazer vídeos usando IA. Mas, ainda não se sabe a data para o seu lançamento, nem se a tecnologia fará parte da novidade anunciada para a próxima semana.
Além dos vídeos com assistência de IA, espera-se que o GPT-4 traga respostas mais rápidas e semelhantes às humanas, do que o atual GPT-3.5
GPT-4 e a Microsoft
A Microsoft declarou em várias ocasiões antes do evento, seus planos de integrar IA em seus produtos. Até agora, a empresa já equipou com a tecnologia o Azure, Teams, Bing e Edge com o ChatGPT. Agora, espera-se que a empresa também integre o GPT-4.
Com o GPT-4, o Bing por exemplo, será mais eficiente na busca de informações e trará resultados ainda mais rápidos.
O que são recursos multimodais
Recursos multimodais para inteligência artificial referem-se à capacidade da IA de processar e entender informações provenientes de várias modalidades de entrada, como texto, imagem, som, vídeo, gestos e outros tipos de dados.
Por exemplo, uma IA que utiliza recursos multimodais, pode analisar uma imagem e extrair informações, como o objeto presente na imagem, suas cores, formato, textura, etc. Ao mesmo tempo, ela pode processar o texto associado à imagem para entender o contexto, sentimentos e intenções que o autor está transmitindo.
Outro exemplo é o reconhecimento de fala, que envolve a capacidade da IA de compreender as palavras faladas e interpretar sua intenção a partir do contexto, da entonação e de outros fatores. Isso requer a integração de vários recursos multimodais, como o processamento de áudio, reconhecimento de padrões de fala, compreensão de linguagem natural e assim por diante.