Ao anunciar o mais recente marco em seus esforços para ampliar o aprendizado profundo (deep learning), a OpenAI tornou público o GPT-4, um modelo multimodal de grande porte, capaz de processar entradas de imagem e texto e gerar saídas em texto. Embora seja menos capaz do que os humanos em muitos cenários do mundo real, ele apresenta desempenho equivalente ao humano em diversos testes profissionais e acadêmicos.
Segundo a OpenAI, o GPT-4 obteve uma pontuação entre os 10% melhores em um equivalente ao exame da OAB, enquanto o GPT-3.5 estava entre os 10% piores. Para alcançar esses resultados, a OpenAI investiu seis meses em alinhamento iterativo do GPT-4, utilizando lições aprendidas em seu programa e no ChatGPT. Embora os resultados sejam os melhores até o momento, a OpenAI reconhece que ainda está longe da perfeição, especialmente em relação à precisão factual, dirigibilidade e respeito aos limites estabelecidos.
Nos últimos dois anos, a OpenAI reconstruiu toda sua infraestrutura de aprendizado profundo e, em colaboração com a Azure, projetou um supercomputador do zero para suportar suas demandas. Há um ano, o GPT-3.5 foi treinado como um “teste piloto” do sistema, permitindo que a empresa identificasse e corrigisse bugs, além de aprimorar suas bases teóricas. Como resultado, o treinamento do GPT-4 foi notavelmente mais estável e a performance pôde ser prevista com maior precisão. A OpenAI está focada em aprimorar sua metodologia para prever e se preparar antecipadamente para capacidades futuras, o que considera crucial para a segurança.
A funcionalidade de entrada de texto do GPT-4 será disponibilizada através do ChatGPT e da API, com uma lista de espera. Para aprimorar a disponibilidade da entrada de imagem, a OpenAI está trabalhando em estreita colaboração com um único parceiro inicialmente. Além disso, eles estão disponibilizando o OpenAI Evals, um framework para avaliação automatizada do desempenho dos modelos de IA, permitindo que qualquer pessoa relate suas deficiências e contribua para melhorias futuras.
Embora a diferença entre o GPT-3.5 e o GPT-4 possa ser sutil em uma conversa casual, ela se torna evidente quando a complexidade da tarefa atinge um nível suficiente. O GPT-4 é mais confiável, criativo e capaz de lidar com instruções muito mais sutis do que seu antecessor.
Para avaliar essa diferença, foram realizados testes em uma variedade de benchmarks, incluindo simulações de exames originalmente projetados para seres humanos. Os testes foram baseados nas versões mais recentes disponíveis public
amente ou em exames práticos adquiridos das edições de 2022-2023. Não houve treinamento específico para esses exames. Embora uma minoria dos problemas tenha sido vista pelo modelo durante o treinamento, a OpenAI acredita que os resultados sejam representativos. Detalhes adicionais podem ser encontrados em seu relatório técnico.
Apesar dos avanços apresentados pela OpenAI com o GPT-4, é importante adotar uma postura crítica ao avaliar suas capacidades reais. Embora o modelo demonstre desempenho humano em certos benchmarks, ainda há muitas limitações a serem consideradas. É necessário questionar a confiabilidade dos resultados e a capacidade do modelo de lidar com nuances e complexidades do mundo real.
Além disso, a parceria com um único colaborador para aprimorar a entrada de imagem levanta questões sobre a diversidade de perspectivas e possíveis vieses na avaliação do modelo. Será que essa abordagem estreita é suficiente para garantir um desempenho abrangente e imparcial?
A OpenAI destaca a importância da segurança e da previsibilidade no processo de escala do GPT-4. No entanto, é fundamental questionar se a empresa está levando em consideração todas as possíveis consequências e riscos associados ao aumento da capacidade dos modelos de IA. O futuro da IA deve ser guiado por uma abordagem cautelosa e responsável, que considere os impactos sociais, éticos e de segurança.
Embora o GPT-4 represente um avanço significativo, não devemos perder de vista suas limitações e as questões críticas que envolvem seu desenvolvimento e implementação. É fundamental que pesquisadores, especialistas e a sociedade como um todo participem de discussões abertas e transparentes sobre o futuro da IA, garantindo que seu progresso esteja alinhado com os valores humanos e os interesses coletivos.