• Neuronautas
  • Posts
  • 🎃Llegamos al Último Examen de la Humanidad

🎃Llegamos al Último Examen de la Humanidad

Esta última semana estuvo sabiendo a superinteligencia. Estamos cambiando de evaluaciones a unas que están al límite del conocimiento humano

Semana del 3 al 7 de Febrero

¿Qué lo que ta’ pasando aquí?

Esta última semana estuvo sabiendo a superinteligencia. Estamos cambiando de evaluaciones a unas que están al límite del conocimiento humano. ¿Cómo evaluaremos los modelos después? ¿Esto quiere decir que estamos llegando al punto donde la IA sobrepasa el conocimiento humano?

  • 🚀OpenAI lanzó una funcionalidad llamada Deep Research que le permite a sus modelos hacer investigaciones profundas y darte reportes con resúmenes y gráficos. Alcanzan un 26.6% en el Último Examen de la Humanidad.

  • 🤖GitHub Copilot sacó el modo agente, que es una modalidad que es capaz de implementar funcionalidades, analizar y corregir errores y ejecutar pruebas, de manera automática a partir de un prompt. Mira la demo.

  • 🎉El miércoles Google sacó sus modelos Gemini 2.0 Flash, Flash-Lite y Pro para desarrollo a través de sus APIs. Estos modelos tienen métricas cercanas a los modelos de OpenAI, a precios bajísimos: Gemini 2.0 Flash cuesta 0.1 USD por millon de tokens de entrada y 0.4 USD por millón de tokens de salida.

  • 👀Agentic Object Detection. LandingAI presenta un nuevo paradigma para la detección de objetos en imágenes. Utiliza razonamiento para encontrar objetos.

  • 💡Una nueva herramienta para la gestión de prompts, PromptLayer. Es una plataforma que permite manejar versiones de prompts y realizar evaluaciones de precisión entre distintos prompts. Está enfocado en usuarios no técnicos.

Ahora, ¿qué yo debería saber de todo esto?

Deep Research

Deep Research funciona como un agente que busca, analiza y resume fuentes de información en la web, y va optimizando su investigación de acuerdo a la información que va encontrando.

Utiliza una versión optimizada para búsqueda y análisis de datos del último modelo de razonamiento, o3.

Se aplica una estrategia de aprendizaje por refuerzo similar a la utilizada para o1, pero en vez de utilizar datasets técnicos (como problemas de programación y matemáticas), con datasets más relacionados a los problemas del día a día.

Se presenta como un paso hacia el objetivo de desarrollar la IA General, bajo la idea de que la AGI debería tener la capacidad de producir investigación científica nueva, es decir, descubrir nuevas cosas.

Los benchmarks

Las evaluaciones de modelos de IA o benchmarks miden ciertas capacidades específicas de distintos tipos de modelos a través de datasets de miles de preguntas o problemas que el modelo debe solucionar.

Existen distintas categorías de benchmarks: puede haber benchmarks de programación, benchmarks especializados en matemáticas, benchmarks para medir las capacidades de agente y benchmarks de conocimiento general.

Los benchmarks más generales están enfocados en cubrir una amplia variedad de temas académicos.

Por ejemplo, el MMLU surgió en 2020 y consiste en 16,000 preguntas de opción múltiple en temas académicos como leyes, medicina, filosofía, etc.

En ese momento, el modelo más avanzado era el GPT-3, que alcanzaba una precisión de 43.9%. Se dice que los expertos humanos alcanzaban alrededor del 89.8%. Sin embargo, actualmente, modelos como o1 y Deepseek-R1 alcanzan 91.8% y 90.8% de precisión, respectivamente.

Por lo que, a medida que los modelos SOTA (estado del arte) comienzan a obtener métricas por encima del 90% de manera consistente, la habilidad para medir y comparar las capacidades de estos modelos se va quedando corta.

Esto quiere decir que para medir de manera precisa los avances rápidos que van surgiendo actualmente, se necesitan benchmarks de mayor dificultad, efectivamente rozando los límites del conocimiento humano.

El Último Examen de la Humanidad

El Último Examen de la Humanidad o Humanity's Last Exam es un benchmark que surge en respuesta a la saturación de los benchmarks tradicionales en materias académicas.

El objetivo de este benchmark es medir los LLMs en el límite del conocimiento que tienen los humanos expertos en cada dominio en preguntas cerradas.

Uno de los aspectos más importantes es asegurar que las preguntas son resistentes a simples búsquedas en Google, pues en el mundo real ya la mayoría de modelos pueden utilizar búsquedas de Google para generar respuestas.

Para crear el dataset, se implementó un sistema de tres etapas para verificar que las preguntas fueran de la máxima dificultad: se pasa a través de una LLM SOTA para comprobar que no pueda responder la pregunta fácilmente, y luego se pasa a través de dos juntas de revisores expertos para asegurar la calidad y dificultad de las preguntas.

Un ejemplo de las preguntas del dataset es: "Los colibríes, dentro de los Apodiformes, tienen un hueso ovalado pareado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de la inserción del músculo depresor caudae. ¿Cuántos tendones pares sostiene este hueso sesamoideo? Responda con un número."

Me avisa el que entendió.

Otros benchmarks importantes que intentan evaluar los modelos en los límites de sus capacidades actuales son el GPQA, el GAIA y el BASIS.

Entonces, ¿cómo les está yendo a los modelos?

Lo bueno del caso es que los modelos más avanzados no llegan ni al 15% de precisión, lo que nos indica que todavía existe una gran brecha entre el nivel de conocimiento entre las LLMs y los expertos humanos.

Sin embargo, el agente de OpenAI que acaban de sacar, Deep Research, alcanza un 26.6% de precisión, lo que es casi increíble.

Para los más expertos

La para de los programadores

El modo agente de GitHub Copilot puede modificar código en distintos archivos para crear nuevas funcionalidades, así como programar pruebas y hacer debugging. También puede darte comandos de terminal para completar sus tareas.

La idea es que, a partir de un prompt, pueda hacer el trabajo completo cuando se le pide algo y que no haya que estarle resolviendo los bugs ni programando sus pruebas; él mismo lo hace.

Puedes ver un video de cómo funciona aquí y puedes comenzar a usarlo desde VS Code, aunque también planean integrarlo a todos los IDEs que puedan.

Además, también compartieron la primera demo del agente SWE, que puede resolver issues de manera independiente desde los repositorios de GitHub.

Luego de resolver problemas listados en tu repositorio, crea un pull request y asigna revisores humanos para verificar el código. El punto es que pueda funcionar como cualquier otro colaborador del proyecto.

¿Quieres promocionar tu empresa, producto, servicio o evento a una comunidad de empresarios e ingenieros de IA? Trabajemos juntos.