- Neuronautas
- Posts
- 🧸La IA entre febrero y marzo: Esto va a millón!
🧸La IA entre febrero y marzo: Esto va a millón!
🎨Generación de imágenes nativa, razonamiento híbrido y agentes avanzados. Descubre cómo GPT-4o, Gemini 2.5, Claude 3.7 y más están cambiando el panorama de la inteligencia artificial. 🚀

Del 10 de Febrero al 29 de Marzo
¿Qué es lo que se mueve?
Entre febrero y marzo se lanzaron 3 modelazos de lenguaje que están matando la liga cada uno en diferentes aspectos, y ninguno es de OpenAI👀. Aunque se sabe que OpenAI está cocinando GPT-5 ahí atrás y cuando viene a ver salga más pronto de lo que esperamos.
🧸El martes OpenAI habilitó la generación de imágenes con GPT4o. Esto es lo que ha provocado todas las fotos con estilo de Studio Ghibli que has visto esta semana. Pero más abajo te cuento todas las posibilidades de este modelo, como la generación de anuncios casi perfectos.
🚀Ese mismo día Google lanzó Gemini 2.5 Pro, un modelo de razonamiento que supera a todos los de su clase en estilo e inteligencia. Y está disponible gratis a través de Google AI Studio. También salió el Claude Sonnet 3.7, Grok 3 y el GPT-4.5 en febrero.
🖖El 5 de marzo se lanzó Manus AI, un agente general que realiza todo tipo de tareas en una computadora con alta presición. Por ejemplo, aquí muestran cómo puede buscar propiedades en Nueva York con respecto a ciertos parámetros.
Ajá, fotos bonitas, y qué más?
Este nuevo tipo de generación que trae ChatGPT se llama generación nativa de imágenes con modelos que son primariamente de lenguaje, específicamente con GPT-4o.
Esto significa que no se utiliza un segundo modelo para generar imágenes, sino que uno solo puede generar texto, audio e imágenes al mismo tiempo.
Para ponerte en contexto, antes de este nuevo tipo de generación, los modelos de texto afrontaban la generación de imágenes de la siguiente manera:
Un modelo de texto reinterpreta el prompt del usuario.
Se envía este prompt a un modelo de difusión como Dall-E 3, o Imagen 3 (de Google).
Con este método, las imágenes son tan buenas como el modelo de lenguaje las pueda describir en texto, y por la ventana de contexto que admita.
Por esto, en este tipo de generación se pierde muchísima información como el contexto de conversaciones previas, los detalles de los personajes, atributos de elementos visuales que se puedan referenciar, y más.
Los modelos de difusión no podían:
Generar texto en imágenes con precisión, porque los modelos de difusión les cuesta entender la relación entre elementos visuales como los caracteres de un texto.
Generar personajes o cosas específicas para crear historias, publicidades o juegos, ya que los modelos no podían acordarse de personajes específicos y mantener su aspecto.
Modificar imágenes con lenguaje natural, como pedirle que eliminar un elemento, sino que había que rehacer el prompt quizás perdiendo detalles visuales específicos.
Entonces, ¿Cómo este nuevo tipo de generación es mejor?
La característica autorregresiva de los modelos de lenguaje (que predice el próximo token o pieza de imagen una por una secuencialmente), permite generar imágenes con toda la información de la conversación y entendimiento del mundo adquirido durante el pre-entrenamiento del modelo.
De hecho, puedes comprobar como con este nuevo modelo que cuando generas una imagen, esta se va generando de arriba hacia abajo, de izquierda a derecha, es decir, que lo va haciendo secuencialmente. Antes se generaba toda la imagen al mismo tiempo. Los puedes probar desde ChatGPT.
Esto hace que los atributos visuales sean mucho más coherentes entre sí y de acuerdo con el prompt del usuario, consiguiendo la generación casi perfecta de texto, y otras características.
En general, la generación nativa de imágenes permite:
Generacion de texto dentro de las imágenes casi perfecto, lo que permite, por ejemplo, hacer anuncios profesionales completamente generados.

Anuncio generado para una marca de relojes de lujo.
Consistencia de personajes, lo que permite jugar con escenarios, estilos y ángulos para, por ejemplo, poner tus fotos como si fueran del Estudio Ghibli.

Modificar imágenes con lenguaje natural, por ejemplo, “mueve este objeto un poco a la derecha”
En su artículo puedes ver más ejemplos impresionantes de que se puede generar con GPT4o.
Los 3 modelazos de lenguaje
Google desplegó una nueva serie de modelos enfocados en el razonamiento, llamada Gemini 2.5. El primer modelo de esta serie fue el Gemini 2.5 Pro, el cual vence a todos los modelos de su clase en preguntas al nivel de doctorado y problemas matemáticos de olimpiadas.
Claude 3.7 Sonnet
Claude es la familia de modelos de la empresa Anthropic, que ha sido históricamente el mejor para tareas de programación.
Particularmente, el nuevo modelo de la familia Claude llamado Claude 3.7 Sonnet presenta innovaciones muy interesantes que dan resultados excepcionales e introducen nuevos paradigmas.
Claude 3.7 Sonnet es el primer modelo de razonamiento híbrido, es decir, que no utiliza un modelo distinto para ofrecer razonamiento, como los demás modelos de su categoría.
"Así como los humanos utilizan un solo cerebro tanto para respuestas rápidas como para una reflexión profunda, creemos que el razonamiento debería ser una capacidad integrada de los modelos de frontera en lugar de un modelo completamente separado."
Por otro lado, se destaca la superioridad que ha obtenido Claude Sonnet 3.7 en problemas de programación, posicionándose como el mejor modelo para tareas de programación de la vida real.
De hecho, el agente Manus AI y el editor de código con IA más importante, Cursor, ambos utilizan Claude 3.7 Sonnet y lo recomiendan activamente para tareas de programación.
Esto ocurre porque Claude 3.7 Sonnet fue optimizado para tareas de la vida real, mas que para resolver problemas de matemática y de programación competitiva, que es el enfoque de los demás modelos.
Puedes probarlo gratis en su página web, pero para probar su modalidad de razonamiento debes ser usuario Pro.
Grok 3
xAI, la empresa de IA de Elon Musk, sentó un nuevo precedente entrenando a su nuevo LLM Grok 3 Beta con 10 veces el poder de cómputo de modelos anteriores. Se hizo en una supercomputadora llamada Colossus, que cuenta con 200,000 GPUs de NVIDIA.
Pruébalo aquí.
Y la ñapa, OpenAI GPT-4.5
Salió el último modelo fundacional (modelo pre-entrado con propósito general) de OpenAI, el GPT-4.5
Salió como una vista previa para los usuarios Pro con el propósito de entender mejor las fortalezas y debilidades del nuevo modelo, pero según las evaluaciones iniciales del modelo, se queda atrás en todas las capacidades importantes.
Pero, sabemos que OpenAI no se va a quedar dao' y probablemente pronto saque GPT-5, un modelo unificado que pueda elegir cuando una tarea requiera razonamiento profundo y cuando no, como había dicho Sam Altman anteriormente.
Cita Destacada
“Encontramos que las ideas generadas por LLMs se juzgan como más novedosas que las ideas de expertos humanos, mientras que se juzgan ligeramente más débiles en cuanto a viabilidad.” (Sobre las capacidades actuales de los LLMs para la ideación de investigaciones)
Para los más expertos
OpenAI está metiendo mano con los Agentes
OpenAI lanzó un conjunto de herramientas para desarrollar agentes con sus modelos:
Un nuevo endpoint que ofrece la llamada de herramientas (tool calling) de la API de asistentes con la simplicidad de la API de finalizaciones de chat (Chat Completions).
Antes solo se podía acceder a las funciones o tool calls a través de la API de asistentes, que es mucho mas compleja, pues había que realizar 3 llamadas de API para generar una sola respuesta (crear hilos de chat (threads), crear mensajes dentro de ese hilo y ejecutar carreras o runs para ejecutar estos hilos).
Nuevas tool calls nativas, como la búsqueda en internet, y el uso de computadora (aunque esta última función solo tiene buen desempeño en interfaces web).
Un SDK para el desarrollo de agentes, llamado Agents SDK, enfocado en dos principios específicos que atacan las críticas que ha recibido Langchain, como la abstracción excesiva (dificultando las personalizaciones especificas) y la alta complejidad del framework). Estos principios son:
Proveer la mayor cantidad de funcionalidades, con la mínima cantidad de clases o objetos.
Funciona excelente desde el inicio, pero puedes personalizar exactamente lo que necesitas.
Aquí puedes ver un ejemplo de un agente de bienes raíces creado con el Agents SDK.
Quizás quieras ver esto,
Anthropic utilizó técnicas de neurociencia para analizar los caminos neuronales de sus LLMs, dando luz a como los LLMs “piensan” y que ocurre dentro de ellos.
Perplexity quitó la censura del modelo Deepseek R1 a través de un proceso de refinamiento y lo compartió bajo el nombre R1 1776 a través de su API.
NVIDIA lanzó un modelo fundacional para tareas de robots humanoides generales, con buena precisión, y entornos de simulación para refinamiento de modelos en tareas específicas.
¿Quieres promocionar tu empresa, producto, servicio o evento a una comunidad de empresarios e ingenieros de IA? Trabajemos juntos.