GPT 4 deja de ser la IA más inteligente: Demos paso a Claude 3

Hoy se establece un nuevo hito en el campo de la inteligencia artificial: el lanzamiento de Claude 3. Esta nueva generación establece nuevos estándares en la industria para una amplia gama de tareas cognitivas, redefiniendo lo que esperamos de las capacidades de la IA y siendo el primer modelo en superar al imbatible GPT 4.

Claude 3 supera a GPT 4

La familia Claude 3 se anuncia con tres modelos de vanguardia: Claude 3 Haiku, Claude 3 Sonnet y Claude 3 Opus. Cada modelo ofrece un rendimiento progresivamente más potente, permitiendo a los usuarios elegir el equilibrio óptimo de inteligencia, velocidad y costo para sus aplicaciones específicas.

Opus y Sonnet ya están disponibles para su uso en claude.ai y la API de Claude, que ahora está disponible en general en 159 países (entre los que no se incluye Europa). Haiku estará disponible próximamente.

Detalles del Modelo

  • Claude 3 Opus es su modelo más inteligente, con el mejor rendimiento en el mercado en tareas altamente complejas. Puede navegar indicaciones abiertas y escenarios no vistos con una fluidez y comprensión similares a las humanas. Opus muestra los límites de lo que es posible con la IA generativa.
  • Claude 3 Sonnet alcanza el equilibrio ideal entre inteligencia y velocidad, particularmente para cargas de trabajo empresariales. Ofrece un fuerte rendimiento a un costo menor en comparación con sus pares, y está diseñado para una alta resistencia en despliegues de IA a gran escala.
  • Claude 3 Haiku el modelo más rápido y compacto para una capacidad de respuesta casi instantánea. Responde a consultas y solicitudes simples con una velocidad inigualable. Los usuarios podrán construir experiencias de IA sin fisuras que imitan las interacciones humanas.

Disponibilidad del Modelo

Opus y Sonnet ya están disponibles para su uso hoy en la API de Anthropic, que ahora está disponible en general, permitiendo a los desarrolladores inscribirse y comenzar a usar estos modelos de inmediato. Haiku estará disponible próximamente. Sonnet está alimentando la experiencia gratuita en claude.ai, con Opus disponible para los suscriptores de Claude Pro.

Sonnet también está disponible hoy a través de Amazon Bedrock y en vista previa privada en el Jardín de Modelos AI de Vertex de Google Cloud, con Opus y Haiku próximamente en ambos.

Por otra parte, al igual que su predecesor, parece que sigue sin estar disponible en Europa por la normativa de la unión europea impidiendo acceder incluso con VPN (Ya que pide numero de teléfono de EEUU). Por lo que los europeos nos toca esperar que herramientas como Poe lo incorporen en breve.

Un Nuevo Estándar de Inteligencia

Opus, el modelo más inteligente, supera a sus competidores en la mayoría de los benchmarks comunes de evaluación para sistemas de IA, incluyendo conocimiento experto a nivel de pregrado (MMLU), razonamiento experto a nivel de posgrado (GPQA), matemáticas básicas (GSM8K), entre otros. Exhibe niveles de comprensión y fluidez cercanos a los humanos en tareas complejas, liderando la frontera de la inteligencia general.

Todos los modelos Claude 3 muestran capacidades aumentadas en análisis y pronóstico, creación de contenido matizado, generación de código y conversaciones en idiomas no ingleses como el español, japonés y francés.

Resultados Casi Instantáneos

Los modelos Claude 3 pueden usarse en chats en directo con clientes, autocompletados y tareas de extracción de datos donde las respuestas deben ser inmediatas y en tiempo real.

Haiku es el modelo más rápido y rentable del mercado para su categoría de inteligencia. Puede leer un artículo de investigación denso en información y datos en arXiv (~10k tokens) con gráficos y tablas en menos de tres segundos. Tras su lanzamiento, esperan mejorar aún más el rendimiento.

Para la gran mayoría de las cargas de trabajo, Sonnet es 2 veces más rápido que Claude 2 y Claude 2.1, con niveles más altos de inteligencia. Sobresale en tareas que exigen respuestas rápidas, como la recuperación de conocimientos o la automatización de ventas. Opus ofrece velocidades similares a Claude 2 y 2.1, pero con niveles mucho más altos de inteligencia.

Capacidades de Visión Fuertes

Los modelos Claude 3 tienen capacidades de visión sofisticadas a la par con otros modelos líderes. Pueden procesar una amplia gama de formatos visuales, incluyendo fotos, gráficos, diagramas técnicos y más.

Menos Negativas

Los modelos Claude anteriores a menudo realizaban negativas innecesarias que sugerían una falta de comprensión contextual. Hemos hecho progresos significativos en esta área: Opus, Sonnet y Haiku son significativamente menos propensos a negarse a responder a indicaciones que bordean las barreras del sistema que las generaciones anteriores de modelos. Los modelos Claude 3 muestran una comprensión más matizada de las solicitudes, reconocen el daño real y se niegan a responder a indicaciones inofensivas mucho menos a menudo.

Mejora en la Precisión

Han utilizado un amplio conjunto de preguntas factuales complejas que apuntan a debilidades conocidas en los modelos actuales. Categorizando las respuestas en respuestas correctas, respuestas incorrectas (o alucinaciones) y admisiones de incertidumbre, donde el modelo dice que no sabe la respuesta en lugar de proporcionar información incorrecta. En comparación con Claude 2.1, Opus demuestra una mejora doble en precisión (o respuestas correctas) en estas preguntas abiertas desafiantes, mientras que también exhibe niveles reducidos de respuestas incorrectas.

Además de producir respuestas más confiables, pronto habilitaran citas en Claude 3 para que puedan señalar a oraciones precisas en material de referencia para verificar sus respuestas.

Contexto Largo y Recuerdo Casi Perfecto

La familia de modelos Claude 3 inicialmente ofrecerá una ventana de contexto de 200K en el lanzamiento. Sin embargo, los tres modelos son capaces de aceptar entradas que superan el millón de tokens y podrían hacer esto disponible para clientes selectos que necesiten una potencia de procesamiento mejorada.

Para procesar indicaciones de contexto largo de manera efectiva, los modelos requieren capacidades de recuerdo robustas. La evaluación ‘Aguja en un Pajar’ (NIAH) mide la capacidad de un modelo para recordar información de manera precisa de un vasto corpus de datos. Han mejorado la robustez de este benchmark utilizando uno de 30 pares de aguja/pregunta aleatorios por indicación y probando en un corpus diverso de documentos obtenidos mediante crowdsourcing. Claude 3 Opus no solo logró un recuerdo casi perfecto, superando el 99% de precisión, sino que en algunos casos, incluso identificó las limitaciones de la evaluación misma al reconocer que la oración “aguja” parecía estar insertada artificialmente en el texto original por un humano.

Claude 3 revienta a GPT 4

Diseño Responsable

Han desarrollado la familia de modelos Claude 3 para ser tan confiables como capaces. Cuentans con varios equipos dedicados que rastrean y mitigan un amplio espectro de riesgos, que van desde la desinformación y el CSAM hasta el mal uso biológico, la interferencia electoral y las habilidades de replicación autónoma. Continuan desarrollando métodos como la IA Constitucional que mejoran la seguridad y la transparencia de sus modelos, y han ajustado sus modelos para mitigar contra problemas de privacidad que podrían ser planteados por nuevas modalidades.

Abordar los sesgos en modelos cada vez más sofisticados es un esfuerzo continuo y han avanzado con este nuevo lanzamiento. Claude 3 muestra menos sesgos que sus modelos anteriores según el Benchmark de Sesgo para Respuesta a Preguntas (BBQ).

Más Fácil de Usar

Los modelos Claude 3 son mejores siguiendo instrucciones complejas de múltiples pasos. Son particularmente adeptos a adherirse a la voz de la marca y directrices de respuesta, y desarrollando experiencias orientadas al cliente en las que los usuarios pueden confiar. Además, los modelos Claude 3 son mejores produciendo salida estructurada popular en formatos como JSON, lo que facilita instruir a Claude para casos de uso como clasificación de lenguaje natural y análisis de sentimientos.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies