Claude, Copilot y modelos de frontera: cómo elegir en cada caso
AI

🧭 Claude, Copilot y modelos de frontera: cómo elegir en cada caso

Haiku, Sonnet, Opus y Fable explicados con casos reales, y por qué a veces Copilot tiene más sentido

Cuando alguien dice “uso IA para trabajar”, muchas veces está hablando de tres capas distintas: el modelo, las reglas que el modelo trae de fábrica y la plataforma que lo conecta a tus datos. Entender esas capas ayuda a usar la IA con más criterio. Este artículo comparte la familia de modelos de Anthropic con casos reales de mi propia infraestructura, y explica cuándo puede tener más sentido usar Microsoft Copilot que llamar a Claude directamente.

Primera capa: el modelo

Anthropic mantiene cuatro niveles de modelo. La elección más adecuada depende de la tarea, no del prestigio del nombre. Estos son los cuatro, cada uno con un caso real de mi propio trabajo.

Haiku: el modelo de automatización

Qué es. El modelo más rápido y económico de la familia. Sacrifica profundidad de razonamiento a cambio de velocidad y costo mínimo.

Caso real. En mi servidor corre un skill que publica artículos en el blog de un familiar de forma automatizada, disparado por cron, sin intervención humana. También corre una alerta bursátil diaria: consulta precios de 10 acciones contra una API financiera, aplica una regla de compra y notifica por Slack y correo, de lunes a viernes a la misma hora. Ninguna de las dos tareas requiere creatividad. Requieren obediencia.

La lección que me costó aprender. Probé ese skill de publicación con un modelo de otra compañía y fabricó salidas e ignoró las reglas escritas del skill. Haiku, con instrucciones explícitas (incluyendo decirle exactamente qué archivo de instrucciones leer), ha sido más consistente. Para automatización de volumen, la disciplina puede importar más que la potencia.

Úsalo para: tareas repetitivas por cron, clasificación, notificaciones, pipelines donde el costo por ejecución importa porque corre cientos de veces.

Mejor evitarlo para: decisiones de arquitectura, análisis con muchas variables, o cualquier tarea donde un razonamiento superficial puede producir un error caro.

Sonnet: el caballo de batalla

Qué es. El punto medio. Suficiente razonamiento para trabajo profesional serio, a un costo que permite usarlo todos los días sin pensarlo dos veces.

Caso real. Construí un skill que recibe facturas en PDF y extrae los datos estructurados en JSON usando la API de Claude: proveedor, fecha, montos, conceptos. Primer test sobre una factura real: 98% de confianza en la extracción. Costo: entre 1 y 2 centavos de dólar por factura. Hacer eso a mano toma minutos por documento; con Sonnet, segundos y centavos. Ese mismo nivel de modelo es el que uso para redactar documentación técnica, traducir artículos de este blog y procesar reportes.

Úsalo para: extracción de datos de documentos, redacción y traducción, análisis de archivos, código de complejidad normal. El 80% del trabajo diario real cae aquí.

Mejor evitarlo para: los extremos. Si la tarea es trivial y corre en volumen, Haiku es más barato. Si la tarea es una decisión compleja con piezas interconectadas, puede quedarse corto.

Opus: el modelo de criterio

Qué es. El modelo de razonamiento profundo. Más lento y más caro, pensado para problemas donde el costo de equivocarse supera por mucho el costo de la inferencia.

Caso real. Lo uso en tres escenarios concretos: auditorías de seguridad de mi servidor (revisión de permisos, servicios expuestos, configuración de firewall), la migración completa de mi plataforma de agentes de un sistema a otro, y sesiones de arquitectura donde una mala decisión inicial significa rehacer semanas de trabajo. En la auditoría de mayo, Opus encontró un dashboard de métricas expuesto que sesiones anteriores con modelos menores habían pasado por alto. Esa única detección justificó el costo de todas las sesiones del mes.

Úsalo para: auditorías, migraciones, diseño de arquitectura, debugging de problemas donde la causa no es obvia, decisiones con consecuencias de largo plazo.

Mejor evitarlo para: tareas rutinarias. Pagar precio de Opus para extraer datos de una factura suele ser un gasto innecesario.

Fable 5: el horizonte largo

Actualización (13 de junio de 2026): la tarde anterior a la publicación de este artículo, el gobierno de EEUU emitió una directiva de control de exportaciones y Anthropic suspendió el acceso a Fable 5 y Mythos 5 para todos los clientes. Los demás modelos no se ven afectados. Anthropic considera que es un malentendido y dice estar trabajando para restaurar el acceso. Mantengo esta sección como referencia de dónde encaja este nivel de modelo, con la salvedad de que hoy no está disponible.

Qué es. El nivel nuevo, por encima de Opus. Lanzado el 9 de junio de 2026, es la primera versión disponible al público de la clase Mythos, el modelo que Anthropic había restringido desde abril a socios de ciberseguridad e infraestructura crítica. Según el anuncio oficial de Anthropic, cuanto más larga y compleja la tarea, mayor es la ventaja de Fable 5 sobre sus otros modelos, y puede trabajar de forma autónoma más tiempo que cualquier Claude anterior.

Caso real. Todavía no tengo uno: al momento de escribir esto, el modelo acaba de salir. Pero tengo claro dónde quiero probarlo primero: la actualización mayor de mi plataforma de agentes, que tengo deliberadamente pospuesta porque es un trabajo de varias horas, con muchos pasos dependientes, donde el agente debe leer documentación oficial, verificar cada paso y evitar improvisar. Es un perfil muy cercano al tipo de tarea para el que este nivel parece pensado.

Úsalo para: trabajo agéntico de largo horizonte: agentes que operan horas o días sobre un proyecto completo, migraciones grandes, investigación profunda con muchos pasos dependientes.

Mejor evitarlo para: tareas más sencillas. Si Opus resuelve tu problema, probablemente Fable sea más de lo necesario. Sobre el acceso, al momento de escribir esto estaba incluido en los planes de pago hasta el 22 de junio de 2026, con créditos de uso después; esa condición quedó superada por la suspensión descrita en la nota de arriba.

También hay un matiz empresarial: Fable 5 no opera bajo zero data retention; Anthropic exige retención de datos de 30 días en la API para este modelo. Si trabajas con datos regulados, esa condición pesa tanto como la capacidad del modelo.

La regla general

Mi regla práctica sería empezar con el modelo más pequeño que pueda hacer el trabajo y subir solo cuando falle. Es fácil hacer lo contrario: usar el modelo más grande disponible para todo, terminar pagando de más en muchos casos y no necesariamente obtener un mejor resultado.

Segunda capa: las reglas de fábrica

Aquí conviene hacer una distinción útil. Aunque escribas un buen prompt, des instrucciones claras o montes un sistema encima, pueden existir comportamientos que el modelo aplica de forma consistente porque vienen entrenados en sus pesos y, en algunos casos, reforzados por clasificadores externos que inspeccionan el tráfico fuera del prompt. No están diseñados para desactivarse desde el prompt, y esos clasificadores pueden operar fuera de esa capa.

Fable 5 sirve como ejemplo reciente. Cuando sus clasificadores detectan una petición relacionada con tres áreas (ciberseguridad, biología y química, y destilación, que son los intentos de extraer las capacidades del modelo para entrenar modelos competidores), la respuesta es manejada automáticamente por Claude Opus 4.8, y el usuario es informado cuando ocurre. En las aplicaciones el fallback es automático con notificación; en la API, según la documentación de Anthropic sobre Fable y Mythos, una solicitud declinada devuelve una respuesta de refusal; el desarrollador puede manejar el fallback del lado del servidor, desde el cliente o manualmente. Los datos tempranos de Anthropic indican que más del 95% de las sesiones no involucran ningún fallback. La versión sin estos clasificadores, Mythos 5, solo existe en acceso restringido para organizaciones aprobadas.

Conviene añadir dos matices importantes. Primero, la robustez: Anthropic reporta que un programa externo de recompensas no produjo ningún jailbreak universal en más de 1,000 horas de pruebas, pero un instituto gubernamental de seguridad de IA logró elicitar respuestas indebidas con técnicas específicas en los primeros días. La palabra clave es “universal”: no existe un truco que desactive todo, pero tampoco es un sistema infalible. Segundo, los falsos positivos: en los primeros días los clasificadores se han mostrado conservadores y han bloqueado peticiones inocentes; Anthropic lo ha reconocido y está ajustando.

En términos prácticos: cuando montas tu propio agente sobre la API, tú controlas el prompt de sistema, las herramientas y la memoria. No controlas los valores del modelo ni sus clasificadores. Esa separación forma parte del diseño.

Tercera capa: el wrapper

El mismo modelo se comporta distinto según quién conduce la inferencia. Claude en claude.ai, Claude en Claude Code y Claude crudo en la API son el mismo motor con tres conductores distintos: diferente prompt de sistema, diferentes herramientas, diferente contexto.

Un dato útil para ver esta separación de capas es que Anthropic publica los prompts de sistema que usan claude.ai y sus apps móviles, y aclara en esa misma página que esas instrucciones no aplican a la API. Una llamada a la API no trae prompt de sistema incorporado: el desarrollador escribe el suyo. La capa del wrapper no es necesariamente invisible; puede ser una capa documentada y auditable.

En mi caso, el wrapper es mi propio agente autoalojado: yo decido qué herramientas tiene, qué memoria carga y qué canales usa. Mucho control de la capa de conducción, a cambio de mantenerla yo.

Entonces, ¿dónde entra Copilot?

Microsoft Copilot no es un modelo. Es un sistema de orquestación que conduce modelos de otros proveedores. Microsoft lo define como “diverso en modelos por diseño”: en lugar de apostar por un solo modelo, construyó un sistema que usa modelos líderes de OpenAI y de Anthropic, y Claude ya está disponible en el chat principal de Copilot a través del programa Frontier.

La diferencia con montar tu propio wrapper no suele ser solo de potencia, sino de conexión y gobernanza. Copilot se apoya en Work IQ, la capa de conocimiento que conecta los modelos con los datos de tu organización, protegido con Enterprise Data Protection. Según la documentación oficial de Microsoft, Copilot respeta el modelo de identidad y permisos, hereda las etiquetas de sensibilidad, aplica las políticas de retención y soporta auditoría de las interacciones. Tu IA ve lo que tú puedes ver en SharePoint, Outlook y Teams. En muchos entornos empresariales, ese control no es un detalle menor; suele ser parte del requisito.

Pero ese mismo diseño tiene una consecuencia que conviene considerar: Copilot hereda también los permisos mal configurados. Si tu SharePoint lleva años con carpetas compartidas a toda la empresa, Copilot las encontrará con una rapidez y consistencia difíciles de lograr manualmente. La propia guía de despliegue de Microsoft instruye remediar el sobre-compartido antes de activar Copilot: aplicar etiquetas de sensibilidad, eliminar accesos excesivos o anónimos y re-limitar los enlaces de compartido. Copilot no sustituye la gobernanza previa: la hace visible.

Mención especial para Copilot Cowork: Microsoft llevó a Copilot la plataforma tecnológica que impulsa Claude Cowork. El resultado es un agente para trabajo largo y de múltiples pasos dentro de Microsoft 365: describes el resultado que quieres, crea un plan, razona sobre tus archivos y herramientas, y avanza el trabajo con progreso visible.

La recomendación

Mi recomendación práctica es esta.

Si tu organización ya vive en Microsoft 365, Copilot suele ser la opción más natural. No porque la ventaja esté en el modelo (Copilot también usa modelos líderes como GPT y Claude), sino porque la conexión a tus datos y la gobernanza ya están resueltas. Si construyes infraestructura propia, agentes autoalojados o productos, Claude directo por API suele tener más sentido: más control del wrapper, más responsabilidad tuya.

Cómo activarlo (sin tecnicismos)

Si eres usuario y quieres Copilot con los modelos más recientes y Cowork, no es algo que actives tú. Requiere una licencia de Microsoft 365 Copilot por usuario y que la organización esté inscrita en el programa Frontier, que es independiente del canal de versiones preliminares. La acción concreta es contactar a tu administrador de IT y pedir dos cosas: licencia de Microsoft 365 Copilot y la inscripción en Frontier. El resto es trabajo del administrador, no tuyo.

Quizá la mejor pregunta no sea “¿cuál IA es mejor?”. Puede ser esta: ¿qué tarea estoy tratando de resolver, qué datos necesita ver y quién gobierna esa conexión?

Por: Cesar Rosa Polanco - Escrito a partir de una experiencia real, con asistencia de inteligencia artificial como herramienta de apoyo editorial.

¿Primera vez aquí?

Conoce los temas y artículos clave del blog.

Empieza Aquí →