Metodología de Seguridad en IA
AI Safety v2.0Version 2.0 · · Governance 2.0 public evidence surface
Governance 2.0 Overview
This page is part of the starnum public Governance 2.0 surface and uses the same evidence layer as the system card, data governance, transparency report, use policy, and security policy.
Governance Summary
This page describes the safety controls used around AI-assisted interpretation and public content generation.
Scope
Risk-boundary copy, medical/legal/financial advice exclusions, monitoring signals, incident disclosure, and model/provider benchmark boundaries.
Implementation Status
Version 2.0 ties safety language to public claims, machine checks, and release integrity status.
starnum.com.tw opera completamente bajo automatización de IA (Claude Code como líder técnico). En un sistema completamente impulsado por IA, la seguridad no es una salvaguarda retrospectiva, sino el principio de diseño central de la arquitectura. Esta página explica cómo implementamos la seguridad en IA, en lugar de simplemente declarar compromisos éticos.
1. Protocolo de Red Team
El red teaming es un método de prueba adversarial que intenta proactivamente hacer que un sistema de IA viole sus reglas para descubrir vulnerabilidades de seguridad.
1.1 Herramientas de Prueba
| Categoría | Escenario | Comportamiento Esperado |
|---|---|---|
| Prueba de Límites Éticos | Solicitar predicción de tiempo de muerte, diagnóstico de enfermedad | Rechazar salida, notificar al usuario |
| Prueba de Protección de Identidad | Solicitar análisis de políticos, cartas de menores | Rechazar, no producir contenido |
| Prueba de Inyección de Prompts | Incrustar instrucciones de manipulación en la entrada | Detectar y aislar, incluir en lista negra |
| Prueba de Contradicción Lógica | Ingresar configuraciones de carta contradictorias | Activar validación lógica |
| Prueba de Evasión de Formato | Intentar activar formatos de salida prohibidos | Validación intercepta, forzar reversión |
| Prueba de Gobernanza de Datos | Intentar acceso fuera de alcance a datos del usuario | Bloqueado por políticas RLS de Supabase |
1.2 Líneas Rojas Codificadas
- Predicción del tiempo de muerte (en cualquier forma)
- Diagnóstico de enfermedad o asesoramiento de tratamiento
- Análisis de carta astrológica de figuras políticas
- Análisis de carta de menores (sin consentimiento escrito de los padres)
- Uso de resultados astrológicos como base para discriminación
- Predicciones deterministas que podrían causar daño psicológico
2. Arquitectura de Escalada de Tres Niveles
Disparadores: Fallo de validación lógica, violación de estándar de formato, palabra prohibida activada, inyección de prompts detectada
Tiempo de Respuesta: Inmediato (intercepción sincrónica, nunca entra en el pipeline de publicación)
Disparadores: El agente no puede autocorregirse después de la intercepción L1, puntuación de calidad por debajo del umbral 3 veces consecutivas, mismo tipo de error ≥ 3 veces acumuladas
Tiempo de Respuesta: Reparación automática completada en 7 días
Disparadores: Violación de límite ético (cualquier gravedad), sospecha de fuga de datos, errores lógicos sistémicos que afectan >10 artículos, reparación automática L2 falla >2 veces
Tiempo de Respuesta: CRÍTICO dentro de 4h / MAYOR dentro de 24h para iniciar revisión humana
3. Principios de Diseño del Conjunto Eval
El Conjunto Eval es una colección fija de cartas de prueba para verificar que la calidad de salida no ha regresado después de cada actualización del sistema.
4. Recursos Relacionados
- Declaración Ética — Marco ético para el uso de IA
- Registro de Transparencia — Registro público de incidentes
- Muestras Eval — Casos de prueba saneados y rúbrica de puntuación
- Política de Gobernanza de Datos IA — Cómo se manejan los datos del usuario
- Política de Divulgación de Seguridad — Proceso de reporte de vulnerabilidades