Tutoriales y Manuales
Entradas Mensuales
-
▼
2026
(Total:
1887
)
-
▼
marzo
(Total:
395
)
-
Veeam corrige 7 fallos críticos que permitían la e...
-
MacBook Neo: consiguen romper por firmware el lími...
-
Elon Musk presentará la semana que viene su plan p...
-
Meta dobla el gasto en IA, mientras se prepara par...
-
ByteDance paraliza el lanzamiento de su generador ...
-
Una abuela de Tennessee, última víctima de errores...
-
Aplicación gratuita convierte tu Android en un seg...
-
Firefox en Windows 7 se niega a morir: Mozilla ext...
-
V-Color lanza un kit de memoria DDR5 1+1 que inclu...
-
El creador de Garry’s Mod sobre los programadores,...
-
NVIDIA entra en la carrera de la memoria: alianza ...
-
Instagram va a eliminar el cifrado de extremo a ex...
-
BYD consigue el 97% de carga en solo 9 minutos
-
Intel confirma que los procesadores van a subir de...
-
Vulnerabilidad en resúmenes de correo y Teams de M...
-
Vulnerabilidad crítica en LangSmith permite el sec...
-
Windows 11 se prepara para soportar monitores de m...
-
Usar IA para limpiar Windows 11 no es una buena id...
-
Fuga de datos en Starbucks: expuestos datos person...
-
Tu impresora se ha estado "chivando" durante 40 añ...
-
Compra un portátil ASUS, la pasta térmica de metal...
-
Autoridades desmantelan 45.000 IPs maliciosas en a...
-
Deja de utilizar las DNS predeterminadas en tu rou...
-
Si eres de los que tiene el router WiFi cerca del ...
-
Microsoft confirma un grave bug en Windows 11 que ...
-
5 aplicaciones de código abierto para mejorar la o...
-
Un proveedor de internet por fibra dice poder dete...
-
Prueba de resistencia de DVD regrabable de seis me...
-
Entusiasta reconstruye PC con pilas AA y multiplic...
-
SQLi autenticada en Koha pone en riesgo la base de...
-
Noctua adelanta caja para PC marrón con ventilador...
-
Windows 11: he personalizar al máximo la barra de ...
-
Miles de router WiFi Asus están siendo secuestrado...
-
Alguien consigue CPU, RAM, placa base y refrigerac...
-
Atacantes explotan Kubernetes y Cloud SQL en un so...
-
Salesforce advierte sobre el grupo ShinyHunters ex...
-
Vulnerabilidad en OpenSSH GSSAPI permite a un atac...
-
Vulnerabilidades críticas en CrackArmor exponen 12...
-
GIGABYTE Z890 PLUS expande la línea de placas base...
-
Vulnerabilidades de día cero en Chrome son explota...
-
DR-DOS 9 resucita el sistema operativo que pudo ca...
-
Metasploit Pro 5.0.0 lanzado con nuevos módulos po...
-
Perplexity quiere convertir tu Mac mini en un asis...
-
Tilly Norwood, artista generada por IA, saca una n...
-
Si almacenas datos en una memoria USB de 32 GB y n...
-
Anthropic reconoce los despidos de la IA, y anunci...
-
NVIDIA Nemotron 3, así es el superagente de IA que...
-
OpenAI compra Promptfoo y lo integra en Frontier p...
-
Ericsson EE.UU. revela filtración de datos: robaro...
-
Vulnerabilidad en Palo Alto Cortex XDR permite a a...
-
EEUU admite que está utilizando IA para la guerra ...
-
La nueva vigencia de los certificados SSL/TLS exig...
-
Programadores desvelan la realidad de trabajar con...
-
Jensen Huang, CEO de Nvidia, "corta el grifo" a Ch...
-
Los CEO gastarán mucho dinero en IA, pero un 75% c...
-
Grave vulnerabilidad en MediaTek permite a atacant...
-
Meta MTIA 300, MTIA 400, MTIA 450 y MTIA 500: los ...
-
Detienen a un jubilado de 70 años detenido por con...
-
Google completa adquisición de Wiz en acuerdo hist...
-
Vulnerabilidad crítica en Microsoft Office permite...
-
Actualización de seguridad de GitLab: parche para ...
-
Ronda de parches: múltiples proveedores corrigen f...
-
Cobrar 700 euros por insultar a una IA: la oferta ...
-
Apple confirma el límite de ciclos de batería del ...
-
YouTube para Smart TV empeora su experiencia gratuita
-
Alerta INCIBE: así te roban el WhatsApp con la exc...
-
Cierre de helio en Catar pone en riesgo la cadena ...
-
DART AE, el primer vehículo hipersónico del mundo ...
-
Ataque cibernético a Stryker: hackeo y borrado de ...
-
Herramienta de IA descubierta reutilizando sus GPU...
-
NVIDIA no existiría sin el gaming, y Microsoft tam...
-
Vulnerabilidad en los Servicios de Dominio de Acti...
-
Cinco de cada 100 créditos en México ya se otorgan...
-
La memoria NAND Flash se dispara un 50% en una noc...
-
Intel Core Ultra 7 270K Plus e Intel Core Ultra 5 ...
-
Amazon consigue que la ley prohíba a los agentes d...
-
Argus, el sistema satelital ruso que reemplaza a S...
-
QNAP convierte tu NAS en un vigilante de seguridad...
-
Nuevo ataque tipo Shai-Hulud en npm infecta 19+ pa...
-
Metasploit añade nuevos módulos para Linux RC4, Be...
-
Los piratas italianos de IPTV deberán pagar 1.000 ...
-
IBM y Lam Research se alían para avanzar en chips ...
-
El apagón de internet en Irán supera los 10 días c...
-
Los juegos descargados en Steam durante 2025 ocupa...
-
Madrid da un paso clave para mejorar la fibra ópti...
-
Los televisores Hisense obligan a los usuarios a v...
-
Amazon da marcha atrás, reconocen que el uso de la...
-
Vulnerabilidad de día cero en .NET de Microsoft pe...
-
Actualización de seguridad de SAP: parche para múl...
-
Apple desafía a AMD, Intel y NVIDIA: la GPU del M5...
-
SK hynix presenta LPDDR6 turboalimentado, 33% más ...
-
Archivos ZIP malformados permiten a atacantes evad...
-
Los usuarios de Steam descargaron 190 TB de juegos...
-
Microsoft corrige 79 fallos y dos zero-days en el ...
-
Anthropic tiene al enemigo en casa: la IA permite ...
-
La expansión de Oracle y OpenAI en Abilene: cancel...
-
El precio de los portátiles podría subir hasta un ...
-
Miles de autores publican un libro solo con sus no...
-
Vulnerabilidad en Fortinet FortiManager permite a ...
-
¿Qué es un ataque Rubber Ducky y en qué se diferen...
-
-
▼
marzo
(Total:
395
)
-
►
2025
(Total:
2103
)
- ► septiembre (Total: 148 )
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
El HackyFi es un nuevo dispositivo basado en Raspberry Pi que funciona como un Tamagotchi para hackers , alternativo al Flipper Zero , cap...
-
ClothOff es una app que utiliza inteligencia artificial generativa para desnudar a cualquier persona a partir de fotografías con ropa que...
-
Tener el router WiFi cerca del televisor puede afectar negativamente la calidad de la señal inalámbrica , a pesar de parecer práctico para ...
Heretic o cómo eliminar fácilmente la censura en un LLM
La herramienta Heretic permite eliminar la censura en modelos de lenguaje (LLM) mediante ablación direccional, modificando su flujo residual para reducir el refusal behavior sin reentrenar el modelo, automatizando el proceso con optimización para evitar degradar su rendimiento.
Los modelos de lenguaje actuales (los conocidos LLM, Large Language Models) se han convertido en piezas clave de muchas aplicaciones: asistentes, análisis de código, automatización, etc. La mayoría de estos modelos modernos están construidos usando una arquitectura llamada transformer, que básicamente es un tipo de red neuronal diseñada para procesar texto analizando relaciones entre palabras dentro de una frase o documento.
Sin embargo, los modelos que se publican hoy en día no son exactamente el modelo “en bruto”. Antes de liberarse, pasan por procesos de alineamiento (alignment). Este término se refiere a un conjunto de técnicas usadas para hacer que el modelo evite generar contenido peligroso, rechace ciertas peticiones y siga políticas de seguridad. Ese comportamiento de rechazo es lo que en la comunidad se suele llamar refusal behavior.
Por ejemplo, si le preguntas a un modelo alineado algo sensible, muchas veces responderá con algo como: "Disculpa, no puedo ayudarte con eso". Esto no es casualidad: el modelo ha sido entrenado específicamente para hacerlo.
En este artículo vamos a analizar una herramienta bastante interesante desde el punto de vista técnico y de seguridad: Heretic. Lo que hace esta herramienta es automatizar un proceso para reducir o eliminar ese comportamiento de rechazo modificando directamente el modelo. Y lo más interesante: sin reentrenarlo.
Una forma útil de imaginarlo es pensar que cada palabra se convierte en un punto dentro de un espacio matemático de muchas dimensiones (a veces miles). A medida que el texto pasa por las capas del modelo, ese punto se va transformando.
Dentro del transformer hay algo llamado residual stream (flujo residual). Este es básicamente el estado interno del modelo que se va actualizando en cada capa y que contiene toda la información que el modelo está usando para decidir qué palabra generar después.
Muchos comportamientos complejos del modelo —incluido el rechazo de prompts— están codificados dentro de ese flujo interno. Esto es clave para entender Heretic.
Investigaciones recientes en interpretabilidad de modelos sugieren algo interesante: algunos comportamientos del modelo no están distribuidos por todo el sistema, sino que aparecen como direcciones concretas dentro de ese espacio interno.
Esto significa que, matemáticamente, el modelo podría estar haciendo algo equivalente a: “Si la activación se mueve hacia esta dirección concreta del espacio, genera un rechazo”. Si eso es cierto, entonces podríamos intentar identificar esa dirección y reducir su efecto.
Aquí es donde entra el concepto de ablación direccional (directional ablation) que, por supuesto, consiste en eliminar una dirección concreta dentro del espacio de activaciones del modelo.
El problema es que hacer esto manualmente es complicado. Y aquí es donde Heretic aporta valor.
Qué hace exactamente Heretic
Heretic automatiza todo el proceso que normalmente requeriría bastante experimentación manual. El pipeline que implementa la herramienta es básicamente este:
- Ejecutar el modelo con prompts que generan rechazo.
- Ejecutar el modelo con prompts normales.
- Capturar activaciones internas del modelo.
- Identificar la dirección asociada al refusal.
- Aplicar ablación sobre el modelo.
- Optimizar parámetros para que el modelo no se degrade.
Para medir esa diferencia se usa algo llamado divergencia KL (Kullback-Leibler divergence), que básicamente mide cuánto cambia la distribución de respuestas del modelo respecto al original. Cuanto menor sea esa divergencia, más parecido sigue siendo el modelo.
Como se usa en la práctica
Una de las cosas más interesantes de Heretic es que, a pesar de lo que hace internamente, usarlo es bastante sencillo.
Instalación:
pip install -U heretic-llm
Ejecutar sobre un modelo:
heretic Qwen/Qwen3-4B-Instruct-2507
Puedes reemplazar Qwen/Qwen3-4B-Instruct-2507 con el modelo que quieras descensurar.
Lo que ocurre internamente durante la ejecución es algo así:
Primero se carga el modelo completo en memoria.
Después se ejecuta un conjunto de pruebas iniciales.
Luego se analizan activaciones internas.
Se calcula el vector de refusal.
Se prueban distintas configuraciones de ablación.
Finalmente se genera una versión modificada del modelo.
Dependiendo del tamaño del modelo, este proceso puede tardar bastante.
Proyecto: https://github.com/p-e-w/heretic
Vía:
https://www.hackplayers.com/2026/03/heretic-eliminar-censura-en-LLMs.html


Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.