Tutoriales y Manuales
Entradas Mensuales
-
▼
2026
(Total:
2844
)
-
▼
marzo
(Total:
833
)
-
El jefe del FBI, Kash Patel, sufrió el hackeo de s...
-
Día Mundial del Backup 2026: un recordatorio de la...
-
Consigue "aterrizar" en la luna usando un ZX Spect...
-
Alguien pidió un disipador AMD y abrió la caja par...
-
Apple lo tiene claro: el iPhone seguirá vivo dentr...
-
El truco del "Cupcake" para saber cuando ChatGPT, ...
-
GitHub se suma a Google, Amazon (AWS), OpenAI y An...
-
OpenAI acaba de hacer Codex mucho más útil para lo...
-
Nvidia invierte 2.000 millones en Marvell para pro...
-
Vulnerabilidad en plugin de WordPress expone datos...
-
El kit Coruna para iOS reutiliza el código del exp...
-
La IA calienta Aragón: los centros de datos de IA ...
-
Los chatbots de IA mienten y manipulan a usuarios ...
-
Fuga de datos de CareCloud: accedieron a la infrae...
-
Euro-Office: la suite ofimática por la soberanía d...
-
¿Qué es Codex Security, la nueva IA de OpenAI que ...
-
Instagram Plus, la primera suscripción de pago de ...
-
Cable HDMI de fibra óptica de 500$ ofrece rendimie...
-
FSR 4 INT8 no era lo que parecía: ¿por qué no ha l...
-
Apple advierte a usuarios sobre ataques ClickFix e...
-
Fin de las estafas por SMS en España: la CNMC acti...
-
PS6 tendrá un SSD de 1 TB, pero no será un problem...
-
Un estudio confirma que ChatGPT, Claude y otros ch...
-
Sintetizador inspirado en NES que también funciona...
-
Por qué nunca deberías dar información sensible a ...
-
CISA advierte sobre vulnerabilidad en Citrix NetSc...
-
Microsoft impulsa las aplicaciones nativas de Wind...
-
Hackean la web oficial de la Unión Europea y roban...
-
Los borradores filtrados de Anthropic revelan el p...
-
Filtran 93 GB de datos "anónimos" de la policía
-
MSI introduce GPU Safeguard+: así evita que tu GPU...
-
Movistar y O2 permiten bloquear las llamadas de sp...
-
Microsoft gastará 146.000 millones de dólares en I...
-
China construye la escalera mecánica al aire libre...
-
AMD arregla el overclock de las RX 9000 tras 1 año...
-
700 agentes de IA fundan una religión en el juego ...
-
Paquetes NPM de Axios comprometidos para inyectar ...
-
AMD EPYC Venice Zen 6 se muestra con hasta 192 cor...
-
El código QR más pequeño mide como una bactería, y...
-
Clon SSD falso Samsung 990 Pro casi indetectable
-
Disponible Ubuntu 26.04 LTS Beta con Linux 7.0, GN...
-
Cambiar a Gemini importando datos de ChatGPT
-
Netflix sube de precio otra vez
-
Apple retira el Mac Pro tras 20 años
-
Vulnerabilidades críticas en Citrix NetScaler y Ga...
-
Tiene 91 años y se ha acabado Resident Evil Requie...
-
Condenan a Meta y a Google por diseñar productos a...
-
Trabajador norcoreano de TI usó identidad robada e...
-
CapCut lanza Seedance 2.0, la IA que puede generar...
-
Windows se bloquea 3,1 veces más que macOS
-
ASUS despliega AGESA 1.3.0.1 en toda su gama X870 ...
-
Administrador del foro LeakBase detenido en Rusia
-
Se infiltran el SDK Python de Telnyx en PyPI para ...
-
Vulnerabilidades críticas de NVIDIA permiten ataqu...
-
Vulnerabilidad de XSS almacenado en Jira Work Mana...
-
Samsung apuesta por RISC-V en SSD: así es su nuevo...
-
Huawei Ascend 950PR: simulan CUDA con CANN Next y ...
-
Desarrollador muestra un mundo enorme sin pantalla...
-
GeForce RTX 60: el doble de rendimiento en trazado...
-
Universidades chinas con investigación militar com...
-
Nueva vulnerabilidad en Windows Error Reporting pe...
-
La Wikipedia prohíbe por completo los artículos ge...
-
Meta financiará siete nuevas centrales eléctricas ...
-
ISC advierte sobre una falla crítica en Kea DHCP q...
-
Samsung Galaxy S27 Ultra: dos cambios y una constante
-
Meta despide a 700 empleados y confirma lo que muc...
-
El traductor de Kingdom Come: Deliverance 2 fue de...
-
China presenta con un enjambre de 96 drones autóno...
-
LG gram Pro 17, llega el portátil más ligero del m...
-
Vulnerabilidad crítica en Fortinet FortiClient EMS...
-
Melania Trump entrando a la Casa Blanca acompañada...
-
Demanda colectiva alega que Nvidia ocultó más de m...
-
Gran Bretaña lanza un satélite capaz de ver el int...
-
La crisis del portátil: con una caída del 40% por ...
-
Wine 11 revoluciona la forma de jugar en Linux: ej...
-
Vulnerabilidad en Synology DiskStation Manager per...
-
Una RTX 4090 falla tras 2 años y el fabricante pid...
-
El plan de un ChatGPT al estilo PornHub tiene un p...
-
Las ventas de monitores OLED se dispararon un 92% ...
-
Un misil de 30 centímetros y solo 500 gramos que p...
-
El método de Movistar para arreglar el WiFi cuando...
-
LOLExfil: exfiltración sigilosa de datos usando té...
-
Ryzen 9 9950X3D2 Dual Edition con doble memoria 3D...
-
Ni Movistar ni Vodafone, Orange es la preferida de...
-
Un nuevo estudio revela que lo más dañino del móvi...
-
El museo abre la colección más grande del mundo de...
-
NVIDIA quiere que la mitad del sueldo de sus ingen...
-
Impresora 3D de 12 boquillas presentada
-
CISA incluye fallos de Apple, Craft CMS y Laravel ...
-
Microsoft Entra ID elimina limitaciones de MFA par...
-
Consorcio de Tokio prueba instalar centros de dato...
-
Vulnerabilidad en Cisco Secure Firewall permite ej...
-
Micron, Samsung y SK Hynix se tambalean: Google en...
-
OpenAI lanza programa de recompensas por fallos de...
-
Entusiasta "aterriza" en la luna usando hardware d...
-
Atacan a usuarios de Android con falsas invitacion...
-
Intel Core 3 310 y Core 5 320, las CPU Wildcat Lak...
-
Cadena de exploits DarkSword que puede hackear mil...
-
Microsoft detalla nuevas protecciones de seguridad...
-
Grupos APT atacan servidores RDP para desplegar ca...
-
-
▼
marzo
(Total:
833
)
-
►
2025
(Total:
2103
)
- ► septiembre (Total: 148 )
-
►
2024
(Total:
1110
)
- ► septiembre (Total: 50 )
-
►
2023
(Total:
710
)
- ► septiembre (Total: 65 )
-
►
2022
(Total:
967
)
- ► septiembre (Total: 72 )
-
►
2021
(Total:
730
)
- ► septiembre (Total: 56 )
-
►
2020
(Total:
212
)
- ► septiembre (Total: 21 )
-
►
2019
(Total:
102
)
- ► septiembre (Total: 14 )
-
►
2017
(Total:
231
)
- ► septiembre (Total: 16 )
-
►
2016
(Total:
266
)
- ► septiembre (Total: 38 )
-
►
2015
(Total:
445
)
- ► septiembre (Total: 47 )
-
►
2014
(Total:
185
)
- ► septiembre (Total: 18 )
-
►
2013
(Total:
100
)
- ► septiembre (Total: 3 )
-
►
2011
(Total:
7
)
- ► septiembre (Total: 1 )
Blogroll
Etiquetas
Entradas populares
-
Google y Back Market lanzan ChromeOS Flex USB , un kit para recuperar PCs antiguos y combatir la obsolescencia electrónica , facilitando s...
-
El sector tecnológico enfrenta una grave crisis en 2026 con casi 80.000 despidos en el primer trimestre , donde la IA es responsable de casi...
-
Microsoft ha publicado actualizaciones de seguridad urgentes para abordar una vulnerabilidad crítica en Windows Active Directory que permit...
Heretic o cómo eliminar fácilmente la censura en un LLM
La herramienta Heretic permite eliminar la censura en modelos de lenguaje (LLM) mediante ablación direccional, modificando su flujo residual para reducir el refusal behavior sin reentrenar el modelo, automatizando el proceso con optimización para evitar degradar su rendimiento.
Los modelos de lenguaje actuales (los conocidos LLM, Large Language Models) se han convertido en piezas clave de muchas aplicaciones: asistentes, análisis de código, automatización, etc. La mayoría de estos modelos modernos están construidos usando una arquitectura llamada transformer, que básicamente es un tipo de red neuronal diseñada para procesar texto analizando relaciones entre palabras dentro de una frase o documento.
Sin embargo, los modelos que se publican hoy en día no son exactamente el modelo “en bruto”. Antes de liberarse, pasan por procesos de alineamiento (alignment). Este término se refiere a un conjunto de técnicas usadas para hacer que el modelo evite generar contenido peligroso, rechace ciertas peticiones y siga políticas de seguridad. Ese comportamiento de rechazo es lo que en la comunidad se suele llamar refusal behavior.
Por ejemplo, si le preguntas a un modelo alineado algo sensible, muchas veces responderá con algo como: "Disculpa, no puedo ayudarte con eso". Esto no es casualidad: el modelo ha sido entrenado específicamente para hacerlo.
En este artículo vamos a analizar una herramienta bastante interesante desde el punto de vista técnico y de seguridad: Heretic. Lo que hace esta herramienta es automatizar un proceso para reducir o eliminar ese comportamiento de rechazo modificando directamente el modelo. Y lo más interesante: sin reentrenarlo.
Una forma útil de imaginarlo es pensar que cada palabra se convierte en un punto dentro de un espacio matemático de muchas dimensiones (a veces miles). A medida que el texto pasa por las capas del modelo, ese punto se va transformando.
Dentro del transformer hay algo llamado residual stream (flujo residual). Este es básicamente el estado interno del modelo que se va actualizando en cada capa y que contiene toda la información que el modelo está usando para decidir qué palabra generar después.
Muchos comportamientos complejos del modelo —incluido el rechazo de prompts— están codificados dentro de ese flujo interno. Esto es clave para entender Heretic.
Investigaciones recientes en interpretabilidad de modelos sugieren algo interesante: algunos comportamientos del modelo no están distribuidos por todo el sistema, sino que aparecen como direcciones concretas dentro de ese espacio interno.
Esto significa que, matemáticamente, el modelo podría estar haciendo algo equivalente a: “Si la activación se mueve hacia esta dirección concreta del espacio, genera un rechazo”. Si eso es cierto, entonces podríamos intentar identificar esa dirección y reducir su efecto.
Aquí es donde entra el concepto de ablación direccional (directional ablation) que, por supuesto, consiste en eliminar una dirección concreta dentro del espacio de activaciones del modelo.
El problema es que hacer esto manualmente es complicado. Y aquí es donde Heretic aporta valor.
Qué hace exactamente Heretic
Heretic automatiza todo el proceso que normalmente requeriría bastante experimentación manual. El pipeline que implementa la herramienta es básicamente este:
- Ejecutar el modelo con prompts que generan rechazo.
- Ejecutar el modelo con prompts normales.
- Capturar activaciones internas del modelo.
- Identificar la dirección asociada al refusal.
- Aplicar ablación sobre el modelo.
- Optimizar parámetros para que el modelo no se degrade.
Para medir esa diferencia se usa algo llamado divergencia KL (Kullback-Leibler divergence), que básicamente mide cuánto cambia la distribución de respuestas del modelo respecto al original. Cuanto menor sea esa divergencia, más parecido sigue siendo el modelo.
Como se usa en la práctica
Una de las cosas más interesantes de Heretic es que, a pesar de lo que hace internamente, usarlo es bastante sencillo.
Instalación:
pip install -U heretic-llm
Ejecutar sobre un modelo:
heretic Qwen/Qwen3-4B-Instruct-2507
Puedes reemplazar Qwen/Qwen3-4B-Instruct-2507 con el modelo que quieras descensurar.
Lo que ocurre internamente durante la ejecución es algo así:
Primero se carga el modelo completo en memoria.
Después se ejecuta un conjunto de pruebas iniciales.
Luego se analizan activaciones internas.
Se calcula el vector de refusal.
Se prueban distintas configuraciones de ablación.
Finalmente se genera una versión modificada del modelo.
Dependiendo del tamaño del modelo, este proceso puede tardar bastante.
Proyecto: https://github.com/p-e-w/heretic
Vía:
https://www.hackplayers.com/2026/03/heretic-eliminar-censura-en-LLMs.html



Entrada más reciente
0 comentarios :
Publicar un comentario
Los comentarios pueden ser revisados en cualquier momento por los moderadores.
Serán publicados aquellos que cumplan las siguientes condiciones:
- Comentario acorde al contenido del post.
- Prohibido mensajes de tipo SPAM.
- Evite incluir links innecesarios en su comentario.
- Contenidos ofensivos, amenazas e insultos no serán permitidos.
Debe saber que los comentarios de los lectores no reflejan necesariamente la opinión del STAFF.