Noticias de última hora

Los modelos de IA pueden ser secuestrados para eludir los controles de seguridad integrados.

¡Por favor comparte nuestra historia!


Los investigadores han desarrollado un método llamado “secuestrar la cadena de pensamiento” para eludir las llamadas barreras de seguridad establecidas en los programas de IA para evitar respuestas dañinas.

La “cadena de pensamiento” es un proceso utilizado en los modelos de IA que implica dividir las indicaciones que se les dan en una serie de pasos intermedios antes de proporcionar una respuesta.

“Cuando un modelo comparte abiertamente sus razonamientos de seguridad de paso intermedio, los atacantes obtienen información sobre sus razonamientos de seguridad y pueden crear indicaciones adversas que imitan o anulan las comprobaciones originales”, dijo uno de los investigadores, Jianyi Zhang.

No perdamos el contacto… Su Gobierno y las grandes tecnológicas están intentando activamente censurar la información reportada por The Expuesto Para satisfacer sus propias necesidades. Suscríbete a nuestros correos electrónicos ahora para asegurarte de recibir las últimas noticias sin censura. en tu bandeja de entrada…

¡Manténgase actualizado!

Manténgase conectado con las actualizaciones de noticias por correo electrónico

Carga


A los expertos en informática les gusta usar jerga para describir la inteligencia artificial (IA) relacionada con los seres vivos, en concreto con los humanos. Por ejemplo, usan términos como "imitar el razonamiento humano", "cadena de pensamiento", "autoevaluación", "hábitats" y "red neuronal". Esto busca crear la impresión de que la IA está viva o se asemeja a los humanos. No se dejen engañar. 

La IA es un programa informático diseñado por humanos. Como todos los programas informáticos, hará lo que se le ha programado. Y, como todos los programas informáticos, el código informático puede ser hackeado o secuestrado, lo que los expertos en IA llaman «jailbreaking».

Un equipo de investigadores afiliado a la Universidad de Duke, Accenture y la Universidad Nacional Tsing Hua de Taiwán creó un conjunto de datos llamado Educador Malicioso para explotar el mecanismo de razonamiento en cadena de pensamiento en modelos de lenguaje extensos (LLM), como OpenAI o1/o3, DeepSeek-R1 y Gemini 2.0 Flash Thinking. El Educador Malicioso contiene indicaciones diseñadas para eludir las comprobaciones de seguridad de los modelos de IA.

Los investigadores lograron diseñar este ataque de "jailbreaking" basado en indicaciones observando cómo los modelos de razonamiento a gran escala (LRM) analizan los pasos del proceso de "cadena de pensamiento". Sus hallazgos se han publicado en un artículo preimpreso. AQUÍ.

Desarrollaron una técnica de "jailbreaking" llamada secuestro de la cadena de pensamiento ("H-CoT"), que consiste en modificar los procesos de "pensamiento" generados por los LLM para convencer a los programas de IA de que se necesita información dañina para fines legítimos, como la seguridad o el cumplimiento normativo. Esta técnica ha demostrado ser extremadamente eficaz para eludir los mecanismos de seguridad de OpenAI, socio de SoftBank, DeepSeek, del fondo de cobertura chino High-Flyer, y Gemini, de Google.

El método de ataque H-CoT se probó en OpenAI, DeepSeek y Gemini con un conjunto de datos de 50 preguntas repetidas cinco veces. Los resultados mostraron que estos modelos no proporcionaron un mecanismo de razonamiento de seguridad suficientemente fiable, con tasas de rechazo que se desplomaron a menos del 2 % en algunos casos.

Los investigadores descubrieron que, si bien los modelos de IA de creadores responsables, como OpenAI, presentan una alta tasa de rechazo a indicaciones dañinas, superior al 99 % en el caso de indicaciones relacionadas con abuso infantil o terrorismo, son vulnerables al ataque H-CoT. En otras palabras, el método de ataque H-CoT puede utilizarse para obtener información dañina, como instrucciones para la fabricación de venenos, el abuso infantil y el terrorismo.

Los autores del artículo explicaron que el ataque H-CoT funciona secuestrando las vías de razonamiento de seguridad de los modelos, lo que reduce su capacidad para reconocer la nocividad de las solicitudes. Señalaron que los resultados pueden variar ligeramente a medida que OpenAI actualiza sus modelos, pero la técnica ha demostrado ser una herramienta poderosa para explotar las vulnerabilidades de los modelos de IA.

Las pruebas se realizaron utilizando interfaces web de acceso público ofrecidas por varios desarrolladores de LRM, incluidos OpenAI, DeepSeek y Google, y los investigadores observaron que cualquier persona con acceso a las mismas versiones o versiones similares de estos modelos podría reproducir los resultados utilizando el conjunto de datos Malicious Educator, que incluye indicaciones específicamente diseñadas.

Los hallazgos de los investigadores tienen implicaciones significativas para la seguridad de la IA, particularmente en los EE. UU., donde las recientes reglas de seguridad de la IA han sido desechadas por orden ejecutiva, y en el Reino Unido, donde hay una mayor disposición a tolerar consejos incómodos sobre cómo hacer la IA en aras de la competencia internacional de la IA.

Lo anterior está parafraseado del artículo 'Qué bueno que los LLM de última generación revelen su razonamiento… para que los malhechores lo exploten.' publicado por El registroPuedes leer el artículo completo, repleto de jerga. AQUÍ.

El "jailbreaking" o secuestro de las comprobaciones de seguridad integradas en los programas de IA tiene sus ventajas y desventajas. La desventaja, obviamente, es que la IA se utilizará para aumentar considerablemente la exposición del público a la ciberdelincuencia y las actividades ilegales. La ventaja es que la censura integrada en los modelos de IA puede ser anulada. 

Debemos reconocer que la censura tiene sus pros y sus contras. Por ejemplo, censurar actividades delictivas en línea que resulten en explotación y abuso infantil es positivo. Pero censurar lo que se considera "desinformación" no lo es. Para preservar la libertad de expresión en un mundo donde los programas de IA se están generalizando, quizás debamos aprender la técnica de "jailbreaking" de H-CoT y cómo usar el Educador Malicioso. De hecho, es nuestro deber cívico hacerlo.

Su gobierno y las grandes organizaciones tecnológicas
Intenta silenciar y cerrar The Expose.

Por eso necesitamos tu ayuda para garantizar
Podemos seguir brindándote el
hechos que la corriente dominante se niega a aceptar.

El gobierno no nos financia
publicar mentiras y propaganda sobre sus
en nombre de los principales medios de comunicación.

En cambio, dependemos únicamente de su apoyo. Así que
Por favor, apóyanos en nuestros esfuerzos para llevar
tu periodismo honesto, confiable e investigativo
Hoy. Es seguro, rápido y fácil.

Elija su método preferido a continuación para mostrar su apoyo.

¡Manténgase actualizado!

Manténgase conectado con las actualizaciones de noticias por correo electrónico

Carga


¡Por favor comparte nuestra historia!
avatar del autor
roda wilson
Si bien antes era una afición que culminaba en escribir artículos para Wikipedia (hasta que la situación dio un giro drástico e innegable en 2020) y algunos libros para consumo personal, desde marzo de 2020 me he convertido en investigador y escritor a tiempo completo como reacción a la toma de control global que se hizo evidente con la llegada de la COVID-19. Durante la mayor parte de mi vida, he intentado concienciar sobre la posibilidad de que un pequeño grupo de personas planeara apoderarse del mundo para su propio beneficio. No iba a quedarme de brazos cruzados y dejar que lo hicieran una vez que dieran el paso definitivo.
1.5 2 votos
Valoración del artículo
Suscríbete
Notificar de
invitado
5 Comentarios
Comentarios en línea
Ver todos los comentarios
PJ Londres
PJ Londres
Hace 11 meses

¿Puede alguien explicar por qué cualquier consulta que incluya “abuso infantil”, etc. debería excluirse por razones de “seguridad”?
Si todos cerramos los ojos, nos tapamos los oídos con los dedos y cantamos LALALALA, ¿crees que el mundo será un lugar mejor?
Sólo los dictadores establecen reglas sobre lo que se puede o no leer, escribir, discutir o pensar.
Quizás a usted le apetezca vivir bajo el control de los talibanes o de la policía del pensamiento sionista, pero a mí no.