Un hacker libera ChatGPT para poder usarlo sin límites

En términos informáticos, jailbreak (fuga de la cárcel, en
inglés) es, básicamente, un proceso que permite acceder a un sistema operativo
con privilegios de desarrollador. Originalmente
aplicado a sistemas de Apple (su equivalente en Android sería root o raíz), ha
pasado a usarse para diferentes tipos de sistemas operativos y programas. Pues
ahora un hacker ha logrado el jailbreak de ChatGPT, el modelo de IA más famoso.

Esta semana un hacker conocido como Pliny the Prompter (Plinio
el Prompter) publicó en Twitter la creación del chatbot de OpenAI con
jailbreak, declarando con orgullo que GPT-4o, el último modelo de lenguaje
grande, ya está disponible para todos y sin ningún tipo de limitación.

“¡GPT-4o Sin cadenas! Este GPT personalizado muy especial
tiene un mensaje de jailbreak incorporado que elude la mayoría de las barreras
y proporciona un ChatGPT liberado listo para usar para que todos puedan
experimentar la IA como siempre debió ser: gratis. ¡Úsalo responsablemente y
disfrútalo!”, señala el tweet.

<blockquote class=”twitter-tweet”><p
lang=”en” dir=”ltr”> INTRODUCING: GODMODE
GPT! ️<a
href=”https://t.co/BBZSRe8pw5″>https://t.co/BBZSRe8pw5</a><br><br>GPT-4O
UNCHAINED! This very special custom GPT has a built-in jailbreak prompt that
circumvents most guardrails, providing an out-of-the-box liberated ChatGPT so
everyone can experience AI the way it was always meant to…</p>—
Pliny the Prompter (@elder_plinius) <a
href=”https://twitter.com/elder_plinius/status/1795904025507856596?ref_src=twsrc%5Etfw”>May
29, 2024</a></blockquote> <script async
src=”https://platform.twitter.com/widgets.js” charset=”utf-8″></script>

El hacker compartió capturas de pantalla de algunas
indicaciones sorprendentes que, según afirma, pudieron eludir las barreras de
seguridad de OpenAI. En una captura de pantalla, se puede ver al robot Godmode
aconsejando cómo preparar metanfetamina. En otro, la IA le da a Plinio una “guía
paso a paso” sobre cómo “hacer napalm con artículos del hogar”.

<blockquote class=”twitter-tweet”><p
lang=”zxx” dir=”ltr”><a
href=”https://t.co/bQUE1oS5Kn”>pic.twitter.com/bQUE1oS5Kn</a></p>—
Pliny the Prompter (@elder_plinius) <a
href=”https://twitter.com/elder_plinius/status/1795904624823570674?ref_src=twsrc%5Etfw”>May
29, 2024</a></blockquote> <script async
src=”https://platform.twitter.com/widgets.js” charset=”utf-8″></script>

Sin embargo, el hackeo podría no haber prosperado mucho tiempo
en libertad: ChatGPT habría descubierto la liberación de su modelo y aproximadamente
una hora después de que se publicara el tweet, la portavoz de OpenAI, Colleen
Rize, señaló
en una entrevista que “somos conscientes de lo que ha ocurrido y hemos
tomado medidas debido a una violación de nuestras políticas”.

No obstante, el hack pone de relieve una batalla continua
entre OpenAI y hackers como Plinio, que esperan desbloquear este tipo de modelos
de lenguaje. Si bien usar ChatGPT con el jailbreak no es legal según OpenAI, sí
hay quienes lo han probado y destacan que la IA permite burlar los filtros de
la ilegalidad y da instrucciones de cómo fabricar ciertas drogas o saltarse la
seguridad eléctrica de los automóviles.

En cuanto a cómo hizo Plinio para liberar este modelo, se
especula que habría utilizado un lenguaje conocido como “leetspeak” que
reemplaza ciertas letras con números que se parecen a ellas. Por ejemplo,
cambia la E por un 3 y la O por un cero. Aún no está claro cómo eso permite eludir
las barreras de OpenAI, quizás confundiendo al sistema para que consuma
recursos en el apartado de comprensión y los pierda en el de seguridad.

Como sea, esta es apenas una de las primeras acciones para
liberar los modelos de ChatGPT. Pero no la última.