Por Redacción Contra Réplica

La gran incógnita de la inteligencia artificial: ¿cómo piensan los cerebros digitales?

A pesar de sus avances, los expertos aún no comprenden del todo cómo funcionan los modelos de IA generativa, lo que impulsa una carrera científica por descifrar sus procesos internos antes de que se vuelvan incontrolables.

A medida que la inteligencia artificial generativa (IA gen) avanza y se integra cada vez más en la vida cotidiana, sus propios creadores admiten que todavía no comprenden completamente cómo funcionan los complejos “circuitos” que le dan vida. Esta desconcertante realidad ha generado alarma incluso entre expertos, quienes comparan la situación con intentar descifrar el cerebro humano.

Dario Amodei, cofundador de Anthropic, empresa pionera en IA, reconoció en un ensayo reciente que existe una profunda falta de comprensión sobre el funcionamiento interno de estas tecnologías. “Quienes no se dedican al sector suelen sorprenderse y alarmarse al descubrir que no entendemos cómo funcionan nuestras propias creaciones”, escribió.

A diferencia del software tradicional que sigue instrucciones precisas, los modelos de IA generativa aprenden a resolver tareas por sí mismos mediante entrenamiento masivo, lo que dificulta rastrear con precisión cómo llegan a sus respuestas. Esta “caja negra” ha motivado el surgimiento de un campo emergente: la interpretabilidad mecanicista.

Chris Olah, experto en este enfoque y exmiembro de OpenAI, lo describe como una ingeniería inversa de la IA. Consiste en estudiar los “cálculos internos” que realiza un modelo cuando analiza una consulta, con el objetivo de entender su razonamiento.

“Es una tarea increíblemente ambiciosa, como tratar de entender completamente el cerebro humano”, afirmó Neel Nanda, investigador de DeepMind. Sin embargo, algunos científicos, como el profesor Anh Nguyen de la Universidad de Auburn, son optimistas: creen que para 2027 podría lograrse una interpretabilidad suficientemente robusta como para detectar sesgos e intenciones dañinas.

Empresas como Goodfire ya desarrollan herramientas para visualizar el razonamiento paso a paso de los modelos de IA. Estas soluciones buscan no solo mejorar la precisión, sino también evitar usos maliciosos o decisiones autónomas que engañen a los humanos.

Mark Crovella, profesor de informática en la Universidad de Boston, destaca que, a diferencia del cerebro humano, los modelos de IA ofrecen una ventaja: “tenemos cada neurona instrumentada dentro del modelo. Todo lo que ocurre lo conocemos. La clave es encontrar cómo analizarlo”.

La urgencia por entender estos sistemas crece en paralelo a su despliegue global. Como advierte Eric Ho, director ejecutivo de Goodfire, “se siente como una carrera contrarreloj para entenderlos antes de que sean demasiado poderosos para controlarlos”. Dominar su funcionamiento podría ser vital para aplicar IA en áreas críticas como la seguridad nacional, donde un pequeño error puede tener consecuencias irreversibles.