Afrontando los desafíos de la IA Avanzada: Reseña de Managing extreme AI risks amid rapid progress

Por: Equipo de ORCG

En un reciente artículo publicado en la revista Science, un grupo de investigadores señaló que el desarrollo de sistemas de inteligencia artificial (IA) avanzados podría acelerar el progreso humano, permitiendo avanzar en medicina, elevar los estándares de vida globales y proteger el medio ambiente. No obstante, también esperan que su potencial de innovación pueda ser utilizado para aumentar la injusticia social, facilitar la vigilancia estatal masiva o exacerbar el cibercrimen y la guerra a gran escala (Bengio et al., 2024). 

Para abordar este panorama turbulento, los autores, expertos en IA, historia, psicología y gobernanza, enfatizan la necesidad de mayores esfuerzos y avances en investigación técnica y medidas de gobernanza que garanticen una IA segura y beneficiosa a medida que incrementan sus capacidades y autonomía. 

Aunque el futuro de la IA es incierto, consideramos que este artículo es un excelente ejemplo de cómo tomarse en serio su potencial transformador. Quisiéramos ver más escritos como este, que expongan escenarios claros para el futuro y los acompañen de recomendaciones concretas de política e investigación. Si bien podríamos tener reservas antes de adoptar todas las propuestas del artículo, creemos que son un insumo clave para el debate y la creación de respuestas efectivas a los desafíos venideros.

Los sistemas de IA siguen mejorando

En la última década, los sistemas de inteligencia artificial han ido acercándose (o incluso superando) el desempeño humano en la mayoría de las métricas en las que podemos evaluarlos (Kiela et al., 2021). Aunque parte de esto se debe a las limitaciones de nuestras métricas, que suelen centrarse en tareas individuales y aisladas de un contexto real de implementación (de Vries et al., 2020), gran parte es progreso real, resultado del acelerado avance del principal paradigma actual en IA: el aprendizaje automático. Usando esta aproximación, si se puede cuantificar el desempeño en una tarea, a menudo es posible crear sistemas de IA más capaces utilizando más cómputo, datos o mejorando los algoritmos que componen el sistema.

Figura 1. Progreso de la IA en diferentes métricas comparado con línea base humana. Our World In Data (Traducción Propia).

En 2012, Geoffrey Hinton, ganador del prestigioso Premio Turing y coautor del artículo en Science, supervisó la creación del sistema AlexNet, una inteligencia artificial para clasificar imágenes (Krizhevsky et al., 2012). Aunque AlexNet todavía cometía errores 3 veces más a menudo que clasificadores humanos (Russakovsky et al., 2015), este modelo desencadenó una revolución en inteligencia artificial al exhibir, de manera clara y reproducible, cómo combinar cómputo, datos y algoritmos para obtener un desempeño sustancial en una tarea que anteriormente había sido poco accesible para los sistemas de IA. 

En líneas generales, el aprendizaje automático consiste en procesar millones o billones de ejemplos de una tarea (datos) mediante una cantidad similarmente grande de transformaciones matemáticas repetitivas (algoritmos) que convergen gradualmente hacia un sistema con mejor desempeño en la tarea ilustrada por los datos. Para poder procesar datos a la escala necesaria, los modelos de IA son típicamente entrenados usando chips especializados (cómputo), los cuales están diseñados para poder realizar numerosas operaciones en paralelo y así acelerar el proceso de entrenamiento de los modelos. 

Lo sorprendente es que, sin cambios fundamentales, los investigadores de IA han podido usar estas mismas herramientas para entrenar modelos que conversan naturalmente (Brown et al., 2020), superan a los mejores jugadores de ajedrez y Go (Silver et al., 2016), y resuelven problemas abiertos en biología que habían eludido a investigadores por décadas (Abramson et al., 2024; Jumper et al., 2021).

Detrás de ese rápido progreso, está un aumento exponencial del talento y los recursos dedicados a aumentar y mejorar los principales insumos de los sistemas de aprendizaje automático. En promedio, los modelos de lenguaje punteros son entrenados cada año con 4.1 veces más cómputo (Sevilla & Roldán, 2024), usando bases de datos 2.2 veces más grandes (Villalobos, 2024), con chips 1.35 veces más rápidos (Hobbhahn & Besiroglu, 2022) y algoritmos 3 veces más eficientes (Ho, 2024).

Los sistemas de IA actuales ya superan el desempeño de profesionales expertos en algunas tareas específicas que hacen parte de su trabajo, como en facetas del diagnóstico médico (Saab et al., 2024), servicios de apoyo emocional (Zheng et al., 2023) y revisión de contratos legales (Martin et al., 2024). Extrapolando las posibilidades de mejora de la IA hacia el futuro, los autores del artículo en Science advierten que “debemos considerar seriamente la posibilidad de que, en esta década o la siguiente, desarrollemos sistemas de IA de propósito general que superen las habilidades humanas en múltiples dominios críticos” (Bengio et al., 2024).

Aunque integrar los sistemas de IA actuales a flujos de trabajo puede ser complejo y prolongado, se espera que estas dificultades disminuyan con el desarrollo de sistemas más autónomos, capaces de interactuar directamente con el mundo externo y perseguir metas de manera independiente (Xi et al., 2023). Esto les permitiría asemejarse a un compañero remoto, capaz de recibir tareas, realizar informes y llevar a cabo experimentos, participando activamente en procesos de producción e investigación. 

Dado que utilizar sistemas de IA requiere mucho menos cómputo que entrenarlos (Villalobos & Atkinson, 2023), el cómputo ya instalado podría emplearse para cientos de millones de sistemas de IA autónomos. Aunque existe poca literatura explorando las consecuencias de este escenario, estimados recientes sugieren que resultaría en un crecimiento económico explosivo, con la economía duplicando su tamaño cada 1 o 3 años durante los periodos de mayor avance (Davidson, 2023; Erdil & Besiroglu, 2023).

Sin embargo, este potencial podría ser redirigido a fines desastrosos. Actores malintencionados podrían utilizar sistemas de IA avanzados para automatizar operaciones de cibercrimen o desplegar armas biológicas (Privitera et al., 2024). Además, es posible que algunos sistemas de IA persigan metas contrarias al bienestar humano por cuenta propia (Ngo et al., 2024).

Actualmente, no existen mecanismos confiables para distinguir entre sistemas de IA genuinamente seguros y aquellos que sólo aparentan serlo durante el entrenamiento, pero que podrían fallar catastróficamente al ser desplegados. Las garantías sobre su comportamiento se basan principalmente en la escasez de fallos importantes hasta ahora. Aunque estos fallos son infrecuentes en sistemas actuales–con la posible excepción de Sydney Bing amenazando a sus usuarios–, múltiples investigadores en IA esperan que, a medida que los modelos se vuelvan más capaces, sus desviaciones del comportamiento esperado se tornen más sofisticadas y de mayor impacto (Grace et al., 2024).

Si se llegara a observar sistemas de IA autónomos con capacidades avanzadas que atenten abiertamente contra el bienestar humano, las consecuencias podrían ser potencialmente catastróficas (Carlsmith, 2022). Tales sistemas podrían adquirir recursos económicos, ganar el favor de tomadores de decisiones o incluso desplegar armas de destrucción masiva. Es posible que una IA ni siquiera necesite conspirar para adquirir estos recursos, ya que muchos actores en empresas, gobiernos y ejércitos nacionales podrían estar dispuestos a delegar roles críticos a los sistemas de IA con el fin de ganar una ventaja sobre sus competidores (Hendrycks, 2023). 


Desafíos y Soluciones Técnicas


Figura 2. Los nueve desafíos de I+D. Elaboración propia basada en Bengio et al. (2024).

Actualmente, se estima que sólo entre el 1% y el 3% de las publicaciones sobre IA abordan la seguridad de la IA (Center for Security and Emerging Technologies, 2024). En relación con el número de preguntas de investigación abiertas, el área sufre de una escasez marcada de financiación y talento. Como resultado, aunque existe una gran variedad de agendas de investigación técnica con el potencial de ofrecer mejores garantías para el despliegue seguro de IA avanzada, muchas de ellas se encuentran apenas en su infancia. La Figura 1 lista todas las agendas sugeridas en el artículo, de la cuáles resaltamos:

  • Supervisión y Honestidad: Desarrollar mecanismos que permitan verificar la veracidad de los outputs de sistemas de IA, incluso en escenarios donde estos son más capaces o cuentan con más información que nosotros (Sang et al., 2024). 

  • Interpretabilidad y Transparencia: Traducir las representaciones internas de los modelos de IA a conceptos y representaciones humanas. De manera notable, Anthropic y OpenAI recientemente lograron identificar millones de conceptos o ‘neuronas’ que se activan cuando sus modelos de lenguaje responden a una pregunta (Gao et al., 2024; Templeton et al., 2024).  

  • Evaluación de Capacidades Peligrosas: Evaluar las capacidades de los sistemas de IA de manera precisa y en escenarios realistas. Esto nos permitirá identificar de antemano sus comportamientos más peligrosos y desarrollar medidas de mitigación adecuadas (Shevlane et al., 2023). 

  • Resiliencia: Usar sistemas de IA para fortalecer los sistemas de defensa contra los mayores riesgos ocasionados por la IA. Si las capacidades de actores maliciosos aumentan junto con el avance de los sistemas de IA, será indispensable que las medidas de protección de la sociedad no se queden atrás (Bernardi et al., 2024). 

A diferencia del avance de las capacidades de la IA, los investigadores del artículo señalan que estos desafíos no pueden resolverse simplemente entrenando modelos con más datos y cómputo. En su lugar, remarcan que necesitaremos avances fundamentales, lo que requiere una reasignación significativa de recursos dentro de la comunidad de investigación de IA. Para lograrlo, proponen que al menos un tercio del presupuesto para investigación de las principales empresas tecnológicas y financiadores públicos se dedique a la seguridad y la ética, a la par de los recursos que actualmente se gastan en expandir las capacidades de la IA (Bengio et al., 2024).

Medidas de Gobernanza



Figura 3. Cuatro medidas de gobernanza. Elaboración propia basada en Bengio et al. (2024)


Además de la preparación técnica, los autores también sugieren varias medidas de gobernanza orientadas a encarar el rápido progreso de la IA. A grandes rasgos, sugieren: 

  • Establecer instituciones dotadas de talento técnico, autoridad y recursos para regular y supervisar los sistemas de IA más avanzados.

  • Garantizar visibilidad del gobierno sobre el desarrollo de la IA a través del reporte obligatorio de los detalles técnicos del modelo, reporte de incidentes, protección a denunciantes y acceso a auditores externos (Kolt et al., 2024). 

  • Exigir que los desarrolladores de IA demuestren la confiabilidad del sistema a través de “casos de seguridad” que propongan afirmaciones verificables y muestren cómo los riesgos son adecuadamente mitigados (Clymer et al., 2024). 

  • Responsabilizar legalmente a los desarrolladores por daños previsibles, restringir el uso de sistemas de IA autónomos en áreas críticas y empoderar a los reguladores para frenar el despliegue de sistemas de IA en situaciones de alto riesgo.

Qué tan apropiadas son estas medidas dependerá, en parte, del peso que se le dé al panorama de riesgo presentado por los autores. Si se cree que las principales consecuencias negativas de la IA provienen de las capacidades peligrosas y la falta de confiabilidad de los modelos (p. ej. conocimiento de armas biológicas, autonomía, etc.), parece razonable requerir que los desarrolladores demuestren que sus sistemas son de bajo riesgo y se responsabilicen por los potenciales daños causados.

Al mismo tiempo, otros investigadores que han reflexionado seriamente sobre el futuro de la IA parten de otras premisas, a veces complementarias y a veces opuestas. Para algunos, es crucial que las democracias liberales desarrollen y aprovechen los avances de la IA para resguardar su posición en la arena geopolítica (Aschenbrenner, 2024). Para otros, el desarrollo de la IA será como la introducción de internet, ubicuo en sus efectos, pero difícil de controlar en cuanto a sus beneficios y amenazas (Olson, 2024). Otros consideran que el riesgo central es que las instituciones no les otorguen protección adecuada a los propios agentes de IA, que podrían eventualmente adquirir consciencia y tener intereses y preferencias propias (Bostrom & Shulman, 2022).

Aunque es problemático que las decisiones sobre regulación en IA dependan tan estrechamente de la predicción de un futuro que tantos han tenido dificultades para esbozar en detalle, esto no representa un impedimento absoluto. Mediante investigaciones, debates, testimonios y negociaciones, podemos converger gradualmente hacia opciones regulatorias que sean robustas ante diferentes escenarios y que avancen los objetivos comunes de distintas agendas.

Este año, Estados Unidos, el Reino Unido y la Unión Europea decidieron crear agencias con talento técnico en IA para supervisar y regular el desarrollo de la IA avanzada. Independientemente de si la IA futura será generalmente beneficiosa o dañina, será importante tener personal capacitado en el gobierno para ayudarlos a entender lo que está pasando. 

Recientemente, dieciséis empresas desarrolladoras de IA, incluyendo a los principales jugadores como Google DeepMind, Meta, OpenAI y Anthropic, acordaron establecer procesos para identificar y mitigar los riesgos ocasionados por sus sistemas de IA, definiendo umbrales claros a partir de los cuales no tolerarán el riesgo generado, con la expectativa de hacerlos públicos para informar a la sociedad en general (Department for Science, 2024). Aunque estos compromisos son voluntarios, representan un primer paso importante para comprender mejor los riesgos generados por los modelos entrenados por estas compañías, permitiéndonos analizar si las medidas de mitigación propuestas son suficientes para la magnitud del riesgo.

Coincidimos con el artículo de Science en que es necesario mejorar sustancialmente nuestra preparación técnica e institucional para estar listos ante la llegada de sistemas más avanzados de IA. Asimismo, nos sentimos optimistas por la respuesta política a los recientes avances en el campo, así como con las oportunidades de debate y colaboración que se siguen abriendo para aprovechar los beneficios que promete la IA a la vez que se gestionan adecuadamente los riesgos asociados.






Anterior
Anterior

Artículo académico "Soluciones alimentarias resilientes para evitar la hambruna masiva durante un invierno nuclear en Argentina".

Siguiente
Siguiente

Artículo académico "Revisión sistemática de taxonomías de riesgos asociados a la Inteligencia Artificial"