Se necesita mucha energía para que las máquinas aprendan: he aquí por qué la IA consume tanta energía.

Publicado 5 mes hace

Marcador de posición de contenido de terceros de Mendel. Categorías: Geografía y viajes, Salud y medicina, Tecnología y ciencia — Marcador de posición de contenido de terceros de Google Images Mendel. Categorías: Geografía y viajes, Salud y medicina, Tecnología y ciencia

Este artículo se vuelve a publicar desde The Conversation bajo una licencia Creative Commons. Lea el artículo original, que se publicó el 14 de diciembre de 2020.

Este mes, Google obligó a despedir a una destacada investigadora de ética de la IA después de que ella expresara su frustración con la compañía por obligarla a retirar un trabajo de investigación. El documento señaló los riesgos de la inteligencia artificial de procesamiento del lenguaje, del tipo utilizado en la Búsqueda de Google y otros productos de análisis de texto.

Entre los riesgos se encuentra la gran huella de carbono que implica el desarrollo de este tipo de tecnología de inteligencia artificial. Según algunas estimaciones, entrenar un modelo de IA genera tantas emisiones de carbono como las que se necesitan para construir y conducir cinco automóviles a lo largo de su vida.

Soy un investigador que estudia y desarrolla modelos de IA y estoy muy familiarizado con los crecientes costos energéticos y financieros de la investigación en IA. ¿Por qué los modelos de IA se han vuelto tan consumidores de energía y en qué se diferencian de la computación tradicional de los centros de datos?

La formación actual es ineficiente.

Los trabajos tradicionales de procesamiento de datos que se realizan en los centros de datos incluyen transmisión de video, correo electrónico y redes sociales. La IA es más intensiva desde el punto de vista computacional porque necesita leer muchos datos hasta que aprende a comprenderlos, es decir, se entrena.

Esta formación es muy ineficiente en comparación con la forma en que aprende la gente. La IA moderna utiliza redes neuronales artificiales, que son cálculos matemáticos que imitan las neuronas del cerebro humano. La fuerza de conexión de cada neurona con su vecina es un parámetro de la red llamado peso. Para aprender a comprender el lenguaje, la red comienza con pesos aleatorios y los ajusta hasta que el resultado coincide con la respuesta correcta.

Una forma común de entrenar una red lingüística es alimentándola con una gran cantidad de texto de sitios web como Wikipedia y medios de noticias con algunas de las palabras enmascaradas, y pidiéndole que adivine las palabras enmascaradas. Un ejemplo es "mi perro es lindo", con la palabra "lindo" enmascarada. Inicialmente, el modelo los interpreta todos mal, pero, después de muchas rondas de ajuste, los pesos de las conexiones comienzan a cambiar y captar patrones en los datos. La red finalmente se vuelve precisa.

Un modelo reciente llamado Representaciones de codificador bidireccional de Transformers (BERT) utilizó 3.300 millones de palabras de libros en inglés y artículos de Wikipedia. Además, durante el entrenamiento, BERT leyó este conjunto de datos no una, sino 40 veces. En comparación, un niño promedio que aprende a hablar podría escuchar 45 millones de palabras a los cinco años, 3000 veces menos que BERT.

Buscando la estructura adecuada

Lo que hace que construir modelos de lenguaje sea aún más costoso es que este proceso de capacitación ocurre muchas veces durante el curso del desarrollo. Esto se debe a que los investigadores quieren encontrar la mejor estructura para la red: cuántas neuronas, cuántas conexiones entre neuronas, qué tan rápido deberían cambiar los parámetros durante el aprendizaje, etc. Cuantas más combinaciones prueben, mayores serán las posibilidades de que la red logre una alta precisión. Los cerebros humanos, por el contrario, no necesitan encontrar una estructura óptima: vienen con una estructura preconstruida que ha sido perfeccionada por la evolución.

A medida que las empresas y los académicos compiten en el espacio de la IA, aumenta la presión para mejorar el estado del arte. Incluso lograr una mejora del 1% en la precisión en tareas difíciles como la traducción automática se considera significativo y genera buena publicidad y mejores productos. Pero para lograr esa mejora del 1%, un investigador podría entrenar el modelo miles de veces, cada vez con una estructura diferente, hasta encontrar la mejor.

Investigadores de la Universidad de Massachusetts Amherst estimaron el costo energético del desarrollo de modelos de lenguaje de IA midiendo el consumo de energía del hardware común utilizado durante el entrenamiento. Descubrieron que entrenar a BERT una vez tiene la huella de carbono de un pasajero que realiza un viaje de ida y vuelta entre Nueva York y San Francisco. Sin embargo, al buscar utilizando diferentes estructuras (es decir, entrenando el algoritmo varias veces con los datos con números ligeramente diferentes de neuronas, conexiones y otros parámetros), el costo llegó a ser el equivalente a 315 pasajeros, o un avión 747 completo.

Más grande y más caliente

Los modelos de IA también son mucho más grandes de lo necesario y crecen cada año. Un modelo de lenguaje más reciente similar a BERT, llamado GPT-2, tiene 1.500 millones de pesos en su red. GPT-3, que causó revuelo este año por su alta precisión, tiene 175 mil millones de pesos.

Los investigadores descubrieron que tener redes más grandes conduce a una mayor precisión, incluso si solo una pequeña fracción de la red termina siendo útil. Algo similar sucede en el cerebro de los niños cuando primero se añaden y luego se reducen conexiones neuronales, pero el cerebro biológico es mucho más eficiente energéticamente que los ordenadores.

Los modelos de IA se entrenan en hardware especializado, como unidades de procesadores de gráficos, que consumen más energía que las CPU tradicionales. Si posee una computadora portátil para juegos, probablemente tenga una de estas unidades de procesador de gráficos para crear gráficos avanzados para, por ejemplo, jugar Minecraft RTX. También notarás que generan mucho más calor que las computadoras portátiles normales.

Todo esto significa que el desarrollo de modelos avanzados de IA genera una gran huella de carbono. A menos que cambiemos a fuentes de energía 100% renovables, el progreso de la IA puede estar en desacuerdo con los objetivos de reducir las emisiones de gases de efecto invernadero y frenar el cambio climático. El costo financiero del desarrollo también se está volviendo tan alto que sólo unos pocos laboratorios seleccionados pueden permitirse el lujo de hacerlo, y serán ellos quienes establezcan la agenda sobre qué tipos de modelos de IA se desarrollarán.

Hacer más con menos

¿Qué significa esto para el futuro de la investigación en IA? Puede que las cosas no sean tan sombrías como parecen. El coste de la formación podría reducirse a medida que se inventen métodos de formación más eficientes. De manera similar, si bien se predijo que el uso de energía de los centros de datos se dispararía en los últimos años, esto no ha sucedido debido a las mejoras en la eficiencia de los centros de datos, hardware y refrigeración más eficientes.

También existe una compensación entre el costo de entrenar los modelos y el costo de usarlos, por lo que gastar más energía en el momento del entrenamiento para crear un modelo más pequeño podría hacer que su uso sea más barato. Debido a que un modelo se utilizará muchas veces durante su vida útil, esto puede suponer un gran ahorro de energía.

En la investigación de mi laboratorio, hemos estado buscando formas de hacer que los modelos de IA sean más pequeños compartiendo pesos o usando los mismos pesos en múltiples partes de la red. A estas las llamamos redes cambiaformas porque un pequeño conjunto de pesos se puede reconfigurar en una red más grande de cualquier forma o estructura. Otros investigadores han demostrado que compartir el peso produce un mejor rendimiento con la misma cantidad de tiempo de entrenamiento.

De cara al futuro, la comunidad de IA debería invertir más en el desarrollo de planes de formación energéticamente eficientes. De lo contrario, se corre el riesgo de que la IA quede dominada por unos pocos elegidos que pueden darse el lujo de establecer la agenda, incluido qué tipos de modelos se desarrollan, qué tipos de datos se utilizan para entrenarlos y para qué se utilizan los modelos.

Escrito por Kate Saenko, Profesora Asociada de Ciencias de la Computación, Universidad de Boston.

Se necesita mucha energía para que las máquinas aprendan: he aquí por qué la IA consume tanta energía.

La formación actual es ineficiente.

Buscando la estructura adecuada

Más grande y más caliente

Hacer más con menos

Información similar