Democratización del Deep Learning: su potencial al alcance de todos

UPDATE: Una versión modificada de este post ha sido publicado en  el portal TECNONEWS  el 04/07/2017

En 10 años, cuatro de las cinco empresas más grandes del mundo por capitalización de mercado han cambiado.  Exxon Mobil, General Electric, Citigroup y Shell Oil están fuera y Apple, Alphabet (la compañía matriz de Google), Amazon y Facebook han tomado su lugar. Solo Microsoft mantiene su posición.   Ya se han percatado que todas ellas son empresas  que dominan la nueva era digital en que nos encontramos inmersos. Estamos hablando de empresas que basan su poderío en inteligencia artificial en general, y en particular Deep Learning.

Acuñada la palabra en 1950 por John McCarthy, la Inteligencia Artificial existe desde hace décadas. Sin embargo, el progreso ha sido limitado hasta ahora porque los algoritmos requeridos por los problemas del mundo real son demasiado complejos para que la gente pueda programar manualmente. En términos generales, la Inteligencia Artificial (AI) es un término general que se refiere a hardware o software que exhibe un comportamiento que parece inteligente. La promesa de la Inteligencia Artificial moderna es transferir la dificultad de hacer predicciones complejas por parte del programador a un programa ejecutado en un (super)ordenador.

Al subcampo de la Inteligencia Artificial que proporciona a los ordenadores la capacidad de aprender sin ser explícitamente programados se conoce por Machine Learning (ML) o aprendizaje automático (en castellano, aunque se acostumbra el término inglés). El objetivo del  ML es desarrollar un “algoritmo” de predicción para un caso de uso particular. Un ejemplo de algoritmo ML es el que recibe inicialmente ejemplos cuyas salidas son conocidas (aprendizaje supervisado), toma nota de la diferencia entre sus predicciones y las salidas correctas y ajusta iterativamente las ponderaciones de las entradas para mejorar la precisión de sus predicciones. En ML existen muchos enfoques bien establecidos, cada uno de los cuales utiliza una estructura algorítmica diferente para optimizar las predicciones basadas en los datos recibidos.

El Deep Learning (DL) o aprendizaje profundo (en castellano),  es a su vez un subconjunto de ML que como hemos ya avanzado ha revolucionado el mundo de la inteligencia artificial y de aquí su actual popularidad. El DL permite modelos computacionales, basados en lo que se conoce como redes neuronales, que están compuestos de múltiples capas de procesamiento para aprender representaciones de datos con múltiples niveles de abstracción. Estos métodos han mejorado drásticamente el estado de la técnica en reconocimiento de voz u objetos visuales, entre muchos otros dominios.

Por ejemplo, el reciente desarrollo de las  Convolutional Neural Networks (CNN) o redes neuronales convolucionales (en castellano), un tipo de Deep Learning,  ha transformado nuestra capacidad de reconocer objetos dentro de las imágenes. En 2015, un sistema de visión computarizado basado en CNN identificó objetos en imágenes (en Imagenet, una base de datos abierta con más de 10 millones de imágenes etiquetadas) con mayor eficacia que los humanos.  El progreso en el reconocimiento del habla y la escritura a mano, mientras tanto, está mejorando rápidamente después de la utilización de un nuevo tipo de redes neurales, las recurrent neural networks  (RNNs), o redes neuronales recurrentes (en castellano).

Ahora bien, un fenómeno como el Big Data ha sido también un marco crucial. Los datos son el combustible para el DL.  Las redes neuronales utilizadas para el DL suelen requerir grandes conjuntos de datos para el entrenamiento. Afortunadamente, la creación y disponibilidad de datos ha crecido exponencialmente con el Big Data (ampliamente tratado hace años atrás en este blog). Muchas bases de datos abiertas (como el ImageNet antes mencionado) han permitido el rápido desarrollo de algoritmos de DL.

Pero en realidad los impresionantes avances que ha mostrado el Deep Learning se debe en gran medida a la mejora de la capacidad de computación de que disponemos hoy en día.  Por ejemplo, las unidades de procesamiento gráfico  conocidas popularmente por GPU permiten acelerar el proceso de aprendizaje del DL. Las GPU se desarrollaron originalmente para acelerar el juego 3D que requiere el uso repetido de un proceso matemático como un cálculo de la matriz. El aprendizaje de una red neuronal hace un uso extensivo de los cálculos de la matriz.  En general todos los fabricantes de procesadores están puestos en este campo tan goloso. Incluso algunos nuevos actores, por ejemplo, el año pasado Google anunció que había construido un procesador llamado TPU, que proporciona un alto rendimiento en aplicaciones de DL.

Pero no siempre una empresa puede disponer de este hardware especializado y por ello el uso de DL por parte de los desarrolladores está empezando a ser catalizado por la provisión de infraestructura y servicios de AI basados en la nube (Cloud Computing) por proveedores líderes de la industria de este sector como son Google, Amazon, Microsoft o IBM, entre muchos otros. Estas empresas aprovechan la potencia de su nube para ofrecer servicios de AI que varían perceptiblemente de un vendedor a otro, en función de los algoritmos, datos de entrenamiento, o del hardware subyacente.

Y otro de los factores también claves para desatar el potencial del DL ha sido el abundante software  open source como Caffe2 de Facebook, TensorFlow de Google o CNTK de Microsoft entre muchos otros. Y no menos importante ha sido una nueva ética de publicación abierta, en la que muchos investigadores del área publican sus resultados inmediatamente en una base de datos como arxiv.org, de la Universidad de Cornell, sin esperar la aprobación de la revisión por pares habituales en los congresos de investigación.

Todo ello ha contribuido a la “democratización” del DL poniéndolo al alcance de todos. Los beneficios del DL (e inteligencia artificial en general) serán numerosos y significativos para mejorar y reimaginar los sistemas existentes. Sin duda estamos ante una nueva tecnología disruptiva. Históricamente hablando, la primera revolución industrial utilizó la energía de vapor para mecanizar la producción a finales del siglo XVII. La segunda revolución utilizó la electricidad para impulsar la producción en masa en la segunda mitad del siglo XVIII. En los años setenta del siglo pasado la tercera revolución utilizó la electrónica y el software. Hoy nos encontramos frente a una nueva fuente de creación de valor en el área de procesamiento de la información que va a cambiar radicalmente la manera en que vivimos, trabajamos e incluso pensamos.

En el pasado, muchas empresas se dieron cuenta tarde de que deberían haber comenzado a pensar antes en su estrategia de Internet. Estoy seguro que dentro de unos años habrá un número de compañías que desearían haber comenzado a pensar más tempranamente sobre su estrategia en relación a la inteligencia artificial. ¡Que no sea la suya una de ellas!

2017-09-10T19:28:53+00:00 June 2nd, 2017|