Visión artificial

Lección 5

Máquinas que ven

Visión artificial

¿Para qué sirve una máquina que puede ver?

Visión artificial

La visión artificial (los ingleses lo llaman computer vision) es la parte de la IA que se encarga de desarrollar técnicas para ayudar a los ordenadores a ver y así entender el contenido de fotografías y vídeos, como hacen las personas.

Lo cierto es que, para que una máquina vea, hay que hacer algo más que ponerle gafas.

¿En qué se parece la visión artificial a la forma en la que vemos los humanos? En la sección anterior te explicaba el papel que hace la córnea, la pupila, el iris, el cristalino y la retina para capturar las imágenes del mundo. La IA consigue hacer eso mismo utilizando cámaras, como las que tienen los móviles o una webcam. ¡O también podemos directamente darle nosotros imágenes que encontremos en Internet!

Te voy a poner de ejemplo cómo funciona el sistema de visión artificial de un coche autónomo. Ya sabes, uno de esos que conducen solos sin que apenas haga falta que un humano coja el volante, como los Tesla. Imagina que un elefante se cruza en mitad del camino cuando vas en tu coche autónomo…

Yo cruzándome con una familia de elefantes, un día cualquiera, a la vuelta del cole.

Estos coches tienen cámaras para captar las imágenes. Recogen un montón de imágenes por segundo para que no se les escape nada. Piensa en lo rápido que tiene que reaccionar el coche si de repente pasa un niño corriendo detrás de una pelota por mitad de la carretera.

Cuando nuestro coche captara la imagen que has visto arriba, la IA comenzaría a identificar todos los objetos de la imagen y sus posiciones. Al ver la imagen se daría cuenta de que hay algo en la carretera, aunque no sabe qué.

La IA del coche ha detectado un objeto en la carretera, aunque todavía no sabe lo que es.

A continuación la IA se pone a clasificar los objetos detectados (árboles, piedras, animales…). En este caso identifica el objeto como un elefante. Bueno, igual no ha sido entrenada para reconocer elefantes, pero seguro que lo clasifica como algún objeto de gran tamaño, como puede ser un caballo o una furgoneta. En cualquier caso, sabrá que es algo grande contra lo que no hay que chocarse.

Finalmente, la IA actúa. Se da cuenta de que hay algo muy grande delante y decide para el coche.

La IA lo tiene claro: esto es un bicho muy grande.

¿Te acuerdas de la paradoja de Moravec? Ver es algo que parece simple porque las personas, incluso los niños muy pequeños, lo resuelven fácilmente. Una persona puede describir el contenido de una fotografía que ha visto una sola vez, o resumir un vídeo de un vistazo, o incluso reconocer una cara de alguien que le presentaron hace tiempo y no había vuelto a ver.

Necesitamos que los ordenadores sean capaces de hacer esto mismo para que puedan reconocer bien las imágenes y vídeos. Sin embargo, el tema de la visión es para la IA un problema todavía no resuelto del todo. Uno de los motivos es que no entendemos al cien por cien cómo funciona la vista en los humanos y animales. Estudiar la forma en que los seres vivos ven implica comprender cómo funcionan los ojos y cómo el cerebro interpreta lo que estos ven. Los científicos han avanzado mucho en esto, pero como cualquier estudio relacionado con el cerebro, todavía nos falta mucho por descubrir.

Además de esto, ¡el mundo real es muy complejo! Está lleno de millones y millones de objetos diferentes que se mueven (como cuando un perro corre) y cambian de forma (como cuando un globo se deshincha). Un objeto pude verse desde muchas direcciones (arriba, abajo, por una lado, por el otro), con diferentes tipos de luz (un día con mucho sol o al anochecer), puede estar oculto por otros objetos y más cosas así.

Un sistema de visión artificial debe poder ver en cualquier situación y entender lo que ve. Los ordenadores funcionan bien cuando se les da un problema bien definido (como jugar al ajedrez) pero tienen dificultades cuando el problema es muy grande y abierto, como es el entender lo que vemos.

En la siguiente sección te cuento un poco más sobre cómo se consigue que las máquinas con IA sean capaces de ver.