Hay distintos tipos de aprendizaje automático
La IA tiene diferentes formas de aprender dependiendo de qué tarea se quiere resolver. No es lo mismo aprender a distinguir perros de gatos que aprender a conducir un coche.
Los tres tipos de aprendizaje automático que existen son el supervisado, el no supervisado y por refuerzo.
En el aprendizaje supervisado le enseñamos a la IA a distinguir entre distintos tipos de cosas diciéndole lo que es cada una. Es como el ejemplo de los animales de antes. Si quiero que la IA aprenda a distinguir distintos tipos de animales, tengo que enseñarle fotos y decirle lo que es cada uno: esto es un perro, esto es un gato, esto es una rana, esto es un ñu.
Las palabras “perro”, “gato”, “rana” y “ñu” son lo que llamamos clases. Son como etiquetas que le ponemos a las cosas. Así, la próxima vez que la IA vea una imagen nueva, le pondrá una de las clases que ha aprendido. Por ejemplo, cuando vea esta foto de aquí abajo le pondrá la etiqueta “rana”.
Un poco más adelante os cuento mucho más del aprendizaje supervisado, pero ahora os explico el segundo tipo de aprendizaje que decía arriba, el no supervisado.
La diferencia con el supervisado es que en este caso no existen clases. ¿Entonces qué es lo que aprende la IA? Pues una de las cosas que aprende es a hacer agrupamientos, o sea, a formar grupos (los ingleses lo llaman clustering).
Siguiendo con el ejemplo de los animales, nosotros le daremos a la IA un montón de fotos de perros, gatos, ranas y ñus, pero sin decirle lo que es cada cosa. La IA analizará las fotos y hará grupos con ellas. Puede que haga cuatro grupos donde en cada uno haya un tipo de animal, porque ha detectado que cada especie tiene unas características físicas particulares: todos los que tengan bigotes en un grupo (¡gatos!), todos los que tengan lengua larga en otro (¡perros!), los de cuernos en otro (¡ñus!) y los que no tengan cola, como las ranas, en otro. Pero a lo mejor se fija en el color de los animales y pone todos los que sean marrones en un grupo, los negros en otro, los blancos en otro y todos los demás colores en otro. A veces hay que ayudar un poco a la IA y decirle en qué debe fijarse más para hacer los grupos según nos interese.
El último tipo de aprendizaje que hemos nombrado se llama aprendizaje por refuerzo. Aquí dejamos que la IA trate de resolver una tarea y le decimos cuándo lo ha hecho bien y cuándo lo ha hecho mal. Funcionan mediante recompensas, para que vaya aprendiendo lo que debe y no debe hacer. Es como si quieres enseñarle a tu perro a que te dé la patita y cada vez que lo hace bien le das una galleta. Y si lo hace mejor, le das una galleta más grande.
Este tipo de aprendizaje es el que se usa para crear máquinas capaces de aprender a jugar al ajedrez, a las damas, al Go o incluso a Super Mario y al LoL. Lo primero que hay que hacer es ponerle un objetivo. Por ejemplo, conseguir la máxima puntuación posible en el juego. Entonces la IA se dedica a probar estrategias que tratan de conseguir esa misión. Prueba mil formas diferentes de pasarse una pantalla en el Mario o de ganar al contrario al ajedrez. Cuando saca peor puntuación sabe que algo ha hecho mal y trata de buscar una estrategia diferente para mejorar. La recompensa que obtiene cuando hace bien las cosas es conseguir más puntos. Lo bueno de la IA es que puede probar miles de estrategias en un segundo.
¿Quieres reírte un rato? Mira este vídeo de una IA aprendiendo a andar usando aprendizaje por refuerzo.