[Columna] ¿Una máquina puede reconocer personas o vehículos en imágenes?

La respuesta es… ¡sí¡ Actualmente, ya se han desarrollado una multitud de métodos matemáticos para reconocer objetos dentro de imágenes. Los objetos pueden ser variados, los comunes son las personas, los vehículos, los perros, las bicicletas, las sillas, etc. 

Para muestra un botón, en este caso un clic ☺, visita el siguiente video http://ow.ly/wqeI30ay1tF e imágenes. Se usó un método propuesto (YOLO) por Joseph Redmon, que es una red neuronal artificial con cómputo paralelo y un procedimiento especial para localizar el objeto en la imagen, ¡funciona súper bien!

Para mostrarles el poder actual de las máquinas en el reconocimiento de objetos, les diré que existe una competencia llamada Large Scale Visual Recognition Challenge” que se realiza cada año en Estados Unidos. 

Uno de los retos es crear un algoritmo que aprenda a localizar 1000 diferentes objetos entre 1.35 millones de imágenes. Actualmente, el desempeño de los mejores algoritmos es equivalente al desempeño de un ser humano promedio. Lo cual es asombroso tomando en cuenta que son millones de imágenes en condiciones normales, es decir, no controladas en un laboratorio. 

A pesar de estos resultados fantásticos, el problema es que dichos métodos aún tienen sus limitaciones si los comparamos con la capacidad de un ser humano para reconocer objetos, por ejemplo:

1) Aún tienen falsos positivos y negativos de detección con nuevas imágenes, lo cual los hace poco confiables.
2) No razonan geométricamente, los métodos no saben que coche está enfrente y cual está atrás.
3) No razonan semánticamente, los métodos no rechazan detecciones que los humanos, razonando, las eliminaríamos. Por ejemplo, un semáforo no puede no estar en el suelo o un ser humano no puede tener hojas.
4) No crean un modelo interno de lo que ven, mientras que un ser humano cree firmemente que los coches no pueden desaparecer así como así, estos algoritmos ignoran la continuidad de la existencia del coche y de un frame a otro en un video, te puede decir que el coche desapareció o apareció repentinamente, lo cual es absurdo.
5) Se requiere cómputo algo costoso para procesar las imágenes, por ejemplo, un GPU 1080 (de Nvidia). 

En conclusión, hay que seguir "chambeando" con el fin de tener los métodos efectivos para comenzar a confiar más en las máquinas que en las personas para la detección de objetos en las imágenes. Con miras de crear asistentes vehiculares para evitar accidentes, asistentes para personas con debilidad visual o ceguera, o robots autónomos de servicio doméstico o profesional. Y muchas otras aplicaciones que sólo nuestra imaginación nos permitirá visualizar.  

Erik+Zamora.png

Dr. Erik Zamora
Profesor Instituto Politécnico Nacional - UPITTA

Líneas de Investigación: Robótica Autónoma y Redes Neuronales Artificiales

https://sites.google.com/site/proferikzamora1981/