La visión por computador: aplicaciones (I)

18 julio, 2013

Hace poco más de un año apareció en este blog el primer artículo introductorio a la visión por computador. En él se exponían las bases del reconocimiento automático de objetos. Del mismo modo que nosotros observamos nuestro entorno con nuestros ojos, los nuevos dispositivos, dotados con cámaras que capturan imágenes en forma de matrices de números (píxels), empiezan también a observar el mundo. Existe un campo interdisciplinar que se encuentra en el crisol de varias áreas de conocimiento: la inteligencia artificial, las matemáticas, la física, el procesamiento de la señal, la robótica, la estadística y la neurociencia, y se dedica precisamente a investigar estos numeritos que cada día tienen más utilidad. Se trata de la visión.

Con este artículo pretendemos iniciar una serie que poco a poco irá ofreciendo más detalles de lo que nuestras máquinas son capaces de hacer hoy en día, especialmente a nivel de aplicación. Los avances en los últimos 10 años han sido notables, estamos en un momento histórico en el que las aplicaciones empezarán a convertirse en realidades de nuestra vida cotidiana.

Pero empecemos por el principio. Si tradicionalmente ha existido una aplicación histórica de la visión por computador, sin duda se trata del reconocimiento facial. Durante años, ha sido habitual que las nuevas técnicas de clasificación y detección de imágenes se apliquen primero a caras, y después a otros objetos. De hecho, las caras suponen un objeto muy especial, ya que es uno de nuestros principales canales de comunicación no verbal. Así pues, a parte de detectar caras y extraer de ellas información de identidad, también se puede extraer información del estado de ánimo, la emoción, o la percepción de la dimensión social.

Autoretrato de Vincent Van Gogh (1887). Metropolitan Museum of art. Imagen de dominio público en aquellos países en que los derechos de autor tienen una vida de 100 años o menos.

Recientemente, se han producidos muchos avances en el campo del reconocimiento facial, conviertiéndolo en un problema a punto de ser considerado resuelto para el caso de imágenes frontales de cierta calidad (el problema es mucho más complejo si las caras se muestran en baja resolución y con fuertes variaciones de postura). A continuación mostramos dos ejemplos de aplicaciones que ya disponen de algoritmos suficientemente maduros para ser usados por nuestras autoridades.

El primero es la aplicación del reconocimiento de rostros como elemento biométrico en las fronteras de transporte aéreo. El objetivo aquí es que el usuario introduzca su pasaporte con lectura magnética en el lector, y una cámara verifique que su cara se corresponde con la imagen almacenada para ese pasaporte. Si existen dificultades en esta verificación, se redirige al usuario al control manual. Este tipo de aplicaciones son fácilmente evaluables en términos de especificación: necesitamos sistemas que no acepten fácilmente a las personas que no son quienes dicen ser (es decir, que tengan un nivel bajo de False Acceptance Rate o FAR), pero que a su vez no nieguen el paso a las personas que realmente son quienes dicen ser (es decir, que también tengan un nivel bajo de False Rejection Rate o FRR). Los sistemas actuales, trabajan en FRR próximas al 1% con FAR fijado a 0.1%. Estos resultados mejoran el rendimiento de un profesional de la seguridad operando en su jornada laboral.

Otro ejemplo de aplicación del reconocimiento facial a la seguridad es la búsqueda de la correspondencia entre un sketch policial y una imagen facial [1]. Cuando se produce un delito y no se puede localizar al infractor, la única información disponible es la descripción que la víctima ofrece a la policía. En función de la gravedad del delito, la víctima puede colaborar con un dibujante profesional que se encarga de realizar el retrato robot del delincuente. Por otro lado, muchos delincuentes son reincidentes, y la policía dispone de una base de datos muy completa de las caras de los delincuentes más habituales. El grupo liderado por Anil K. Jain ha desarrollado un sistema computacional que es capaz de encontrar la cara del delincuente en una base de datos con una precisión razonable.

Estos son dos ejemplos del potencial de la visión por computador, pero el uso de este tipo de tecnologías no termina aquí. La clasificación facial precede a un amplio grupo de aplicaciones que están a punto de llegar a nuestra vida diaria (reconocimiento de objetos, escenas, relaciones entre los elemento del mundo cotidiano, extracción del 3D a partir de las imágenes, ayuda al diagnostico mediante la imagen médica. Y un largo etc.). Por si a alguien le interesase, éstas y otras muchas aplicaciones se estudian detalladamente en el máster oficial de visión por computador [5], que la UOC impartirá conjuntamente con la UAB, UPF y UPC a partir del próximo Setiembre.

Nota: La imagen de hoy es un autoretrato de Vincent Van Gogh (imagen de dominio público en aquellos paises donde el copyright expira a los 100 años posteriores al autor)

[1] Klare, Brendan, Zhifeng Li, and Anil K. Jain. «Matching forensic sketches to mug shot photos.» Pattern Analysis and Machine Intelligence, IEEE Transactions on 33.3 (2011): 639-646.

David Masip es profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC. Dentro de los Estudios, es el coordinador de innovación docente, el responsable de las asignaturas de inteligencia artificial, y director académico de la UOC del Máster de visión por Computador. Su actividad de investigación se centra en temas de visión por computador y aprendizaje computacional.

Ágata Lapedriza es matemática y doctora en informática. Es profesora de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, dónde coordina asignaturas de matemáticas y estadística. También dirige tesis doctorales, proyectos de máster y proyectos de grado en el ámbito de la inteligencia artificial. Su actividad de investigación se centra en temas de visión por computador y aprendizaje computacional.

Xavier Baró es ingeniero informático y doctor en informática. Es profesor de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, donde coordina asignaturas de programación. Su actividad investigadora se centra en el ámbito del aprendizaje computacional y la visión por computador, con especial interés en la detección de patrones y el análisis del lenguaje no-verbal.

(Visited 85 times, 2 visits today)

Autor / Autora

EIMT

Comentarios

Deja un comentario