La visión por computador: Una disciplina en auge

19 abril, 2012

Las nuevas tecnologías se van incorporando cada vez más en nuestra vida cotidiana. Por ejemplo, el sistema de acceso a mi gimnasio tiene un control biométrico de huellas  dactilares que verifica la identidad de los socios antes de entrar. Otro ejemplo son las cámaras digitales, que actualmente ya son capaces de detectar caras de forma rápida y robusta.  Además muchas cámaras disponen de una opción que permite hacer fotos automáticamente cuando la persona a la que enfocas está sonriendo.

En concreto, estas aplicaciones son hoy en día una realidad gracias a los avances de la Visión por Computador, una de las ramas de la Inteligencia Artificial que ha experimentado un mayor crecimiento en estos últimos años. La Visión por Computador es la disciplina que estudia cómo procesar, analizar e interpretar imágenes de forma automática. Estas técnicas tienen aplicaciones en muchos ámbitos, como la seguridad, la medicina,  la inspección automática, o la navegación automática.

Dentro de la Visión por Computador,  la detección de objetos es uno de los temas más candentes. El problema parece sencillo: dada una imagen queremos sistemas capaces de encontrar en ella un objeto determinado, como una silla, un libro o un ordenador. Para un humano esta tarea parece algo obvio pero creedme que para una máquina no lo es en absoluto. ¿Dónde reside la dificultad?  Para entender el problema hay que pensar en cómo queda codificada una imagen digital. En general, para una máquina las imágenes son enormes cajas tridimensionales llenas de números. Concretamente, cada píxel (o punto) de la imagen queda representado con tres valores, que codifican su color como una combinación de la cantidad de rojo, verde y azul.  Así pues, cuando una máquina busca un objeto dentro de una imagen lo que realmente hace es buscar patrones que se correspondan con el objeto en particular dentro de estas inmensas cajas  de números.

Hay varios aspectos que hacen de la detección automática de objetos en imágenes un auténtico reto. En primer lugar, la variabilidad dentro de una misma clase es una de las mayores dificultades. Por ejemplo, hay sillas de todos los colores, formas, y para todos los gustos, como podemos ver en la Imagen 2. Esta imagen también ilustra otras dificultades como el cambio de perspectiva, la presencia de oclusiones parciales, o los cambios de iluminación, que pueden crear sombras o reflejos, y producir pérdidas importantes de información. Así pues, para poder reconocer automáticamente sillas en cualquier situación, necesitamos que la máquina sea capaz de hacer una representación genérica de lo que es una silla, y esta representación tiene que ser invariante a todos estos cambios.

Aunque se han hecho avances importantes en la detección automática de objetos durante los últimos años, los sistemas artificiales aún están muy lejos del sistema visual humano. Para nosotros es muy fácil detectar objetos en imágenes, ya que tenemos una habilidad increíble para interpretar las imágenes. Con esto quiero decir que nuestro sistema visual utiliza mucha más información que la que proporciona la imagen, como por ejemplo el conocimiento previo que tiene del entorno. Para darse cuenta de esto fijaros, por ejemplo, en qué pasa si editamos las imágenes que hemos visto anteriormente para que se vean borrosas, perdiendo así una importante cantidad de información:

Ahora ya no es tan fácil reconocer el objeto que hay en las fotografías. Pero, ¿qué pasa si ponemos esta información dentro de su contexto? A continuación se muestran las fotografías completas de dónde han sido extraídas estas imágenes:

Para comprender estas fotografías nosotros utilizamos todo el contexto de la escena,  por esto podemos identificar el tipo de espacio dónde han sido tomadas las imágenes, e incluso podemos detectar con facilidad las sillas que fuera de su contexto resultaban más difíciles de reconocer. Sin embargo, para una máquina entender estas escenas de la forma que lo hacemos nosotros sería hoy en día imposible, porque aún no sabemos dotarlas de esta capacidad de interpretar que tenemos los humanos.

A pesar de ello, actualmente hay un gran optimismo entre la comunidad científica en cuanto al futuro de la Visión por Computador, y en mi opinión este optimismo es bastante realista. En la pasada década se ha conseguido desarrollar algoritmos para resolver problemas que hace 20 años parecían irresolubles, y todo hace pensar que la tendencia seguirá al alza. Además, con el creciente protagonismo en nuestras vidas de los dispositivos móviles con cámaras, como tabletas y smartphones, estoy segura de que en los próximos años habrá cada vez más sistemas de visión artificial en nuestro día a día.

Referencias:

– D.A. Forsyth, and J. Ponce. Computer Vision: A Modern Approach. Prentice Hall Professional  Technical Reference. 2nd edition 2011.

– A. Torralba. Contextual priming for object detection. International Journal of Computer Vision, Vol. 53(2), 169-191, 2003.

– P. Felzenszwalb, R. Girshick, D. McAllester, D. Ramanan. Object Detection with Discriminatively Trained Part Based Models.  IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 32, No. 9, September 2010.

Àgata Lapedriza es matemática y doctora en informática. Es profesora de los Estudios de Informática, Multimedia y Telecomunicación de la UOC, dónde coordina asignaturas de matemáticas y estadística. También dirige proyectos de grado y máster en el ámbito de la inteligencia artificial. Su actividad de investigación se centra en temas de visión por computador y aprendizaje computacional.

(Visited 314 times, 2 visits today)
Autor / Autora
Comentarios
Deja un comentario