Segmentación semántica: de imagen a vídeo

El pasado 6 de julio tuve la oportunidad de asistir a una charla que dio el investigador de Google Deepmind Joao Carreira llamada “Learning video representations from YouTube” en el marco de una summer school sobre Learning Systems impartida en el ETH Zürich. En una entrada anterior comenté los distintos benchmarks que existen para la segmentación semántica de imágenes, tales como PASCAL y Microsoft COCO. La charla en cuestión hacía hincapié en que ya es momento de dar el salto al vídeo, a aprender nuevos modelos a partir de vídeos en lugar de imágenes. Ya que los challenges de imágenes empiezan a estar saturados y las mejoras que se consiguen con tanto poco margen son muy poco significativas y porque sería intuitivo pensar que si la personas aprendemos a partir de nuestra percepción, la cual se asemeja más a información en forma de vídeo (percibimos constantemente la información visualmente), puede que estemos limitando la capacidad de nuestros modelos entrenándolos a partir de imágenes.

En la conferencia más prestigiosa del ámbito de computer vision (Computer Vision and Pattern Recognition, CVPR), el año pasado (CVPR’16) ya aparecieron un par de datasets más interesantes que ya empezaban a ir en esta dirección. Se trata de los datasets Cityscapes Dataset y DAVIS (Densely Annotated VIdeo Segmentation).

La primera de ellas, Cityscapes, consiste en un conjunto de secuencias de vídeo que han sido tomadas desde un coche en varias ciudades, la mayoría de ellas situadas en Alemania. Contiene 5000 secuencias que han sido anotadas con un alto nivel de detalle y 20000 secuencias que no han sido anotadas con tanto detalle. La siguiente figura muestra la diferencia de detalle entre ambas.

Ejemplos de imágenes anotadas en Cityscapes Dataset. Fila superior: anotación detallada (fine annotation). Fila inferior: anotación con menos detalle (coarse annotation).

Cada secuencia tiene una duración de 1.8 segundos y contiene 30 frames. Aunque únicamente se dispone de la anotación (ground truth) para el frame número 20 y no para el resto de la secuencia, el hecho de disponer de ellos permite explotar información temporal para construir mejores modelos. En la página de resultados se puede comprobar cuales son las técnicas del estado del arte para este challenge y también ver si cada una de las técnicas ha aprovechado la información de los 2 tipos de anotaciones (fine and coarse annotations) así como la información temporal (video). Es interesante observar que entre las mejores 20 técnicas, únicamente una de ellas explota la información temporal y es la que ocupa la quinta posición. La explicación la podemos encontrar en la carencia de bases de datos que permitan obtener buenos modelos temporales, ya que la mayoría de técnicas aún se aplican a nivel de frame, para luego llegar a un consenso.

El otro challenge que os comentaba, DAVIS, consiste en secuencias más generales (del estilo de Microsoft COCO), y no se focaliza tanto en un escenario específico como Cityscapes. La base de datos original (DAVIS-2016) consistía de 50 secuencias con un promedio de 70 frames por secuencia. DAVIS-2016 contenía secuencias que se focalizaba en un único objeto en la zona central y con una magnitud de movimiento considerable. Para la nueva edición del CVPR’17 ampliaron la base de datos (DAVIS-2017), constando ahora de 150 secuencias y habiendo un promedio de 2.56 objetos por secuencia. Cabe destacar que el dataset DAVIS tiene todos los frames de las secuencias anotados, a diferencia del que sucede con City Scapes. A continuación os dejo una imagen con ejemplos de secuencias anotadas en DAVIS.

Ejemplos de secuencias anotadas en DAVIS

Ejemplo de anotación de varios frames de una misma secuencia en DAVIS-2017

Podemos ver que ambas bases de datos tienen sus puntos fuertes. Cityscapes dispone de 25000 secuencias anotadas, mientras que DAVIS dispone de 150 secuencias. Por contra, DAVIS tiene un contenido mucho más rico en cuanto a diversidad y, además, tiene todos los frames anotados para cada una de las secuencias. Esto hace que vuelva a la charla que os comentaba inicialmente en el post, donde Joao Carreira presentó una nueva base de datos de vídeo, llamada Kinetics, y que se presentará en el CVPR’17 (a finales de este mes). Esta base de datos contiene 600,000 secuencias de vídeo de YouTube y que tienen 400 acciones humanas, cada una de las cuales aparece en un mínimo de 400 secuencias. Soy consciente que estamos refiriéndonos a otra tarea distinta, que es la que consiste en reconocer acciones humanas (tocar el violín, comer sandía, etc.), pero estamos delante de una nueva base de datos de vídeo un orden de magnitud mayor en cuanto a tamaño. Estaremos frente al nuevo ImageNet pero para vídeo? Esta nueva base de datos permitirá construir mejores modelos que luego se podrán aprovechar para otras tareas como la segmentación semántica? Habrá que ver como evoluciona el campo los próximos meses.

Carles Ventura es profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC). Doctor por la Universitat Politècnica de Catalunya (UPC), imparte cursos de inteligencia artificial y sus principales intereses en investigación se focalizan en el reconocimiento y detección de objetos y la segmentación semántica de imágenes. Es miembro del grupo de investigación SUnAI (Scene Understanding and Artificial Intelligence).

Comentar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Leer entrada anterior
El perfil de un data scientist

Se dice que actualmente hay siete zettabytes de información disponible, que este volumen se duplica cada dos años y que,...

Cerrar