La segmentación semántica y sus benchmarks

26 mayo, 2016

Relacionado con distintos problemas de la visión por computador que se han visto en previas entradas, tales como el reconocimiento de escenas y objetos, también existe el problema conocido como segmentación semántica. El problema de segmentación semántica consiste en otorgar una etiqueta o categoría a cada píxel de una imagen. A diferencia de los sistemas de detección y reconocimiento de objetos, que dan como resultado la ventana rectangular donde se ha detectado un objeto y son evaluados por la precisión de estas ventanas, los sistemas de segmentación semántica tienen como objetivo delimitar precisamente los objeto de las distintas categorías a nivel de píxel, dando como resultado cualquier forma arbitraria.

Dentro del campo de la visión por computador, ha habido un gran auge de las técnicas desarrolladas para solucionar el problema de la segmentación semántica, siendo PASCAL Visual Object Classes (VOC) Challenge [1] uno de los benchmarks más reconocido, contando con más de 2,500 citas. Inicialmente, esta competición únicamente evaluaba sistemas de clasificación y detección de objetos. Los sistemas de clasificación consisten en la predicción sobre la presencia/ausencia de un tipo de objeto en la imagen mientras que los de detección indican donde el objeto está presente en forma de ventana rectangular. Por ejemplo, dado un tipo de objeto o categoría como avión, un sistema de clasificación predice si hay o no algún avión en la imagen, mientras que un sistema de detección indica en qué lugar de la imagen se encuentra el avión en caso que el sistema considere que hay algún avión en la imagen. Fue a partir del 2009 que el PASCAL VOC Challenge también incluyó una tarea de segmentación semántica, donde ya no bastaba un sistema que diera como resultado la localización de los objetos como ventanas rectangulares y se evaluaron los resultados a nivel de píxel.

Dados los buenos resultados que se están obteniendo recientemente en este benchmark, clasificando correctamente casi el 80% de los píxeles en promedio y con algunas categorías superando el 90% de píxeles correctamente clasificados, recientemente otro benchmark llamado Microsoft Common Objects in Context (COCO) [2] está imponiéndose como el nuevo benchmark de referencia para segmentación semántica. Por un lado, PASCAL VOC 2012 Challenge incluye 2,913 imágenes anotadas semánticamente con 6,929 instancias de objetos que se utilizan para entrenar los modelos de las 20 categorías semánticas que se evalúan en un conjunto de test de 1,456 imágenes. Por otro lado, Microsoft COCO incluye más de 120,000 imágenes anotadas semánticamente con más de 800,000 instancias de objetos que se utilizan para entrenar los modelos de las 80 categorías semánticas que se evalúan en un conjunto de test de más de 40,000 imágenes. Se puede, por tanto, apreciar la considerable diferencia tanto en número de imágenes como el número de categorías. Este elevado número de imágenes anotadas ha permitido construir recientemente modelos más fiables y supone un nuevo desafío ya que actualmente se están obteniendo una precisión promedia que no supera el 30%, habiendo aún mucho espacio para la mejora. Realmente, los resultados de casi un 80% en PASCAL se han obtenido utilizando modelos que se han entrenado a partir de las anotaciones disponibles tanto en PASCAL como en Microsoft COCO, mientras que cuando únicamente se usan las anotaciones disponibles en PASCAL los resultados no llegan al 65% (en abril de 2016 no llegaban incluso al 50%).

Por último, destacar que el challenge propuesto en Microsoft COCO también tiene otro importante rasgo diferenciador respecto el popular PASCAL VOC y es que en la evaluación se considera cada instancia de los objetos. Mientras que en PASCAL VOC cuando había, por ejemplo, un grupo de personas se consideraba que la segmentación semántica era correcta si los píxeles correspondientes a personas se habían etiquetado correctamente, en Microsoft COCO se requiere la segmentación individual de cada persona que conforma el grupo. Este ejemplo se puede extrapolar a cualquier conjunto de objetos de cualquier otra categoría.

Referencias

[1] Everingham, Mark, et al. «The pascal visual object classes (voc) challenge.»International journal of computer vision 88.2 (2010): 303-338.

[2] Lin, Tsung-Yi, et al. «Microsoft coco: Common objects in context.» Computer Vision–ECCV 2014. Springer International Publishing, 2014. 740-755.

 

(Visited 370 times, 1 visits today)
Autor / Autora
Carles Ventura Royo
Comentarios
Deja un comentario