CVPR: la mayor conferencia en visión por computador

La IEEE Conference on Computer Vision and Pattern Recognition, conocida popularmente como CVPR, es la conferencia considerada de más prestigio e impacto en el área de la visión por computador. Para dar unos datos objetivos al respecto, se trata de la conferencia de más impacto entre todas las conferencias de computer science, seguida de NeurIPS (Neural Information Processing Systems) e ICCV (IEEE International Conference on Computer Vision), tal y como se puede ver en este enlace. Este año, la conferencia tuvo lugar en Long Beach, California (USA), del 16 al 20 de junio. El número de asistentes a la conferencia se va superando año tras año, llegando a superar los 9,200 registrados este año, y así mismo sucede con el número de artículos enviados y aceptados, siendo de 5,160 y 1,294 respectivamente, lo que significa una aceptación del 25.2% de los artículos enviados. En el siguiente gráfico se puede ver la evolución de la asistencia de los participantes a este congreso a largo de los años: Asistentes al CVPR en las distintas ediciones. Fuente: CVPR2019 Los conceptos que más han aparecido en esta edición del congreso se muestran en la siguiente nube de palabras, en la que a mayor tamaño tiene una palabra significa que mayor número de artículos se han presentado en esa temática: Nube de palabras más relevantes del CVPR 2019. Fuente: CVPR2019 Destacar que más allá de las palabras más generales, tales como pueden ser image, learning, network o deep, también destacan otros conceptos más específicos, tales como detección, segmentación o video. Curiosamente, un trabajo de segmentación de objetos en vídeos desarrollado por la UOC en...

Los informáticos, multimedia y telecos también leen

(Trobareu la versió en català més avall) Esta semana se ha celebrado en Cataluña el día de Sant Jordi, un día especial dedicado a la lectura, y es por ello que hemos decidido recopilar las distintas recomendaciones literarias que han hecho los profesores de los Estudios de Informática, Multimedia y Telecomunicación de la UOC a través de las redes sociales. «Sherlock & Dragon» un libro con 8 relatos centrados con Sherlock Holmes y un dragón, escrito por 8 autores distintos es la #RecomendaciónInesperada de @ccasadom para #SantJordiUOC #SantJordi2018 La #RecomendaciónInesperada de Teresa Sancho, profesora de @UOCeimt para #SantJordiUOC es «Un mundo aparte» de Gustaw Herling-Grudziński sobre el campo de trabajo de Arkangelsk en el Gulag soviético #SantJordi2018 La #RecomendaciónInesperada para #SantJordiUOC de Josep M. Marco, profesor de @UOCeimt es «El senyor Malaussène» de Daniel Pennac que le captivó hace mil años! #SantJordi2018 @josepcurto, profesor de @UOCeimt, y aficionado a la ciencia ficción, hace su #RecomendaciónInesperada para #SantJordiUOC: «Sapiens» de Yuval Noah Harari #SantJordi2018 #RecomendaciónInesperada #SantJordiUOC #SantJordi2018 @jminguillona nos recomienda ciencia ficción: dos libros de Peter F. Hamilton, «La estrella de Pandora» y «Judas desencadenado», y «Solaris», de Stanislaw Lem La #RecomendaciónInesperada para #SantJordiUOC de @chechar, profesor de @UOCeimt, es la relectura de las novelas de «Parker» de Richard Stark hecha por Darwyn Cooke #SantJordi2018 #RecomendaciónInesperada #SantJordiUOC #SantJordi2018 Maria Rodríguez nos recomienda «1Q84», de Haruki Murakami, «The Acid House», de Irvine Welsh, la saga «Dos Amigas», de Elena Ferrante, y los cómics «Ghost World» y «Persépolis», de Daniel Clowes y Marjane Satrapi, respectivamente La #RecomendaciónInesperada para #SantJordiUOC de @jarnedom, profesor de @UOCeimt, docente e investigador en seguridad, es una antología entre el terror y el horror en formato manga del autor Junji Ito, llamada «Tomie» #SantJordi2018 #RecomendaciónInesperada #SantJordiUOC #SantJordi2018...

Segmentación de vídeo en tiempo real

En una entrada anterior os hablé sobre la segmentación semántica y el salto que se estaba dando desde el procesado original de imágenes al procesado de vídeos, con la extensión de benchmarks en nuevos conjuntos de datos como Cityscapes y, especialmente, DAVIS. Recientemente, Google Research ha anunciado en su blog de investigación el lanzamiento de un algoritmo de segmentación de vídeo que funciona en tiempo real para dispositivos móviles. Aunque en la entrada anterior introdujimos el concepto de segmentación semántica, que tiene como finalidad dividir la imagen en regiones y asignarles una categoría semántica de un conjunto (por ejemplo, coche, persona, perro, tren, avión, etc.), el algoritmo de segmentación que nos trae Google en este caso es el que se conoce como foreground-background segmentation. El problema de segmentación foreground-background consiste en diferenciar los píxeles de la imagen que pertenecen al objeto de primer plano (foreground) de los píxeles de la imagen que forman el fondo (background). Concretamente, la aplicación desarrollada está diseñada para que el usuario grabe un vídeo de él mismo (selfie story) y pueda hacer una edición automática del vídeo de forma que se le permite cambiar el fondo según varias temáticas predefinidas (día, noche, luz de estudio, etc.). ¿Cómo ha desarrollado Google este algoritmo de segmentación de vídeo? Pues como en la mayoría de casos de éxito de técnicas de deep learning, hay dos elementos que son clave en el entrenamiento de los modelos: una buena base de datos y una arquitectura adecuada para entrenar el modelo. La base de datos que se ha utilizado no es pública o, al menos, no se menciona. Únicamente se menciona...

Segmentación semántica: de imagen a vídeo

El pasado 6 de julio tuve la oportunidad de asistir a una charla que dio el investigador de Google Deepmind Joao Carreira llamada «Learning video representations from YouTube» en el marco de una summer school sobre Learning Systems impartida en el ETH Zürich. En una entrada anterior comenté los distintos benchmarks que existen para la segmentación semántica de imágenes, tales como PASCAL y Microsoft COCO. La charla en cuestión hacía hincapié en que ya es momento de dar el salto al vídeo, a aprender nuevos modelos a partir de vídeos en lugar de imágenes. Ya que los challenges de imágenes empiezan a estar saturados y las mejoras que se consiguen con tanto poco margen son muy poco significativas y porque sería intuitivo pensar que si la personas aprendemos a partir de nuestra percepción, la cual se asemeja más a información en forma de vídeo (percibimos constantemente la información visualmente), puede que estemos limitando la capacidad de nuestros modelos entrenándolos a partir de imágenes. En la conferencia más prestigiosa del ámbito de computer vision (Computer Vision and Pattern Recognition, CVPR), el año pasado (CVPR’16) ya aparecieron un par de datasets más interesantes que ya empezaban a ir en esta dirección. Se trata de los datasets Cityscapes Dataset y DAVIS (Densely Annotated VIdeo Segmentation). La primera de ellas, Cityscapes, consiste en un conjunto de secuencias de vídeo que han sido tomadas desde un coche en varias ciudades, la mayoría de ellas situadas en Alemania. Contiene 5000 secuencias que han sido anotadas con un alto nivel de detalle y 20000 secuencias que no han sido anotadas con tanto detalle. La siguiente figura muestra la...

Premis Dona TIC 2016

Según datos de la Comisión Europea, únicamente el 30% de los aproximadamente 7 millones de personas que trabajan en el sector de las Tecnologías de la Información y la Comunicación (TIC) en Europa son mujeres. Las mujeres están insuficientemente representadas en todos los niveles del sector de las TIC, especialmente en los lugares de toma de decisiones. En una entrada anterior del blog, se discutió sobre si feminizar la tecnología mejoraría el mundo. En ella, no únicamente se reivindicaba la incorporación de más mujeres a las carreras de ingeniería y a los equipos de desarrollo tecnológico, sino también que la tecnología adopte valores tradicionalmente considerados femeninos. En esta entrada haremos más hincapié en el papel de las mujeres en las TIC. Una de las iniciativas para revertir esta tendencia y animar a las mujeres a cursar estudios científico-técnicos es la celebración del premio 12×12 Dona TIC (Mujer TIC), que pretende reconocer el papel fundamental de las mujeres en el mundo profesional, empresarial y académico en el ámbito de las TIC. Este premio se impulsa dentro del marco 12×12, iniciativa conjunta de Tertúlia Digital y la estrategia smartCAT de la Generalitat de Catalunya, con la colaboración del Observatori Dona, Empresa i Economia.   Los premios 12×12 Dona TIC se estructuran en seis categorías según el perfil profesional: Emprendedora: La mujer tiene que ser fundadora o cofundadora de una empresa en activo del sector de las TIC. Profesional: La mujer tiene que trabajar para una empresa u organización o ser «freelance» y estar dedicada al ámbito de las TIC. Académica/Investigadora: La mujer tiene que dedicarse a la formación y/o investigación en el...