Lecciones aprendidas sobre deep learning para la detección de fraude de tarjetas de crédito

En este post os presentamos un resumen y la presentación completa de una de las charlas del UOC Data Day, celebrado el día 14 de junio de 2017 en Barcelona sobre el uso de las redes neuronales (deep learning) para la detección de fraude de tarjetas de crédito. Esta ponencia fue a cargo de Alberto Rubio Muñoz, Senior Data Scientist en BBVA Data & Analytics y profesor colaborador docente del área de minería de datos y machine learningdel Máster universitario en Ciencia de datos (Data Science). Los datos están cambiando nuestra sociedad. Debido a los datos estamos repensando nuestras industrias para construir mejores productos: agricultura, educación, finanzas, jurídicos, etc. Con el advenimiento de los datos, un hijo pródigo del machine learning ha vuelto a la delantera para desempeñar un papel principal: las redes neuronales artificiales, también conocido como Deep learning o aprendizaje profundo. En esta charla, proporcionaremos algunas ideas sobre su aplicación para detectar transacciones de tarjetas de crédito fraudulentas realizadas en tiendas y minoristas en línea. También describiremos los datos que usamos, cómo se entrenan las redes neuronales y cómo se mide su eficiencia o precisión. Además, reflexionaremos sobre cómo la posibilidad de procesar gran cantidad de datos ha impulsado el deep learning y el machine learning en la industria. A continuación, os dejamos la grabación de la ponencia completa, así como el material de soporte utilizado para la presentación. ¡Esperamos que la disfrutéis! Nota: Este artículo ha aparecido previamente en el blog de Análisis y Ciencia de Datos de la UOC: http://dataanalysis.blogs.uoc.edu/.   Jordi Casas es profesor de los Estudios de Informática, Multimedia y Telecomunicación en la UOC y director...

Deep Learning en #XDS3

A finales de agosto se celebró en París (concretamente en Palaiseau) la Data Science Summer School 2017 (DS^3), organizada por el Laboratoire de Informatique (LIX) de la prestigiosa École Polytechnique francesa. Aunque era su primera edición, el evento fue todo un éxito, con más de 400 inscritos, incluyendo estudiantes, investigadores, profesores y profesionales de industria y empresa del sector. Sin duda, estos números confirman el auge que estamos viendo en los temas relacionados con la ciencia de datos, machine learning, análisis de datos, Big data y otros temas relacionados. Durante los cinco días que duró el acto, se dieron diversas ponencias y tutoriales de muchos temas relacionados con la ciencia de datos: por ejemplo, se habló extensamente de graphical models, randomized optimization methods o bayesian optimization. Pero sin duda, el “rey de la fiesta” fue el deep learning. Cerca del 40% de la programación del evento estaba relacionado con las redes neuronales y deep learning. Uno de los grandes atractivos de este evento fueron las clases magistrales que ofreció Yoshua Bengio sobre redes neuronales artificiales y deep learning. Las redes neuronales artificiales (ANN, artificial neural networks) están formadas por un conjunto de neuronas distribuidas en distintas capas. Cada una de estas neuronas realiza un cálculo u operación sencilla sobre el conjunto de valores de entrada de la neurona, que en esencia son entradas de datos o las salidas de las neuronas de la capa anterior, y calcula un único valor de salida que, a su vez, será un valor de entrada para las neuronas de la siguiente capa o bien formará parte de la salida final de la red. La siguiente figura presenta un esquema básico de una red neuronal con la capa de...

Portafolio y beneficios de TI

En una entrada anterior abogamos por la realización de beneficios de la inversión en TI como un esfuerzo compartido entre el negocio y los departamentos de tecnología en el largo plazo. El examen de beneficios comienza antes del proyecto (con la realización de un caso de negocio) y acaba después (con la revisión de los beneficios obtenidos). La gestión estratégica del portafolio es, para algunos, el instrumento más crítico de la dirección estratégica de TI. No es un plan estratégico, que sólo algunas empresas abordan en momentos muy críticos, pero tampoco es un formulario de gestión de la demanda o una manera más guay de recoger los pedidos. La gestión del portolio de inversiones de TI según Joe Peppard Actualmente las inversiones en informática compiten por el favor de lo comités de inversiones de las empresas con cualquier otra clase de inversión: abrir una nueva línea de producción, desarrollar un servicio nuevo, comprar equipamiento o construir una nueva planta. Con frecuencia, cualquiera que lleva una inversión al comité tiene que completar el mismo cuestionario, presentar su caso y anticipar el retorno con evidencias e indicadores. El análisis de beneficios, en la teoría clásica, intenta relacionar, mapear cada tipo de inversión en informática con una clase de logro para la organización: inversiones estratégicas, o sea las que se consideran críticas para sostener o mejorar las ventajas para competir, según la propia estrategia definida por cada empresa. Hay ventajas que tienen que ver con la diferenciación (Apple) o con los costes (Ryanair) o con la defensa de la posición en un nicho de mercado concreto (Prada). Por ejemplo, las inversiones en...

Realización de beneficios en Informática

Venimos predicando por aquí que, aunque entendemos la fascinación por la elegancia de un algoritmo o por la robustez de un artefacto, las TIC tienen sentido si resuelven problemas de la gente y de la empresa y… si la gente y la empresa son capaces de extraer los beneficios de la aplicación de la tecnología para resolver sus problemas. En eso consiste la adopción y uso efectivo de las TIC o, si nos ponemos metafísicos, la diferencia entre el mundo de los objetos y el mundo de los significados, el mundo de lo social. En el fondo, como decía Keen, éste es el sentido del estudio de los sistemas de información. Reedición de clásico de John Ward sobre Gestión de Benficios En el nivel macroeconómico, la realización de beneficios de la informática es una combinación de las inversiones en IT y en “capital organizativo”: el esfuerzo dedicado a cambiar la forma de tomar las decisiones y los procesos de trabajo, utilizar la información, desarrollar el talento o relacionarse con el entorno. Esto se llama la teoría de la complementariedad, desarrollada por Brynjolfsson y otros, y cuenta con evidencias cuantitativas que, por ejemplo, han llevado al Instituto de Estadística norteamericano a cambiar su manera de medir la productividad o contabilizar los activos intangibles de las empresas. En el nivel local, en cada organización, la efectividad de la informática parece depender también más de factores organizativos, sociales y culturales. “Típicamente, los beneficios se consiguen a través de cambios intensivos en las prácticas de negocio y la toma de decisiones”, decía Markus, uno de los pioneros del estudio de la gestión de...

Smart Cities y datos abiertos: El portal Open Data BCN

Las ciudades inteligentes, Smart Cities en inglés, persiguen garantizar el desarrollo sostenible, haciendo un uso eficiente de los recursos disponibles, para mejorar la calidad de vida de los ciudadanos. Para ello, resulta esencial que ciudad y ciudadanos puedan interactuar y beneficiarse mutuamente de la actividad y conocimiento que se genera en el contexto de la ciudad. Entre las diferentes opciones e infraestructuras tecnológicas que facilitan el acercamiento entre ciudadanía, gobierno, y la propia ciudad, una de las principales herramientas son los datos abiertos, u open data de su denominación en inglés. Cualquier entidad u organización puede abrir sus datos al público, mediante la publicación de estos en un portal. En la actualidad muchas de las principales administraciones y gobiernos, así como administraciones regionales y locales, disponen de un portal de datos en abierto. En el caso de la ciudad de Barcelona, la iniciativa surgió el año 2010 para implantarse al año siguiente. El portal Open Data BCN ha ido evolucionando con el paso de los años, tanto en utilización como en las normativas relacionadas con la publicación y acceso a los datos. Su principal objetivo es aprovechar los recursos disponibles, publicando la información generada o custodiada por la administración pública, permitiendo su acceso y reutilización para el beneficio de cualquier persona o entidad interesada. El portal se enmarca dentro de la estrategia ”Pla Barcelona Ciudad Digital”, liderada por la Comisionada de Tecnología e Innovación Digital, Francesca Bria. Se trata de la hoja de ruta municipal para impulsar la soberanía tecnológica y el empoderamiento de la ciudadanía. Entre otras iniciativas, se pretende crear un ecosistema de datos abiertos de ciudad,...

El perfil de un data scientist

Se dice que actualmente hay siete zettabytes de información disponible, que este volumen se duplica cada dos años y que, en un solo día, se produce el doble de información de la que contenía Internet hace veinte años. Pero sólo se analiza un 0,5% de este volumen. Los datos que se recogen actualmente dentro y fuera de las organizaciones poseen unas características que no poseían anteriormente: ocupan un volumen muy grande, se producen en un flujo continuo, proceden de múltiples fuentes (redes sociales, sensores, teléfonos móviles, clics en la web, etc.), se presentan en múltiples formatos (imagen, documentos, etc.) y, sobre todo, ya no se pueden almacenar solo en filas y columnas (tienen una estructura diferente y más compleja). Este gran volumen de datos presenta una gran oportunidad para extraer conocimiento útil para la toma de decisiones en las organizaciones, pero a la vez, las características intrínsecas de estos datos dificultan los procesos de manipulación y análisis asociados. Las empresas e instituciones se enfrentan al reto de encontrar los profesionales capacitados para aumentar la competitividad de su organización a través de la información obtenida de estos datos. Para ello, buscan profesionales dinámicos y especializados que provienen de diversos orígenes, tales como negocios, ingeniería, tecnología, economía, matemáticas y ciencias, y que sean capaces de identificar, capturar, transformar, analizar e interpretar los datos para impulsar el valor y la innovación aplicada en diversas industrias, como por ejemplo las finanzas, la salud, los bienes de consumo o la tecnología. Por estos motivos, y por un cierto repunte (hype) de expectativas en el mercado, los científicos de datos son actualmente los profesionales más...