Estadística: definiciones y aplicaciones

(Trobareu la versió en català més avall)

La estadística es una rama de las matemáticas que está presente en muchos planes de estudio. En este post veremos definiciones formales, repasaremos sus orígenes y su evolución, y destacaremos su papel en el mercado laboral y en la política. Finalmente, os comparto mi top 10 de series, películas y TED talks donde la estadística tiene un rol significativo. ¡Animaros a hacer contribuciones en los comentarios!


The World of Statistics proporciona las siguientes definiciones:

    • es la ciencia que nos permite aprender de los datos;
    • es la teoría y los métodos para extraer información de datos observacionales para resolver problemas del mundo real; y
    • es la ciencia de la incertidumbre.

El término alemán Statistik fue introducido originalmente en 1749 por referirse al análisis de datos del Estado. Los inicios de la estadística estuvieron especialmente ligados a la demografía (e.g., haciendo censos para conocer la riqueza, la producción, y el número de habitantes de un territorio, lo cual es imprescindible para planificar guerras, grandes construcciones, etc). En el siglo XIX el término estadística adquirió el significado de recolectar y clasificar datos. Muchos trabajos de probabilidad surgieron en el siglo XIX, aunque los primeros datan del siglo XVII. En el siglo XX hubo contribuciones importantes en regresión, salud pública, econometría, diseño de experimentos, etc.

La informática ha impulsado el crecimiento de la estadística en las últimas décadas. Actualmente, la estadística constituye uno de los pilares fundamentales de muchas disciplinas modernas como son la minería de datos o el business intelligence, entre otros. ¿Qué factores concretos explican este crecimiento? Hay muchos y están bastante relacionados. Los más populares son:
a) tenemos más datos y una variedad de recursos / fuentes más amplia, algunos de los cuales (e.g., Twitter) generan nuevos datos de manera continua;
b) tenemos ordenadores con mayor capacidad para almacenar y procesar datos;
c) tenemos algoritmos más eficientes y una parte importante de la comunidad comparte sus implementaciones de manera desinteresada;
d) se observa un cambio de mentalidad en las empresas, ya que apuestan más para tomar decisiones basadas en datos;
e) la sociedad exige medidas de privacidad, transparencia en política, y un crecimiento sostenible (para eso necesitamos indicadores, modelos de predicción, sensores, etc.);
f) surge el movimiento data philanthropy (donde empresas privadas comparten sus datos para que se beneficie la sociedad).

Según LinkedIn, el análisis de más de 500 millones de miembros revela que la estadística y la minería de datos ocupan el segundo lugar entre los hard skills con más demanda; la representación de datos ocupa el séptimo, y Data Engineering y Data Warehousing el duodécimo. En el informe “The best jobs for millennials” de Young Invincibles, el trabajo de estadísticos (no confundir con los estadistas!!! estos dominan temas del Estado) ocupa el tercer lugar en el ranking de los mejores empleos (empata con ingeniería biomédica). Algunos de los ámbitos donde hay más demanda de expertos en análisis de datos son: banca y finanzas, seguros, epidemiología, medicina, genética, investigación, y marketing.

La estadística también es especialmente importante en política. Por ejemplo, el Eurostat es la oficina estadística de la Comisión Europea. Su función es producir datos sobre la Unión Europea y promover la armonización de los métodos estadísticos de los Estados miembros (para poder hacer comparaciones lógicas). Dos tareas especialmente relevantes son:

  • La producción de datos macroeconómicos para ayudar al Banco Central Europeo a tomar decisiones sobre su política monetaria para el euro.
  • La producción de datos regionales que orientan las políticas estructurales de la Unión Europea.

Prácticamente todos los países tienen un instituto nacional de estadística que se encarga de diseñar y desarrollar o coordinar estadísticas del territorio y de interés generales (entre muchas otras tareas). Para más información sobre estas estadísticas, podéis ver el vídeo de presentación del INE (el instituto nacional de estadística español): 

A escala internacional hay que destacar la iniciativa Global Pulse de Naciones Unidas que persigue ayudar a cumplir los objetivos de desarrollo sostenible mediante el análisis de datos digitales:



Finalmente, acabamos el post con 10 musts entre películas, series y TED talks para los interesados ​​en el análisis de datos.

1. Moneyball (película): un manager general de los Oakland Athletics intenta crear un equipo de béisbol competitivo en la Major League Baseball a pesar de las dificultades financieras. Para ello trabaja con un economista que realiza análisis empíricos del béisbol.
 
2. Numb3rs (serie): un agente especial del FBI y su hermano, un profesor universitario de matemáticas, resuelven delitos.

3. 21 (película): un grupo de estudiantes del MIT decide utilizar su talento e inteligencia para ganar grandes cantidades de dinero haciendo trampas jugando al blackjack.

4. Why you should love statistics (TED talk): Alan Smith argumenta que las personas no tenemos buena intuición para las estadísticas. De hecho, el experto Daniel Kahneman afirmó “We can be blind to the obvious, and we are also blind to our blindness“. Esto hace que tomemos decisiones sub-óptimas muchas veces.

5. How to defend yourself against misleading statistics in the news (TED talk): Sanne Blauw, doctora en estadística, nos habla de informaciones erróneas o engañosas (por mala fe o desconocimiento) relacionadas con la estadística en el periodismo. La descripción de un gran número de ejemplos reales nos muestra la importancia de ser críticos y tener unos conocimientos de estadística mínimos para evitar extraer conclusiones erróneas.

6. Hang the DJ – Black Mirror (episodio – serie): Amy y Frank son dos de las muchas personas que son instruidas en relaciones románticas por un coach digital. Este coach dice el tiempo que pueden pasar juntos las parejas, recopila datos y las ayuda a encontrar su “media naranja”.

7. Dirty money: Hard NOx, Payday, Drug Short, y Cartel Bank (serie-documental): repasa historias de escándalos y corrupción en los negocios, exponiendo actos de codicia corporativa. Los episodios detallan las actividades sin escrúpulos desde las perspectivas de los responsables y también de sus víctimas. Aunque no se hace referencia explícita al análisis de datos, sí evidencia su importancia en investigaciones criminales.



8. Teach statistics before calculus! (TED talk): Arthur Benjamin describe la estadística y la probabilidad como campos divertidos llenos de herramientas que los estudiantes y la sociedad en general podemos (y deberíamos) de utilizar en nuestro día a día.

9. The Bank (película): un matemático inconformista ha ideado una fórmula para predecir las fluctuaciones de la bolsa. Este debe demostrar su lealtad al ideal de “la codicia es buena”.



10. Margin call (película): la historia se produce durante un período de 24 horas en un gran banco de inversión de Wall Street durante las etapas iniciales de la crisis financiera de 2007-08. Describe las acciones adoptadas por un grupo de empleados durante el colapso financiero.

Laura Calvet es profesora del ámbito de matemáticas y estadística en los Estudios de Informática, Multimedia y Telecomunicación de la UOC.

L’estadística: definicions i aplicacions

L’estadística és una branca de les matemàtiques que està present a molts plans d’estudi. En aquest post veurem definicions formals, repassarem els seus orígens i la seva evolució, i destacarem el seu paper en el mercat laboral i en la política. Finalment, us comparteixo el meu top 10 de sèries, pel·lícules i TED talks on l’estadística té un rol significatiu (animeu-vos a fer contribucions als comentaris).

The World of Statistics proporciona les següents definicions:

      • és la ciència que ens permet aprendre de les dades;
      • és la teoria i els mètodes per extreure informació de dades observacionals per resoldre problemes del món real;
      • és la ciència de la incertesa.  

El terme alemany Statistik va ser introduït originalment al 1749 per referir-se a l’anàlisi de dades de l’Estat. Els inicis de l’estadística van estar especialment lligats a la demografia (e.g., fent censos per conèixer la riquesa, la producció, i el nombre d’habitants d’un territori, lo qual és imprescindible per planificar guerres, grans construccions, etc). Al segle XIX el terme estadística va adquirir el significat de recol·lectar i classificar dades. Molts treballs de probabilitat van sorgir al segle XIX, tot i que els primers daten del segle XVII. Al segle XX hi van haver contribucions importants en regressió, salut pública, econometria, disseny d’experiments, etc.

La informàtica ha impulsat el creixement de l’estadística durant les últimes dècades. Actualment, l’estadística constitueix un dels pilars fonamentals de moltes disciplines modernes com són la mineria de dades o el business intelligence, entre d’altres. Quins factors concrets expliquen aquest creixement? N’hi ha molts i estan força relacionats. Els més populars són:

a) tenim més dades i una varietat de recursos/fonts més àmplia, alguns dels quals (g., Twitter) generen noves dades de manera contínua;

b) tenim ordinadors amb una capacitat més elevada per emmagatzemar i processar dades;

c) tenim algorismes més eficients i una part important de la comunitat comparteix les seves implementacions de manera desinteressada;

d) s’observa un canvi de mentalitat en les empreses, ja que aposten més per prendre decisions basades en dades;

e) la societat exigeix mesures de privacitat,  transparència en política, i un creixement sostenible (per això necessitem indicadors, models de predicció, sensors, etc);

f) sorgeix el moviment data philanthropy (on empreses privades comparteixen les seves dades perquè se’n beneficiï la societat).    

Segons LinkedIn, l’anàlisi de més de 500 milions de membres revela que l’estadística i la mineria de dades ocupen el segon lloc entre els hard skills amb més demanda; la representació de dades ocupa el setè, i Data Engineering i Data Warehousing el dotzè. En l’informe “The best jobs for millennials” de Young invincibles, la feina d’estadístics (no confondre amb els estadistes!!! aquests dominen temes de l’Estat) ocupa el tercer lloc en el ranking de les millors feines (empata amb enginyeria biomèdica). Alguns dels àmbits on hi ha més demanda d’experts en anàlisi de dades són: banca i finances, assegurances, epidemiologia, medicina, genètica, recerca, i màrqueting.  

L’estadística també és especialment important en política. Per exemple, l’Eurostat és l’oficina estadística de la Comissió Europea. La seva funció és produir dades sobre la Unió Europea i promoure l’harmonització dels mètodes estadístics dels estats membres (per poder fer comparacions lògiques). Dues tasques especialment rellevants són:

  • La producció de dades macroeconòmiques per ajudar al Banc Central Europeu a prendre decisions sobre la seva política monetària per l’euro, i
  • La producció de dades regionals que orienten les polítiques estructurals de la Unió Europea.

Pràcticament tots els països tenen un institut nacional d’estadística que s’encarrega de dissenyar i desenvolupar o coordinar estadístiques del territori i d’interès generals (entre moltes altres tasques). Per més informació sobre aquestes estadístiques, podeu veure el vídeo de presentació de l’INE (l’institut nacional d’estadística espanyol):

A escala internacional cal destacar la iniciativa Global Pulse de Nacions Unides que persegueix ajudar a complir els objectius de desenvolupament sostenible mitjançant l’anàlisi de dades digitals:  

Finalment, acabem el post amb 10 musts entre pel·lícules, sèries i TED talks pels interessats en l’anàlisi de dades.   

1. Moneyball (pel·lícula): un manager general dels Oakland Athletics intenta crear un equip de beisbol competitiu en la Major League Baseball malgrat les dificultats financeres. Per fer-ho treballa amb un economista que realitza anàlisis empíriques del beisbol.

2. Numb3rs (sèrie): un agent especial del FBI i el seu germà, un professor universitari de matemàtiques, resolen delictes.

3. 21 (pel·lícula): un grup d’estudiants del MIT decideix utilitzar el seu talent i intel·ligència per guanyar grans quantitats de diners fent trampes jugant al blackjack.

4. Why you should love statistics (TED talk): l’Alan Smith argumenta que les persones no tenim bona intuïció pel que fa a les estadístiques. De fet, l’expert Daniel Kahneman va afirmar “We can be blind to the obvious, and we are also blind to our blindness”. Això fa que triem decisions sub-òptimes molts cops.

5. How to defend yourself against misleading statistics in the news (TED talk): la Sanne Blauw, doctora en estadística, ens parla d’informacions errònies o enganyoses (per mala fe o desconeixement) relacionades amb l’estadística en el periodisme. La descripció d’un gran nombre d’exemples reals ens mostra la importància de ser crítics i tenir uns coneixements d’estadística mínims per evitar extreure conclusions errònies.  

6. Hang the DJ – Black Mirror (episodi – sèrie): l’Amy i el Frank són dues de les moltes persones que són instruïdes en relacions romàntiques per un coach digital. Aquest coach diu el temps que poden passar junts les parelles, recopila dades i les ajuda a trobar la seva “mitja taronja”.

7. Dirty money: Hard NOx, Payday, Drug Short, i Cartel Bank (sèrie-documental): repassa històries d’escàndol i corrupció en els negocis, exposant actes de cobdícia corporativa. Els episodis detallen les activitats sense escrúpols des de les perspectives dels responsables i també de les seves víctimes. Tot i que no es fa referència explícita a l’anàlisi de dades, sí que evidencia la seva importància en investigacions criminals.  

8. Teach statistics before calculus! (TED talk): l’Arthur Benjamin descriu l’estadística i la probabilitat com camps divertits plens d’eines que els estudiants i la societat en general podem (i hauríem) d’utilitzar en el nostre dia a dia.

9. The Bank (pel·lícula): un matemàtic inconformista ha ideat una fórmula per predir les fluctuacions de la borsa. Aquest ha de demostrar la seva lleialtat a l’ideal de “la cobdícia és bona”.

10. Margin call (pel·lícula): la història es produeix durant un període de 24 hores en un gran banc d’inversió de Wall Street durant les etapes inicials de la crisi financera de 2007-08. Descriu les accions adoptades per un grup d’empleats durant el col·lapse financer.
Laura Calvet és professora de l’àmbit de les matemàtiques i l’estadística en els Estudis d’Informàtica, Multimèdia i Telecomunicació de la UOC.

2 Comments

  1. Felicidades por la explicación didáctica y la sugerencias de las películas y series.! Una buena manera de ver los conocimientos aplicados!

    Reply
  2. Gracias Laura, es genial!
    Y gracias por la recopilacion de recursos, unos conocidos y otros no tanto

    Reply

Comentar

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.

Leer entrada anterior
La aplicación del Internet de las Cosas en el ámbito de la Industria: el mantenimiento predictivo

(Trobareu la versió en català més avall) Desde su aparición a finales de la década de los 50, la evolución tecnológica en...

Cerrar