Logo Funcas

El futuro del estudio de la brecha digital: big data

Comparte esta entrada

La brecha digital, como campo de estudio donde el desarrollo de las tecnologías de la información y la comunicación desempeña un papel central, es un claro ejemplo donde la continua digitalización de la actividad humana que subyace a la explosión de datos conocida como Big Data presenta nuevas posibilidades de análisis.

El estudio de la brecha digital se aborda mediante métodos directos e indirectos. Los primeros son de carácter experimental tratando de medir en laboratorio o en un contexto controlado las cuestiones de análisis (usos de Internet, habilidades digitales,…). Los últimos, sin embargo, procuran la recogida de datos generales a través de diversas fuentes como las encuestas.

Los métodos directos permiten observar los comportamientos de los sujetos de estudio en lugar de recabar lo que “dicen que hacen”. Sin embargo, presentan limitaciones como la variedad de comportamientos que pueden observarse simultáneamente o la imposibilidad de generalizar los resultados a poblaciones completas de análisis. Por el contrario, los métodos indirectos permiten recoger información de muchos y variados factores, además de permitir inferir los resultados para la población objetivo. Lamentablemente, estos métodos no ofrecen información sobre la acción y comportamiento de los agentes, sino su propia valoración.

Al igual que en otros muchos campos de investigación en ciencias sociales, el Big Data aparece como un prometedor recurso para la medición de muchos aspectos de la realidad, en particular, en nuestro caso, de la brecha digital. En este sentido, se trata de un método indirecto que explota la huella digital que los usuarios dejan al hacer uso de los dispositivos electrónicos. En contrapartida a los métodos indirectos clásicos, sin embargo, el Big Data no recoge valoraciones subjetivas sino datos objetivos sobre el comportamiento de los agentes en estudio. Sin duda, esto constituye una importante ventaja para realizar investigaciones sociales.

Aunque aún no existe un volumen suficiente de estudios empíricos sobre la brecha digital que hagan uso sistemático de Big Data, sí existen argumentos por parte de expertos a favor de su uso en las ciencias sociales. En primer lugar, esta nueva fuente de datos permitirá sondear procesos y aspectos del comportamiento social no accesibles con los métodos tradicionales. En segundo lugar, será posible adoptar un enfoque más dinámico y a tiempo real de los fenómenos de interés. Por último, se argumenta que no será necesario el muestreo, sino que se tendrá acceso a datos de toda la población.

A pesar de estas evidentes ventajas, los expertos igualmente advierten de las incertidumbres que se ciernen sobre el uso de Big Data. En primer lugar, debe tenerse en cuenta el efecto messiness, esto es, la incidencia que la variedad, el desorden y la cantidad de datos irrelevantes de Big Data puede ejercer sobre el análisis social (debe separarse en los conjuntos de datos la señal del ruido). En segundo lugar, muchos autores alertan sobre el uso potencialmente peligroso de las correlaciones estadísticas (posiblemente espurias en algunos casos). Por último, surgen dificultades prácticas de enorme calado derivadas de la monetización de los datos y su explotación comercial cada vez más frecuente, lo que puede poner barreras al acceso.

«Las técnicas de aprendizaje automático (machine learning) aparecen como un conjunto de métodos prometedores para el procesamiento de las nuevas fuentes de información. Estas técnicas no sólo hacen un uso profuso de los modelos estadísticos, sino que modifican los modelos (dentro de un límite) conforme a los datos recogidos».

En este trabajo advertimos, además, sobre cuestiones inferenciales relacionadas con el uso de Big Data. Se trata básicamente de cómo inferir resultados para toda la población objetivo de análisis a partir de los conjuntos de datos, por muy voluminosos, generados a gran velocidad o con gran variedad que hayan sido.

En la Estadística Pública la metodología estadística internacional empleada por la totalidad de oficinas estadísticas se centra en el uso de los diseños muestrales. A partir de un listado completo de las unidades estadísticas en estudio se realiza una selección probabilística de la muestra de acuerdo con un diseño muestral determinado. Se recogen los valores de las variables de análisis y se construyen estimadores insesgados con la menor varianza posible, junto con una estimación de esta. El uso de diseños muestrales permite al estadístico no tener que realizar hipótesis a priori sobre la distribución de los valores de las variables en toda la población.

Con el Big Data, esta metodología es inviable puesto que se carece de una población marco sobre la que practicar la selección probabilística de la muestra. En tales casos, en las oficinas públicas de estadística la metodología empleada es la modelización estadística (por ejemplo, en la estimación en pequeños dominios). Es esencial ahora realizar hipótesis a priori sobre la distribución de los valores de las variables de análisis en toda la población objetivo. Si las hipótesis son correctas, puede alcanzarse una mayor precisión en las estimaciones. En caso contrario, los errores pueden ser graves.

¿Cuál de las soluciones de la Estadística Pública es la más adecuada para el Big Data? Las dificultades aparecen en varios niveles. En primer lugar, el ejercicio de extracción de la señal del conjunto de datos eliminando el ruido es un ejercicio de data mining que va más allá del problema de estimación en poblaciones finitas. Es necesario, por tanto, identificar y formular en términos precisos qué problema estadístico quiere resolverse en cada caso. En segundo lugar, incluso restringiéndose al problema clásico de estimación, los datos no están identificados y los diseños muestrales no pueden emplearse. Esto supone un cambio en el paradigma de la inferencia. Por último, los datos son generados sin un sistema de metadatos estadísticos subyacentes, lo que dificulta la asimilación de las variables recogidas con aquellas que son objeto de análisis.

Las técnicas de aprendizaje automático (machine learning) aparecen como un conjunto de métodos prometedores para el procesamiento de estas nuevas fuentes de información. Estas técnicas, en la línea referida más arriba, no sólo hacen un uso profuso de los modelos estadísticos, sino que modifican los modelos (dentro de un límite) conforme a los datos recogidos. Estas técnicas, si bien computacionalmente muy poderosas, sin embargo, presentan el problema de la interpretabilidad y comprensión de los fenómenos que modelizan. Un ejemplo paradigmático se encuentra en las llamadas Google Flu Trends, predicciones de la prevalencia de la gripe en EE.UU. a partir de los patrones de búsqueda en Internet de términos relacionados con esta enfermedad. Mientras las hipótesis fueron válidas, las predicciones indudablemente fueron sorprendentes. Pero aquellas dejaron de ser válidas y los modelos fallaron. Huelga decir que, en ningún caso, tales modelos producían una explicación de tales cifras de prevalencia.

Lejos de ser una barrera para el uso de estas nuevas fuentes de datos, el problema de la inferencia debe entenderse como acicate para profundizar en el estudio de su uso para el análisis de la brecha digital.

Esta entrada es un resumen del artículo El futuro del estudio de la brecha digital: el Big Data, publicado en el número 25 de Panorama Social. Puede acceder aquí al sumario y la descarga de la revista.

Comparte esta entrada