¿De qué hablamos cuando hablamos de Big Data en educación?

En nuestra cruzada para defender la causa de la claridad de conceptos, hoy nos centraremos en explicar uno de los que más se utilizan en tecnología educativa últimamente: lo que ha venido en llamarse «Big Data». Además, para muchos este término es algo confuso, y muchas veces se utiliza de una manera poco precisa, o incluso errónea.

Como siempre decimos en nuestros artículos, aquí no daremos una visión académica o perfectísima. Algún experto podrá encontrar inexactitudes quizá en lo que decimos. Pero sí haremos lo posible para que todos pueden alcanzar a comprender de qué hablamos cuando hablamos de «Big Data» en educación. Esperamos conseguirlo.

Lo primero es decir que esta nomenclatura de «Big Data» se parece mucho a la ciencia de los datos o al Data Mining. Aunque estos tres términos en realidad no son del todo equivalentes, a los efectos de esta explicación diremos que, básicamente, todos ellos consisten en analizar conjuntos de datos más o menos grandes, y extraer de ese análisis varios tipos de resultados, los más importantes de los cuales son patrones y modelos.

Los análisis de datos también pueden generar otros resultados, como por ejemplo alertas, recomendaciones al usuario, o incluso podrían llegar a activar un actuador, como los frenos de un coche con un sistema de conducción automática. Estos aspectos más operacionales son los frutos de los esfuerzos de modelización o aprendizaje y son el principal aspecto de la definición que daban los analistas de mercado al término «análisis predictivo», es decir, tratar de orientar el análisis al futuro, pero con resultados tangibles más allá del mero ejercicio analítico.

Sobre esto hablaremos en otros artículos más adelante. De momento, hoy nos centraremos en los distintos niveles de resultados que se pueden encontrar con el análisis matemático de datos.

Paso uno: encontrar patrones

Un patrón (o feature en inglés) dentro de un conjunto dado de datos es una relación que se encuentra entre algunos de ellos. Tenemos la capacidad de encontrar algo, ese patrón o feature, que es relevante para una investigación o problema que estemos estudiando, ya que los datos no se estudian en abstracto normalmente, sino con algún tipo de finalidad. La finalidad del análisis de datos suele ser dar respuesta a algún problema que nos hayamos planteado, y encontrar algún tipo de relación relevante o, al menos, las variables de entrada adecuadas, como una de las claves para poder crear un sistema que sirva para algo.

Es habitual citar el ejemplo de los supermercados que analizaron la venta de productos y encontraron que aquellas personas que compraban pañales para bebés también muy habitualmente compraban cerveza. Esto es un análisis puramente matemático, basado en estadística y probabilidad (estocástica), y que puede realizarse de forma directa incluso con una herramienta como Excel de Microsoft.

Este tipo de relación puede resultar interesante, y supone un conocimiento empírico nuevo, pero realmente no parece que sea muy útil. En el caso anterior, por ejemplo, ¿podría pensarse que colocar cervezas cerca de los pañales hará que aumenten las ventas de las cervezas o viceversa? Seguramente no.

Pero sí es importante encontrar relaciones relevantes: patrones de datos. Una información que emerge del análisis matemático de un conjunto de datos dado.

Paso dos: encontrar modelos

Un modelo es un paso más, en el sentido de que es realmente lo que casa las entradas (datos de partida organizados en variables que codifican features o patrones) con el objetivo a estudiar. Es una relación entre unas variables y un resultado interesante.

Pero no es una relación de causalidad. En algunos casos específicos (pocos) se trata de modelar explícitamente una relación de causalidad. Los modelos de causalidad son complejos. Es más sencillo ver que ciertas circunstancias se dan conjuntamente (tienen una cierta relación) que demostrar con un modelo matemático que una causa la otra.

Muchas veces, en términos prácticos, nos conformamos con ver que la relación existe y mentalmente simplificamos y aceptamos una cierta causalidad implícita, aunque no la hayamos establecido con un estudio más complejo. Esto no es correcto y puede llevarnos a conclusiones erróneas.

Por ejemplo: podemos detectar que existe la relación entre que ciertos clientes se hayan quejado el mes anterior por el canal de atención telefónica y que el mes siguiente se den de baja. Ambos hechos pueden estar relacionados, pero eso no significa que el hecho de llamar al centro de atención telefónica cabreado sea necesariamente la causa de un abandono: podrían ser muchas otras razones (muerte natural, otras ofertas, etc.). Cada cliente sería algo distinto.

Paso tres: ¿encontrar causalidad?

Desde luego para poder demostrar que simplemente existe una relación, y mucho más para demostrar causalidad, es posible que se necesite estudiar un número muy elevado de casos o de experimentos. Un ejemplo de experimento pueden ser las pruebas de Testing A/B, cambiando algunos parámetros y observando los resultados.

En todo caso, si lo que se pregunta es si con una gran cantidad de datos se puede establecer causalidad con certeza absoluta, la respuesta al menos en estos momentos es que no. Puede suceder que una gran cantidad de datos puede ayudarnos a idear un modelo que sugiera una relación de causalidad, pero lo mismo podría suceder en algunos casos con una pequeña cantidad de datos.

Una gran cantidad de datos tal que todos ellos satisfagan nuestro modelo aumentará nuestra confianza en el mismo, pero en este grado de confianza siempre habrá un elemento subjetivo y un cierto componente de duda sobre la veracidad del modelo.

«Big Data» y verdad

Resumiendo: una gran cantidad de datos no tiene por qué ser muy útil en la creación de un nuevo modelo, aunque sí para mejorar nuestra confianza en un modelo existente (o descartarlo).

Así, el «Big Data» es una herramienta que nos permite alcanzar ciertos grados de información, más o menos afianzada. Esa información conseguida mediante técnicas de «Big Data» nos puede incluso permitir tomar decisiones basadas en ella. Pero siempre se estará abierto a que la información conseguida sea refutada por datos posteriores.

Igual que sucede en la ciencia, la verdad del «Big Data» no es algo fijo o inmutable, sino algo en continuo cuestionamiento para alcanzar un nivel superior, en un acercamiento asintótico a la verdad.

Podemos fiarnos de los resultados del «Big Data», pero siempre conservando un sano y prudente escepticismo. Y, desde luego, para tomar decisiones basadas en ella, habrá que tener información sobre la metodología utilizada, y comprender si lo que se ha visto son meros patrones de datos, o bien modelos o hasta ciertas relaciones que sugieran causalidad.

Como siempre, el diablo está en los detalles.

Julián Alberto Martín

La tecnología, ¿mejora la educación?

Sobre el autor

Todas las columnas del autor

Julián Martín
Author: Julián Martín

Dejar respuesta

Please enter your comment!
Please enter your name here