¿CÓMO RESOLVER UN PROBLEMA USANDO LA CIENCIA DE DATOS?

¿CÓMO RESOLVER UN PROBLEMA USANDO LA CIENCIA DE DATOS?

26 enero, 2021 0 Por Rene Davila

Foto: Internet. Una perspectiva de ingeniería.

Fuente: Ibero

Aunque es un término que se escucha comúnmente y resulta un poco difícil de definir, porque puede englobar muchas cosas, la ciencia de datos es más que nada generar conocimiento para resolver problemas usando datos, dijo Jorge Ángel González Ordiano, académico del Departamento de Estudios en Ingeniería para la Innovación (DEII) de la Universidad Iberoamericana (Ibero) Ciudad de México.

En su plática ¿Cómo resolver un problema usando la ciencia de datos? Una perspectiva de ingeniería, aclaró que los datos por sí solos no sirven; por lo que la ciencia de datos, también conocida con otros términos, como minería de datos, métodos de big data, machine learning o predictive analytics, consiste en extraer y generar conocimiento de los datos para resolver problemas.

La resolución de esas problemáticas se hace a través de métodos matemáticos y estadísticos, y con diversos sistemas de cómputo, como Python y MATLAB, que permiten trabajar con y manipular los datos.

Ya que a veces los datos no tienen la calidad suficiente para poder extraer información de éstos, lo primero que se debe hacer es un trabajo de preprocesamiento de datos, con el fin de mejorar la calidad de los datos, para que sean útiles para poder extraer conocimiento.

Una vez hecho, se pueden resolver muchos problemas, desde emitir en Amazon o en Google recomendaciones de páginas, donde ver cosas que a cierto tipo de gente le puede interesar comprar; hasta pronosticar la generación de energía renovable, para poder mejorar los algoritmos de control del sistema eléctrico.

Sin embargo, “el cielo es el límite a los problemas que podemos resolver, siempre y cuando tengamos los datos y los conocimientos para extraer información de ellos”. La resolución de un problema, usando ciencia de datos, implica: formular y concretizar el problema.

Por ejemplo, si se tiene un conjunto de fotos de perros y de gatos, y se desea distinguir lo que es un perro de lo que es un gato, este problema se puede concretizar dando el valor de ‘A’ a los perros y el de ‘B’ a los gatos, y a partir de ahí usar alguna de las técnicas que existen para crear un algoritmo de clasificación de imágenes.

Con la ciencia de datos también se pueden hacer pronósticos del futuro, toda vez que pronosticar el futuro usando datos tiene una suposición muy fuerte, que es: el pasado va a asemejar al futuro.

“Si quiero pronosticar cuánta energía solar va a generar un sistema fotovoltaico y los datos que tengo del pasado son puros días soleados, y yo quiero con base en eso crear un algoritmo para pronosticar el día siguiente, yo voy a pronosticar, lo más seguro, que va a ser un día soleado y que voy a generar mucha energía. Pero si llueve, como no tengo ejemplos de eso en el pasado, no lo voy a poder predecir”.

Bajo la misma suposición de que, los datos que tengo asemejan lo que va a ocurrir en el futuro, uno puede también pronosticar la incertidumbre; para esto se pueden utilizar las regresiones cuantílicas, modelos que permiten estimar intervalos, por ejemplo, “de que mañana hay un 80% de probabilidad de que ocurra algún evento”.

Aun haciendo uso de la ciencia de datos, pronosticar el futuro es algo complejo, por lo que generalmente lo que se puede pronosticar son las cosas que van a suceder a corto plazo. Por ejemplo, el desarrollo de la pandemia de coronavirus quizá se podría pronosticar a corto plazo, pero más allá de tres semanas, es muy difícil saber que habrá de ocurrir.