Cuando de hablar de ciencia de datos se trata yo siempre levanto la mano o mejor dicho la voz (jajaja), me encanta explicar este “concepto” porque cada vez que lo hago me acuerdo de tiempos pasados cuando yo mezclaba todo y terminaba muy confundida.
Por fortuna, desde hace ya algunos años he enfocado mi carrera al manejo y procesamiento de datos, entonces créanme, que lo que estoy apunto de decirles acerca de la ciencia de datos tiene mucho de verdad, tanto en la teoría como en la práctica 🙂
La ciencia de datos es una práctica multidisciplinaria que se encarga de descubrir el conocimiento (ya sé que se escucha raro en nuestro español, pero es la verdad): extraer el valor real de los datos para que nos ayuden en la toma de decisiones.
Entre las disciplinas que yo considero que conforman la ciencia de datos se encuentran las siguientes (si ningún orden el particular):
- Método científico
- Ingeniería de datos
- Visualización de datos
- Matemáticas
- Estadística
- Ingeniería de software
- Hacking ético
¿Por qué tantas disciplinas?
Simple y sencillamente porque la ciencia de datos es todo un proceso que hace uso de esas disciplinas en diferentes etapas:
Por ejemplo, el método científico se utiliza desde la planeación del proyecto; es de vital importancia conocer el negocio y su entorno para que el proyecto no fracase. Todas las decisiones que tienen que ver con el seguimiento del proyecto tendrán que ver con el negocio, cada uno es diferente y esto hace que los proyectos sean muy únicos y la ciencia de datos “difícil”.
La ingeniería de datos nos habla (entre muchas otras cosas) de la creación de arquitecturas y seteo de plataformas para el procesamiento de los datos. Este procesamiento puede implicar diversas etapas tales como: extracción de los datos, limpieza de datos, estructuración de los datos, etc.
Por su parte, la visualización de datos nos ayuda también en diferentes etapas; al inicio del proyecto nos puede ser de mucha ayuda al momento de explorar los datos y poder tener un panorama general de los datos que tenemos (y a pensar que vamos a hacer con ellos :P), y al final del proyecto nos sirve para contar la historia, mostrar los resultados obtenidos y facilitar su entendimiento.
Para poder darnos vuelo con el aprendizaje automático tenemos las matemáticas, la estadística y la ingeniería de software. Los dos primeros nos ayudan con la creación de modelos para predecir o clasificar (según lo que queramos hacer) y el tercero nos ayuda a implementar las herramientas de software que nos permitirán hacer mejor uso de los recursos computacionales al momento de entrenar nuestros modelos. También nos ayuda con la creación de aplicaciones que nos ayuden a mostrar los resultados finales.
Por último, y no menos importante, el hacking ético. Gracias al esfuerzo de muchas personas ahora contamos con datos abiertos y podemos hacer uso de ellos, las empresas privadas cuentan con sus propias bases de datos en donde está consolidada su información, sin embargo, puede que para ciertos proyectos se requieran datos más allá de los que “fácilmente” podemos obtener; tal vez hace falta recurrir a la deep web o el hackeo de ciertos sitios para obtener los datos deseados. Es muy importante que si se requiere de esta práctica sea de una manera ética para no caer en ilegalidades o en problemas mucho peores.
La ciencia de datos no debe tomarse a la ligera, es un proceso de “crear, probar, evaluar, repetir lo anterior” las veces que sea necesario. Los resultados no se dan a la primera, tal vez esto es lo que desespera a muchos practicantes y a otros los motiva más, porque en cada interacción se gana conocimiento en pro de las metas del proyecto.
¿Quién hace todo el trabajo de la ciencia de datos?
Bueno, este es otro tema bastante interesante del que les estaré hablando en la próxima entrada del blog. Por to pronto quiero dejarles una pequeña lista de tips para quienes están comenzando en el mundo de la ciencia de datos:
- Conoce tu negocio. TODO el proyecto de ciencia de datos girará en torno al negocio: las metas, los objetivos, los datos, las interacciones. Si no conocemos el negocio hay una probabilidad muy grande de fracasar.
- Los datos son conocimiento. No podemos subestimar ciertos datos o cantidad de los mismos, todo puede aportar si los procesamos de forma correcta.
- La ciencia de datos no es la solución a todos los problemas (pero si muy cool). Sabiendo ahora lo que implica la ciencia de datos, podemos decidir si es lo que se requiere implementar.
- No se aprende ciencia de datos en 3 meses (pero si ganas contexto). No desesperemos, la práctica hace al maestro y si en realidad les apasiona “jugar” con datos, lograran resultados confiables si son perseverantes.
Nos encanta la ciencia de datos ¿no? 😀 … Hasta la próxima!

1 comentario en “Ciencia de datos para todos”