Los roles en la ciencia de datos

En la entrada anterior, “Ciencia de datos para todos” hablamos de lo que es la ciencia de datos y de las disciplinas que la conforman, se dijo que la ciencia de datos busca descubrir el conocimiento extrayendo el valor de los datos para que nos ayude en la toma de decisiones, y que está conformada por las siguientes disciplinas: Método científico, Ingeniería de datos, Visualización de datos, Matemáticas, Estadística, Ingeniería de software, Hacking ético.

Parte fundamental de un proyecto de ciencia de datos son las personas que lo llevan a cabo. Creo que en este sentido hay mucha polémica alrededor de los roles y perfiles que son aptos para lidiar con las disciplinas  que conforman la ciencia de datos, pues se han generado demasiados y cada uno de ellos cuenta con una definición muy ambigua. Sin embargo, diversas fuentes convergen en una figura responsable de ejecutar la práctica de ciencia de datos: El científico de datos.

El científico de datos

Este rol nace casi con la definición de ciencia de datos, y la definición del rol (según yo) nos dice que es la persona experta en el análisis y manejo de datos, que cuenta con una variedad de skills para poder transformar los datos en insights, por lo tanto, puede resolver problemas contestando a preguntas estratégicas que su misma curiosidad de científico de datos le ayuda a formular.

Si somos estrictos, se podría decir que el científico de datos debe de dominar todas las disciplinas que conforman la ciencia de datos, después de todo es el experto que deberá pasar por toda una serie de procesos (y usos de herramientas) para poder culminar con su trabajo. Pero seamos realistas, aunque una persona en verdad domine todas esas disciplinas, su tiempo no le alcanzará para hacer todo el trabajo por sí solo; o le dedica tiempo a buscar datos, o a limpiarlos, o a diseñar el modelo, o a verificar la calidad de los datos, o a interpretar los datos… pero no puede hacer todo (a menos que cuente con muchísimo tiempo para ejecutar el proyecto completo :P)

El equipo de ciencia de datos

Mi sugerencia siempre es crear equipos multidisciplinarios que realicen el proyecto de ciencia de datos. El equipo deberá estar conformado por al menos:

  • Investigador: Sabe todo acerca del entorno (¡y si no, lo investiga!). Se enfoca en el negocio para saber lo más posible acerca del mismo.
  • Ingeniero de datos: Se encarga de crear una plataforma/arquitectura para el proceso de datos, así como de las tareas de ETL, entre otras.
  • Ingeniero de Software: En conjunto con el ingeniero de datos, trabajan en la plataforma que va a exponer el modelo o los resultados del proyecto …. Entre muchas otras cosas.
  • Ingeniero de Machine Learning: Se encargará de crear los modelos que usarán los datos para hacer predicciones, clasificaciones. Probará los modelos y los validara.
  • Story teller: No se si este nombre sea correcto, pero lo que se quiere es una persona con skills de visualización de datos y contador de historias, que entienda lo que pasa/pasó en el proceso del proyecto y al final lo exponga de una manera entendible para la gente técnica y no técnica.

Al tener un equipo con personas de diferentes skills se ayuda a la variable tiempo y a la calidad de las ideas. Al distribuir el trabajo, se le da su espacio y tiempo a cada etapa del proceso con gente especializada trabajando en ello, pero sin olvidarse de los objetivos y metas del proyecto. De esta manera, por ejemplo, el ingeniero de datos se encargará de todas las tareas de ETL y de servirle los datos estructurados a los ingenieros de machine learning para que estos prueben el diseño del modelo que han venido trabajando.

Cada proyecto es diferente, y puede que requieran más de una persona para cada rol, o puede que necesiten incluir más roles, no lo sé, lo que sí sé es que es fundamental que el equipo completo tenga bien presente el objetivo y las metas del proyecto, de esta manera trabajarán en cosas “diferentes” pero con un fin en común.

¿Cual es el toolkit de quienes participan en un proyecto de ciencia de datos?

Eso se los contare en la próxima entrega ;D

1 comentario en “Los roles en la ciencia de datos”

Deja un comentario