¿Porqué son importantes los datos abiertos?

Cuando nos proponemos resolver un problema basándonos en datos, una de las primeras preguntas que debería venir a nuestra mente es ¿cuento con los datos necesarios para resolver este problema?

La mayoría de las veces la respuesta a esta pregunta es NO, y es ahí donde un nuevo reto (o imprevisto) aparece en nuestro flujo de trabajo, ¡tenemos que buscar los datos!.

Afortunadamente contamos ya con una política de datos abiertos que nos provee de información que pudiera ser de utilidad para nuestros proyectos, pero, ¿que son exactamente los datos abiertos?

Los datos abiertos son aquellos que pueden ser utilizados y compartidos de forma gratuita. Gobiernos de diferentes países y diversas instituciones han puesto al alcance de todos nosotros muchos sets de datos que pueden ser analizados para descubrir nuevos insights o patrones de comportamiento en diferentes sectores.

Sin embargo, recordemos que todo lo que es gratis tiene sus ventajas y desventajas…

Ventajas:

  • Pueden ser utilizados en cualquier proyecto.
  • Están semi estructurados o totalmente estructurados (facilita la manipulación).
  • Gran variedad de datos para correlacionar.
  • Fomentan la transparencia y participación publica.

Desventajas:

  • La mayoría de las veces los datos están incompletos.
  • Los datos traen mucha basura (registros en blanco o con caracteres desconocidos).
  • Inconsistencias de “mismos” datos entre diferentes fuentes.
  • La mayoría de las veces se requiere de un contexto no proveído para entender los datos abiertos.
  • No todos tenemos acceso a la tecnología para acceder a los datos abiertos.

Independientemente de las ventajas y desventajas que los datos abiertos puedan tener, es indudable que el hecho de existir nos abre un mundo de posibilidades para demostrar nuestras habilidades en la ciencia de datos y poder explotarlos de manera satisfactoria. Gracias a que existen los datos abiertos es posible llevar a cabo hackatones o programas donde se intentan resolver problemas sociales o de actualidad “social for good”. Incluso muchas empresas privadas usan datos abiertos para complementar sus propios datos; con esto logran más efectividad en sus resultados.

A mí me emociona el rumbo que están tomando los datos abiertos porque por primera vez en toda la historia (según yo) nunca se había estado tan consciente de la importancia de compartir datos. La gente necesita datos para poder analizarlos y tomar decisiones y entre más complementada esté la información más asertivos serán los resultados, es por ello que hoy en día la iniciativa privada necesita de la iniciativa pública y viceversa.

Y como se que despues de haber leido estas cuantas lineas les dara curiosidad de saber que tipos de datos se pueden encontrar en el internet, les dejo algunas fuentes para que echen a volar su imaginacion y visualicen proyectos geniales que pudieran emprender con solo ver esta cantidad/variedad de datos:

Banco mundial de datos: https://databank.worldbank.org/home.aspx

Los Datasets de kaggle: https://www.kaggle.com/datasets

Diferentes datasets en github: https://github.com/awesomedata/awesome-public-datasets

Datos abiertos del gobierno de México: https://www.datos.gob.mx/

Bonus: buscador de datasets: https://datasetsearch.research.google.com/

Deja un comentario