Se dice que en los últimos 4 años hemos generado el 80% de la información que existe en el planeta. Esto es, entre otras cosas, gracias a los avances de la tecnología, al nacimiento del internet y a la evolución digital, porque si hacemos un recuento muy muy breve de la historia, podríamos decir que en un inicio las páginas web eran sitios solo de consulta; entrabas, leías y te ibas. Gracias a la Web 2.0 esto cambió, se puso fin al contenido estático y se abrió paso al contenido dinámico, ahora era posible interactuar con el sitio web, interactuar con otros usuarios, y generar contenido; de aquí, el nacimiento de las primeras redes sociales, que bueno, ya sabemos todo lo que representan y la importancia que tienen al día de hoy… Y si damos un salto grandísimo en la historia llegamos a lo que es el internet de las cosas (IoT) que es es un concepto que se refiere a una interconexión digital de objetos cotidianos con internet. Hoy en día, tenemos miles de aparatos electrónicos encendidos, interconectados, generando datos (que probablemente nadie usa).
Toda esa conexión entre personas y entre dispositivos genera datos. Diariamente en el mundo se están generando terabytes de información que ya no es posible almacenar en un solo lugar. Recuerdo cuando en mis tiempos las compañías solían comprar servidores físicos para hostear su sitio web y almacenar la información. Ahora esto ya no es rentable, los datos son muchos y no conviene estar comprando servidores conforme aumentan los datos a almacenar, aquí es donde la tecnología cloud se hace presente.
Entre muchas otras cosas que nos ofrece la nube, está la capacidad de adquirir infraestructura para almacenar información (que es lo que nos interesa por ahora). Podemos pagar por lo que usamos sin necesidad de preocuparnos por los servidores físicos, pues estamos adquiriendo un espacio que probablemente esté del otro lado del mundo pero que igual me garantiza el almacenamiento de mis datos. Cloud es un tema súper interesante que creo que podemos ver a fondo en otra entrada del blog :P.
¿Porque les conté de la manera en que se generan datos y de la existencia de la nube para almacenarlos?… porque a esto se asocia el big data. Se dice que estás trabajando con big data cuando la cantidad de datos que estás procesando rebasa el límite de una máquina convencional, es decir, la información no puede ser manipulada por falta de memoria, espacio, computo.
Ahora que ya sabemos identificar cuando estamos lidiando con big data, entendamos de una vez por todas qué es big data.
Muchos autores manejan hasta 8 V´s para definir big data, a mi me gusta utilizar solo 3: volumen, variedad, velocidad.
- Volumen: no solo es la cantidad de datos generada sino también la cantidad de datos que se van a procesar (Gigabytes, Terabytes, Petabytes, etc.)
- Variedad: como el nombre lo indica, es la variedad de datos generados y a procesar (audios, videos, texto, imágenes, etc.). Pueden presentarse estructurados, semiestructurados, o no estructurados.
- Velocidad: es la velocidad a la cual se generan y procesan los datos. En la actualidad la generación de datos tiene velocidades impresionantes debido al IoT y el challenge es lidiar con el procesamiento de datos en tiempo real.
Con estas 3 v´s podemos decir que big data son datos de gran volumen y variedad, asociados a una gran velocidad de generación y procesamiento.
¿Por qué es importante el Big Data?
La importancia del big data radica en el hecho de que si tienes datos puedes responder preguntas que tal vez ni siquiera sabías que tenías.
Con el boom de la ciencia de datos, se empezó a dar importancia a los datos con los que cuentan las empresas, se empezó a poner atención en la manera en cómo se generan y por supuesto se empezó a almacenar TODO para análisis posteriores. Y es aquí donde los ingenieros de datos vienen a hacer su magia de construir las arquitecturas que permitan la manipulación y procesamiento de los datos para estructurarlos según las necesidades y proporcionarlos a los científicos de datos para el análisis y creación de modelos (que nos ayudan a contestar a preguntas y que pueden dar pie a que surjan otras).
Con el uso de datos se pueden descubrir tendencias, generar patrones, reducir costos, incrementar ventas, etc. La clave es saberlos usar de acuerdo a las necesidades del negocio, el cual debemos conocer muy bien.
Sin embargo el proceso no es tan simple como lo describo, hay que lidiar con una cantidad de obstáculos para tener algo tangible, entre ellos la calidad de los datos, porque es importante mencionar que el hecho de tener muchos datos no garantiza el éxito, la calidad aquí es muy importante para poderles dar valor a los datos.
Espero que esta breve explicación acerca del Big Data les genere mas curiosidad y comienzen a explorar los diferentes usos y los increíbles beneficios que pueden obtener al trabajar con datos (si, esos que probablemente nadie usa y que tienen gran valor :P).
