¿Qué es el Big Data?
En el mundo de los negocios, el Big Data es el término que se utiliza para describir el gran volumen de datos, ya sean datos estructurados o no estructurados, que genera una empresa u organización día a día. El Big Data se puede analizar a través de diversas herramientas, tecnologías, y técnicas para obtener insights relevantes que ayuden a las empresas a tomar mejores decisiones estratégicas.
El término Big Data es relativamente nuevo, sin embargo el hecho de almacenar grandes cantidades de información para su posterior análisis y estudio ha sido siempre parte de la historia del hombre. El concepto de Big Data, tal y como lo conocemos hoy en día, comenzó a utilizarse a principios del 2.000 cuando el analista Doug Laney articuló la definición que hoy conocemos como lastres Vs:
Para que una serie de datos pueda ser considerado como Big Data debe cumplir con los siguientes elementos:
Volumen:
Las nuevas tecnologías y la facilidad de generar datos digitales han permitido que cada día se generen más datos alrededor de todo el mundo. Se estima que en 2020 se generen aproximadamente 1,7 MB por segundo por cada persona en la tierra. Además, solamente durante los últimos dos años se han generado más del 90% de los datos de los cuales disponemos hoy en día. En otras palabras, el volumen significa tamaño o cantidad de información. Para que una serie de datos sea considerada Big Data debe ser lo suficientemente masiva. Es decir, deben ser necesarias tecnologías específicas para su almacenaje y gestión.
Velocidad:
El tiempo es un factor crítico para tomar decisiones estratégicas acertadas. En el Big Data el procesamiento y análisis de los datos debe hacerse en el menor tiempo posible o incluso en tiempo real. El Big Data requiere de altas velocidades para acceder a los datos, pero también para su análisis y visualización. Esta velocidad es lo que permite que las conclusiones que se extraen del Big Data sean relevantes desde un punto de vista temporal.
Variedad:
La variedad en Big Data está reflejada en los diversos tipos y estructuras de los datos que pueden provenir de fuentes diversas. La clasificación tradicional segmenta los datos en tres categorías: estructurados, no estructurados, y semi estructurados. Los primeros se almacenan en bases de datos en las cuales su longitud, formato y denominación ha sido previamente definida (por ejemplo, datos de clientes en un CRM). Por otro lado, los datos no estructurados no tienen estructura alguna (por ejemplo, imágenes, audio y videos). Por último, los datos semi estructurados son aquellos que han sido generados utilizando lenguajes como HTML, XML o SGML. Estos datos, si bien no tienen una estructura fija predeterminada, sí contienen ciertos marcadores o pautas que facilitan su análisis y comprensión.