Big Data: De la información al conocimiento

Cada día creamos datos que vienen de una cantidad de fuentes. Juntos suman la cantidad de 2,5 trillones de bytes, tanto que el 90% de ellos se han creado en los últimos 2 años. Es Big Data.

Big Data es un conjunto de datos que es demasiado grande, se actualiza demasiado deprisa y no encaja en las estructuras de proceso de datos IT de las empresas.

De información al conocimiento

La información son los datos que tenemos a nuestro alcance. El conocimiento consiste en extraer lo valioso de la información. El conocimiento permite tomar decisiones razonadas y actuar en consecuencia. La información tiene poco valor si no se transforma en conocimiento. Es necesario pasar de la información al conocimiento.

Big Data tiene dos desafíos. Manejar ingentes cantidades de información y analizarla para entenderla.

En los últimos años han florecido las empresas que se dedican de una u otra forma al manejo de grandes volúmenes de datos, tanto en relación al hardware, como al software y a los servicios asociados. Oracle, el gigante de las bases de datos, tiene un producto llamado Exadata en el que lo combina todo en lo que se denomina un appliance.

Antes, Teradata ya se dedicaba al datawarehouse o almacén de datos. IBM siempre ha tenido productos relacionados con el mundo de Business Analytics. Hace poco compró Netezza, otro appliance en el que todo está incluido. Estructuran en cubos de información preprocesada y los atacan con herramientas de consulta como Cognos, también comprada por IBM.

Big Data tiene tres dimensiones, las tres V:

  • Volumen. Terabytes o Petabytes de información inundan los proyectos de Big Data
  • Velocidad. El dato de ayer no sirve hoy, hay que responder al mundo cambiante al instante
  • Variedad. Los datos ya no solo están estructurados en bases de datos a la antigua usanza. Ahora incluyen audio, video , posts de social media y mucho más.

La calidad de los datos es esencial. Desde el mismo inicio hasta el informe final se usan multitud de herramientas que quieren asegurar la fiabilidad de las conclusiones. Solo el portfolio de productos de IBM para la gestión de la información tiene decenas de productos, de calidad, de manejo, de reporting, de consolidación, de minería o de predicción.

Para algunas grandes empresas como Google, Big Data es una necesidad imperiosa. Nadie sabe cómo funciona o qué hacen con su masiva cantidad de datos pero es seguro que el coste de su gestión es muy elevado. Para Pymes, productos de alquiler, en la nube o de software libre están disponibles además de un hardware relativamente asequible.

Pero Big Data comienza a penetrar en mundos antes imposibles. El LHC, gran colisionador de hadrones del CERN genera tantos datos que la mayor parte de ellos se desechan, confiando en que no estén tirando nada importante. Siempre es posible recolectar más y más datos y hacerse preguntas más complejas.

Via: radar.oreilly

Anuncios

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s