Ir directamente al contenido

Los cinco retos del Big Data

05/11/2014

Teradata, compañía especializada en plataformas, aplicaciones de marketing y servicios de análisis de datos, sigue desvelando los secretos y retos del Big Data en la actualidad. Más allá de describir este fenómeno, hay que definir algo muy importante: a qué retos se enfrenta el Big Data. Las organizaciones con las que Teradata trabaja no solo van más allá del análisis de transacciones y eventos, sino que también analizan las interacciones y dominan los cinco retos clave del Big Data.

El reto de los datos multi-estructurados
Los datos de transacciones y eventos que se han ido almacenando, integrando y analizando en los Data Warehouses tradicionales y en aplicaciones de Business Intelligence durante las tres últimas décadas están en gran parte orientados a dejar constancia de lo ocurrido y se definen en términos de esquema explícito. No siempre se puede decir lo mismo de las nuevas fuentes de Big Data.

Social data and machine log data se caracterizan por su volatilidad: el modelo de información que usamos para entenderlos puede ser implícito en lugar de explícito, puede ser orientado a documento, pudiendo (o no) incluir algún nivel de organización jerárquica, puede cambiar continuamente o puede que queramos aplicar diferentes interpretaciones a los datos en tiempo real (esquema de lectura) en función de cada uso y aplicación.
Martin Willcox, director de Producto y Soluciones de Marketing International en Teradata Corporation, comenta: “A las nuevas generaciones de analistas de sistemas de negocio nos enseñaron que los procesos de negocio están cambiando continuamente, pero que los datos y sus relaciones no, así que lo importante es moldear los datos. El Big Data acaba con estas enseñanzas y hace que el enfoque tradicional para integrar datos no sea productivo, ya que requiere que se aplique un esquema rígido e inflexible a los datos a medida que pasan a formar parte de un entorno de análisis”.

El desafío de las analíticas interactivas
Las interacciones -tanto entre personas y cosas, como entre personas y personas o cosas y cosas- describen redes o gráficos. Muchos análisis de interacciones se caracterizan por operaciones en las que el orden de registro es importante. Sin embargo, la cronología, la trayectoria y el gráfico dan problemas debido a las tecnologías ANSI-standard SQL, ya que están basados en el modelo relacional y en la teoría de conjuntos, en las que el orden de registro no tiene importancia. Son variadas las ampliaciones que se han propuesto a lo largo de los años para que el estándar ANSI-SQL haga frente a estas limitaciones, entre ellas las funciones User Defined Functions (UDF) y Order Analytical OLAP, pero solo son una solución parcial, ya que no siempre se podrá saber cuándo una función refleja el esquema preciso de los datos que se necesitan procesar.
“El problema de estas consultas es que a menudo son difíciles de expresar en el estándar ANSI SQL y puede ser demasiado costoso a nivel de computación hacerlas funcionar en plataformas optimizadas para el procesamiento basado en conjuntos, incluso si tenemos éxito al hacerlo”, asegura Martin Willcox, de Teradata.

El reto de los datos con ruido
Algunos grupos de Big Data son grandes y con ruido y se vuelven aún más grandes rápidamente, se accede a ellos con poca frecuencia para ayudar al procesamiento asociado con objetivos de nivel de servicio relajados y sin valor probado. Las empresas tienen que capturar volúmenes de datos cada vez más grandes en los que la señal útil está acompañada por un volumen aún mayor de datos que suponen ruido para la mayor parte de las compañías, que buscan modelos rentables de almacenamiento y procesamiento de datos. Sin embargo, estos datos podrían ser una gran oportunidad para un pequeño y selecto grupo de Data Scientists.

El reto de “puede haber una aguja en un pajar, pero si se necesitan doce meses y 500.000 euros para averiguarlo no hay tiempo ni dinero para investigarlo”
Muchas organizaciones comprenden que los nuevos grupos de Big Data son valiosos, pero no saben dónde buscarlos. Los enfoques tradicionales hacia Data Integration -modelar los sistemas de origen, desarrollar un modelo de datos nuevo e integrado, aplicar los modelos de origen al de destino, desarrollar procesos ETL que capturen y transformen de forma precisa los datos del sistema de origen al modelo de destino, etc.- suelen dar problemas con la captura de datos multi-estructurados y tienen aún más dificultades en estos escenarios, debido al tiempo y coste que hay entre el Data Scientist y el acceso a los nuevos datos.

Para poder ver el contenido completo tienes que estar suscrito. El contenido completo para suscriptores incluye informes y artículos en profundidad

Inicia sesión Suscríbete

Tecnologías

Sectores

Revista

QUALITAS Abril Mayo 2019

Ver la revista

Lo más leído

Bureau Veritas se incorpora a la 'European Clean Hydrogen Alliance'

Gestión Noticias

Leer más sobre Bureau Veritas se incorpora a la 'European Clean Hydrogen Alliance'

El País Vasco es la tercera comunidad que más aumentó sus emisiones de CO2 en 2019

Gestión Noticias

Leer más sobre El País Vasco es la tercera comunidad que más aumentó sus emisiones de CO2 en 2019

Europcar, primer rent a car acreditado por Aenor frente al COVID-19

Gestión Noticias

Leer más sobre Europcar, primer rent a car acreditado por Aenor frente al COVID-19

Dbus obtiene la certificación de sus protocolos frente al COVID-19 con Aenor

Gestión Noticias

Leer más sobre Dbus obtiene la certificación de sus protocolos frente al COVID-19 con Aenor

Bureau Veritas presenta la certificación del sistema de gestión para minimizar el desperdicio alimentario

Gestión Noticias

Leer más sobre Bureau Veritas presenta la certificación del sistema de gestión para minimizar el desperdicio alimentario

Customización de cookies

Cookies Analytics

Este sitio web utiliza cookies de terceros para cuantificar el número de usuarios y así realizar la medición y análisis estadístico de la utilización que hacen los usuarios del servicio ofertado. Para ello se analiza su navegación en nuestra página web con el fin de mejorar la oferta de productos o servicios que le ofrecemos por medio de la cookie Google Anlytics

Cookies para compartir en redes sociales

Usamos algunos complementos para compartir en redes sociales, para permitirle compartir ciertas páginas de nuestro sitio web en las redes sociales. Estos complementos colocan cookies para que pueda ver correctamente cuántas veces se ha compartido una página.