Amazon supera los grandes desafíos del Big Data con Galaxy, el data lake de su red logística
En 2019, Amazon decidió crear Galaxy, un data lake capaz de dar soporte a toda su red logística, una de las mayores del planeta. Werner Vogels, CTO de Amazon.com, nos revela los retos de aplicar el Big Data en las empresas y lo que resuelve el aplicar un lago de datos, similares a los que se enfrenta la propia Amazon
Cuando Jeff Bezos preparaba pedidos en su garaje y llevaba él mismo los paquetes a la oficina de correos, calcular las cifras de costes, hacer un seguimiento de las existencias y prever la demanda futura era relativamente sencillo.
Hoy, 25 años más tarde, el negocio de distribución minorista de Amazon cuenta con más de 175 Fulfillment Centers (FC) en todo el mundo y más de 250.000 empleados a tiempo completo, que envían millones de artículos cada día, mientras que el equipo de operaciones financieras de Amazon se enfrenta a la increíble labor de rastrear todos esos datos, que se miden en petabytes.
Ente ese reto, en 2019, se les ocurrió una idea: construir un data lake, un lago de datos que pudiera dar soporte a una de las mayores redes logísticas del planeta. Conocido internamente como Galaxy, el lago de datos se puso en marcha en ese año y ahora todos los equipos de Amazon trabajan para transferirle sus datos.
Los desafíos del Big Data
Los desafíos a los que se ha enfrentado Amazon con el Big Data son similares a los que encaran muchas otras empresas: datos compartimentados, dificultad para analizar diversos conjuntos de datos, control sobre los mismos, seguridad e incorporación del aprendizaje automático.
Pero, echemos un vistazo más en profundidad a estos desafíos y veamos cómo un lago de datos puede ayudar a resolverlos.
- Dejar atrás la compartimentación - Una de las principales razones por las que las empresas deciden crear lagos de datos es para acabar con la compartimentación. El hecho de tener conjuntos de datos en diferentes lugares, controlados por diferentes grupos, los oscurece por defecto. Esto suele pasar cuando una empresa crece rápidamente y/o adquiere nuevos negocios. En el caso de Amazon, fue por ambas cosas.
- Analizar diversos conjuntos de datos - Otro problema que plantea la utilización de diferentes sistemas y enfoques a la gestión de datos es que las estructuras de los datos y la información varían. Si se quisieran combinar todos estos datos en un almacén de datos tradicional sin un lago de datos, sería necesario un gran esfuerzo de preparación de datos y exportación, transformación y carga. Los lagos de datos permiten importar cualquier cantidad de datos en cualquier formato porque no hay un esquema predefinido, incluso incluir datos en tiempo real.En general, mover todos los datos a un data lake mejora las posibilidades frente a un almacén de datos tradicional: tenemos flexibilidad para almacenar datos muy estructurados, datos a los que se accede con frecuencia en un almacén de datos, y al mismo tiempo mantener hasta exabytes de datos estructurados, semiestructurados y no estructurados en nuestro lago de almacenamiento.
- Gestionar el acceso a los datos - Con datos almacenados en tantos lugares, es difícil tanto acceder a todos ellos como vincularlos a herramientas externas para su análisis. En el caso de Amazon, los datos financieros de las operaciones se encuentran repartidos en más de 25 bases de datos, con equipos regionales que crean su propia versión local de los conjuntos. Eso implica más de 25 credenciales de gestión de acceso para algunas personas. Muchas de las bases de datos requieren soporte de gestión de acceso para realizar acciones como modificar perfiles o restablecer contraseñas.En contraste, con un lago de datos es más fácil hacer llegar los datos correctos a las personas adecuadas en el momento preciso. En lugar de gestionar el acceso a todas las diferentes ubicaciones en las que se almacenan datos, solo hay que preocuparse de un conjunto de credenciales.De hecho, tienen controles que permiten a los usuarios autorizados ver, acceder, procesar y/o modificar activos específicos: ayudan a garantizar que los usuarios no autorizados no puedan realizar acciones que comprometan la confidencialidad y la seguridad de los datos.
- Acelerar el aprendizaje automático - Un data lake es una base poderosa para el aprendizaje automático y la Inteligencia Artificial, porque ambos prosperan en grandes y diversos conjuntos de datos. El aprendizaje automático utiliza algoritmos estadísticos que aprenden de los datos existentes, un proceso denominado «entrenamiento», para tomar decisiones sobre nuevos datos, un proceso llamado «inferencia». Durante el entrenamiento, se identifican los patrones y las relaciones en los datos para crear un modelo. El modelo nos permite tomar decisiones inteligentes sobre datos a los que se enfrenta por primera vez.
El año pasado, el equipo de finanzas de operaciones de Amazon hizo una prueba: seleccionaron un subconjunto de sus previsiones y compararon su proceso manual tradicional con el realizado con Amazon Forecast, un servicio totalmente gestionado que recurre al aprendizaje automático para ofrecer pronósticos muy precisos.
El data lake Galaxy está construido sobre el Simple Storage Service o Amazon S3, el servicio de almacenamiento simple de AWS, un servicio de almacenamiento de objetos que ofrece una disponibilidad, durabilidad y adaptabilidad inigualables
En este ensayo, las previsiones completadas por Forecast fueron, de media, un 67% más precisas que las realizadas por el proceso manual.
Usar las herramientas adecuadas: Galaxy en AWS
El negocio de distribución minorista de Amazon utiliza cierta tecnología anterior a la creación de Amazon Web Services (AWS), que vio la luz en 2006, aunque para ser más escalables, eficientes, eficaces y seguras, muchas cargas de trabajo del negocio de distribución minorista de Amazon se han trasladado a AWS en la última década.
De hecho, el lago de datos Galaxy está construido sobre el Simple Storage Service o Amazon S3, el servicio de almacenamiento simple de AWS, un servicio de almacenamiento de objetos que ofrece una disponibilidad, durabilidad y adaptabilidad inigualables.
Por otra parte, AWS Glue, un servicio de ETL completamente gestionado que facilita la preparación y carga de datos para su análisis, y el servicio de migración de bases de datos AWS (AWS DMS) se utilizan para integrar los diversos conjuntos de datos en Amazon S3.
Galaxy combina activos de metadatos de múltiples servicios, incluidos Amazon Redshift, RDS, y el catálogo de datos de AWS Glue, en una capa de catálogo unificada construida sobre Amazon DynamoDB, una base de datos de valores clave y documentos.
Galaxy combina activos de metadatos de múltiples servicios, incluidos Amazon Redshift, RDS, y el catálogo de datos de AWS Glue, en una capa de catálogo unificada construida sobre Amazon DynamoDB, una base de datos de valores clave y documentos
Una vez que los datos han sido catalogados, se utilizan varios servicios de Amazon en la capa de clientes. Por ejemplo, Athena, un servicio de consulta interactivo para consultas de exploración específicas que utilizan el estándar SQL; Redshift, un servicio para consultas e informes más estructurados; y SageMaker, para el aprendizaje automático.
AWS Lake Formation
En agosto de 2019, AWS lanzó Lake Formation con el fin de ayudar a los clientes a recopilar y catalogar datos de las bases de datos y el almacenamiento de objetos, trasladar los datos al nuevo lago de datos Amazon S3, limpiar y clasificar los datos mediante algoritmos de aprendizaje automático y garantizar el acceso a los datos sensibles.
Al almacenar los datos en un repositorio unificado en formatos basados en estándares abiertos, los data lake nos permiten superar la compartimentación, utilizar una amplia gama de servicios analíticos para obtener la mayor cantidad de información de los datos que conservamos y aumentar de manera rentable las necesidades de almacenamiento y procesamiento de datos a lo largo del tiempo.
(*) Werner Vogels es CTO de Amazon y de AWS
Publicidad
Publicidad
Últimas Noticias
- 06/06/2024Vodafone Business y Ericsson fomentan el despliegue de redes privadas 5G en España
- 06/06/2024Bonitasoft impulsa el mercado BPM ante la necesidad de automatización de las empresas
- 06/06/2024Babel, reconocida por OutSystems como ‘premier partner’
- 25/05/2024NetApp y Lenovo presentan AIPod, una solución de infraestructura convergente optimizada para la IA generativa
Destacamos
- Claves de la IA: hiperpersonalización, edge computing, datos en tiempo real y aprendizaje automático federado
Durante el pasado año, los retos económicos han obligado a empresas y gobiernos a reevaluar sus prioridades. Pese a ello, la inversión en transformación digital sigue siendo alta y no muestra signos de caer: la tecnología cumple una función estratégica cada vez más esencial para afrontar el reto de controlar los costes, mejorar la eficiencia, la agilidad y la capacidad de recuperación para prepararse para el reto que su pone el rápido crecimiento de la IA generativa. Es una de las principales conclusiones a las que llegan los expertos de Couchbase, reunidos para concretar oportunidades y evolución en 2024
Publicidad