Te preguntarás qué es ETL y de dónde vienen sus siglas. Aquí vamos a desengranarlo todo para que tengas una noción básica sobre cómo funciona, los procesos y las herramientas ETL.
ETL viene del inglés, “Extract, Transformation, Load”, y es un proceso en el cual se extraen datos de muchos sistemas (extract), se transforman a un mismo tipo de formato para poder tratarlos (transformation) y, por último, se cargan (load) o almacenan en bases de datos (data warehouse) para poder analizar el comportamiento de los usuarios cuando interactúan con distintas plataformas de la empresa.
Los procesos ETL son importantísimos para las empresas porque, sino tratas los datos adecuadamente, puedes llegar a perder la oportunidad de conocer a tu cliente, uno de los aspectos fundamentales para triunfar hoy en día en el mercado.
Antes de conocer tanto las herramientas como cada una de las fases de los procesos ETL, es importante definir el concepto de data warehouse y su funcionamiento.
En el mundo físico, un data warehouse sería un gran almacén donde se almacenarían materias primas, o incluso ropa, por ejemplo. Ahora sí, esta debería ser ordenada según unos criterios específicos para que sea fácil de encontrarla en cuanto la necesites.
Con los datos es lo mismo… Una vez los datos están cargados y almacenados, todo tiene un orden y se puede acceder a ellos con facilidad, aunque sean datos de hace 10 años.
Dentro de los data warehouse pueden existir los data mart; sub almacenes donde se ubican datos más segmentados (clientes que llegan desde redes sociales, por ejemplo, que quieres segmentarlos y trabajarlos de manera distinta en una campaña específica para ellos).
Antes de profundizar en los procesos ETL, te recomendamos que le eches un vistazo a nuestro artículo sobre el data mining, ya que trata conceptos más básicos que te ayudarán a iniciarte en el mundo de los datos.
Ya hemos hablado sobre qué es ETL y data warehouse, así que ahora podemos ahondar un poco más adentro.
Una empresa puede tener diversas fuentes de información para realizar este proceso:
Un ERP (Enterprise Resource Planning), un CRM (Customer Relationship Management), fuentes de dispositivos de IoT (Internet of Things) o fuentes web, por ejemplo.
Toda esa información que se recaba de esas fuentes se reformatea para ponerla en un formato uniforme, se limpia para evitar problemas de calidad del dato, se analiza, y finalmente, se carga.
El objetivo es que esos datos, una vez han sido cargados, puedan ser reutilizables a lo largo del tiempo.
A continuación, veremos las fases en detalle para que tengas una visión más amplia sobre su funcionamiento y lo importante que es trabajar con datos dentro de tu compañía.
Como hemos visto antes, este proceso consiste en conectar todas las fuentes de información donde están los datos, pero, previamente, se debe mirar con lupa la calidad de los mismos mediante un proceso de análisis de calidad que, en función del tipo de dato, puede resultar muy fácil o complicarse mucho.
Un ejemplo claro de complicación en esta fase del proceso ETL es cuando nos encontramos con datos no estructurados, es decir, datos sin formato predefinido que dificulta su recopilación y análisis.
Una vez hecho esto, se traen los datos de los sistemas de origen con sumo cuidado y se preparan para la siguiente fase.
¿Por qué decimos con sumo cuidado? Porque el hecho de traer muchos datos puede colapsar el sistema, por lo que es recomendable hacerlo de fin de semana y/o por la noche, cuando normalmente el sistema no tiene mucha demanda.
Esta fase valida, homogeniza y transforma los datos. Aquí debemos aplicar funciones y reglas sobre todo lo que acabamos de extraer. Estas reglas tienen que ser independientes entre sí, útiles y claras.
¿Qué es lo que se suele hacer en la fase de transformación?
Una vez finalizada la fase de transformación, hay que evaluar todos los datos por si se han cometido errores, algo más común de lo que se suele pensar.
En esta fase se llevan los datos a nuestro a data warehouse. Esto es algo que hay que tener muy claro, estamos en la fase más crítica de los procesos ETL.
Esta fase se puede realizar de dos maneras:
Lo último que se debe hacer, como en todas las fases, es cerciorarnos de que todo está en orden en la calidad de los datos.
En este subapartado verás las 5 funcionalidades clave que deben tener las herramientas ETL.
Antes de llegar a la fase de extracción de los procesos ETL, se debe contar con herramientas ETL adecuadas para realizar el proceso, así que, asegúrate que puedas extraer datos desde el mayor tipo de fuentes de información posible.
Si coges datos de CRM, pero la herramienta ETL no te permite conseguirlos desde, por ejemplo, bases de datos no relacionales, estás perdiendo nivel de análisis y, por tanto, dinero.
Esto es todavía más importante que lo anterior ya que, si eres una empresa pequeña, aunque crezcas, no tienes por qué extraer datos de sitios donde nunca has trabajado.
Sin embargo, a la hora de transformarlos, seas grande o pequeño, deberías ser específico en tus filtros para una mayor calidad del dato.
Básico en los procesos ETL. Se hace todo el tiempo.
La herramienta que escojas debe facilitarte la ejecución de los mismos, las múltiples copias de seguridad que tendrás que hacer y tu pelea constante con los errores de cada fase.
La herramienta ETL que elijas tiene que ser lo suficientemente potente para que no de problemas a la hora de tratar los datos porque, cuando se llega a un volumen considerable, muchas de ellas pueden dar más problemas de lo que se cree.
Cuando hablamos de arquitectura en el mundo del big data, nos referimos a la interoperabilidad. Es decir, al número de sistemas que deben intercambiarse y compartir información entre sí para que no tengan que interrumpirse los procesos ETL.
Aquí te mostramos una pequeña lista de las mejores herramientas ETL del mercado:
Como ves, los procesos ETL son bastante complejos y solo son una pequeña parte del big data. Además, necesita de mucho tiempo y dedicación, pero, sobre todo, de amor por los datos.
Si eres de esas personas analíticas que les gusta este sector, estás de suerte, porque INESDI tiene un Máster en Business Intelligence y Data Management en el que tratarás muchos más temas, pues tal y como te mostramos en la siguiente imagen, los procesos ETL son solo una parte del Business Intelligence.
¿Quieres convertirte en Chief Data Officer o impartir tus propios cursos? Este es tu momento.