Conocer las herramientas y técnicas de data mining es importantísimo tanto para expertos en el sector como para estudiantes que quieren dedicarse al big data. Así que, después de nuestro primer artículo sobre la minería de datos, donde te explicamos su definición, en qué sectores se aplican sus procesos y cuáles son sus etapas, profundizamos un poco más.
En este subapartado expondremos las 8 técnicas de data mining más utilizadas por las empresas explicando en qué consisten de manera sencilla.
Se llama así porque tiene una estructura arborescente en la que encontramos dos tipos de nodos: los puntos de decisión y los puntos de azar.
Los problemas y la secuencia de los árboles de decisión se plasman en estos árboles, donde un nodo es un punto de unión conectado por ramas.
El árbol se crea de izquierda a derecha, pero se evalúa de forma inversa, simplemente porque a la izquierda se encuentra la decisión y a la derecha los resultados.
Consta de 4 elementos:
Esta técnica de data mining se basa en el funcionamiento de nuestras neuronas, pues el cerebro humano tiene millones que se conectan entre sí en un proceso llamado “sinapsis”. Gracias a ello, cada uno de nosotros es capaz de pensar.
Esta red neuronal artificial se parece tanto a una biológica que cuenta con nodos de entrada (reciben información del exterior), nodos de salida (transmiten información al exterior) y nodos ocultos (intercambian información con otros nodos de la red).
Cuando estos nodos están definidos se pasa a la fase de aprendizaje donde se asignan diferentes valores a estos nodos hasta encontrar respuestas, pues es la propia red la que los crea, modifica o elimina automáticamente.
La principal ventaja de esta técnica de data mining es su capacidad para trabajar con datos incompletos.
Se basa en las relaciones entre variables en los datos mediante ecuaciones matemáticas para predecir resultados.
Es la más antigua de las técnicas de minería de datos, ya que se empezó a desarrollar en el siglo XVII con métodos más arcaicos, pero la esencia era la misma que en la actualidad.
Si es tan antigua, es porque es una rama de las matemáticas que se fue introduciendo al mundo de los datos a medida que fueron incorporándose en nuestra sociedad.
Nos permiten encontrar las combinaciones de artículos que ocurren con mayor frecuencia en una base de datos y la importancia de las mismas.
Un ejemplo de esta técnica de data mining es el cliente que va a comprar un artículo y su intención de compra se asocia con la de otros consumidores en la base de datos, o incluso se le muestran otros productos basándose en su historial.
Los datos se agremian en forma de lista, en una representación vertical o en una horizontal.
Se agrupan elementos en un conjunto de datos, que a su vez, están agrupados en subconjuntos distintos.
El objetivo es que los elementos de una misma clase tengan grandes similitudes entre sí, mientras que los que pertenezcan a una clase distinta cuenten con el menor parecido posible.
Hay muchos tipos de clustering, pero los más frecuentes son dos:
Al igual que la red neuronal está basada en nuestras neuronas, el algoritmo genético está basado en la teoría de la evolución.
En esta técnica de data mining se intenta replicar el comportamiento biológico de la selección natural y la genética.
El algoritmo cuenta con una población inicial de datos que representan ciertos resultados (cromosomas) y que contienen bits (genes).
Estos pasan juntos a la fase de evaluación donde se le asignará un porcentaje en función de la aptitud. Los más aptos siguen y los demás no, igual que en la teoría de Charles Darwin.
Después de esto, los datos se cruzan o mutan y el proceso se repite hasta que se llega al resultado esperado o hasta que se para manualmente.
La regresión lineal es otra de las técnicas de minería de datos más utilizadas en un sector que no para de crecer debido a la transformación digital. En ella, se relacionan dos variables continuas, concretamente, las variables de predicción y de respuesta.
Hablamos de regresión lineal cuando existe solo una variable de predicción y de regresión múltiple cuando hay más de una. Sea lineal o múltiple, es una variable independiente mientras que la de respuesta depende de la anterior.
Representan ciertas incertidumbres que están asociadas a nodos que reproducen variables aleatorias, las cuales se asocian a su vez a un condicionante externo. Para esto, existen los llamados “clasificadores bayesianos”, que organizan cada variable y consiguen plasmar los condicionantes de tal manera que sean muy sencillos de leer.
Son muy característicos en la medicina para diagnósticos graves. Se utilizan las redes bayesianas para descartar enfermedades rápidamente.
Cada vez son más las herramientas de data mining que existen en el mercado. Cuál es la más adecuada dependerá de tu situación y tu modelo de negocio, pues no todas valen para lo mismo. Pese a la complejidad general del mundo de los datos, vamos a intentar explicar en qué te puedes fijar cuando las elijas como lo haría un data manager.
Las herramientas de minería de datos se podrían clasificar en dos grandes grupos. Las que sirven para almacenar datos y las que se utilizan para procesarlos. Además de esto, se podrían dividir en otros dos, dividiéndolas en herramientas big data o en tradicionales.
Es este subapartado no vamos a tener en cuenta las herramientas big data porque solo son necesarias para volúmenes de datos muy grandes y, por ende, para empresas de ese tamaño.
Primero veremos herramientas de data mining cuya función es almacenar datos, y luego, las que se dedican a procesarlos.
Aquí se encuentran algunas empresas como Oracle o Teradata. Son muy utilizadas cuando no se manejan grandes cantidades de datos y éstos se almacenen en tablas y son formados por filas y columnas.
Es muy frecuente encontrarse con la interfaz de Lenguaje de Consultas Estructuradas (SQL) para que se recopilen los datos de forma dinámica y puedan usarse en informes.
Son muy comunes en la mayoría de las empresas, a no ser que haya crecimientos exponenciales de datos muy elevados y las necesidades en el proceso de almacenamiento sean impredecibles. Esto último pasa en un porcentaje muy pequeño de los casos.
Este proceso también se puede dar desde formatos de ficheros, importando datos, por ejemplo, en CSV o TXT desde un Excel. Al igual que las bases de datos relacionales, sirven para almacenar datos.
Ahora pasamos a las herramientas de minería de datos que sirven principalmente para procesarlos.
En esta herramienta de data mining se pueden tanto minar datos como realizar análisis predictivos de forma gratuita, por lo que es bastante útil para multitud de empresas.
De hecho, está ganando bastante cuota de mercado estos últimos años debido a la facilidad para crear chatbots, aunque se puede utilizar para innumerables proyectos.
Lo más destacable de Orange son los 100 widgets de los que dispone para personalizarla y realizar variables personalizadas.
Quizás sea la herramienta más fácil de usar por su sencillez y funcionalidad. Además, cuenta con largos tutoriales para que te muevas por la interfaz.
Siempre ha habido debates sobre cuál escoger, así que hacemos una comparativa sencilla entre las dos.
Hemos visto las 8 técnicas de data mining más utilizadas y 5 herramientas muy conocidas dentro de un sector que no parece tener techo.
Si quieres saber más sobre este mundo, te animamos a que eches un vistazo a los 10 módulos de nuestro Máster en Business Intelligence y solicites información si te surge cualquier duda.