logo

Herramientas y técnicas de data mining

Data 
25/08/2021

Conocer las herramientas y técnicas de data mining es importantísimo tanto para expertos en el sector como para estudiantes que quieren dedicarse al big data. Así que, después de nuestro primer artículo sobre la minería de datos, donde te explicamos su definición, en qué sectores se aplican sus procesos y cuáles son sus etapas, profundizamos un poco más.

8 técnicas de data mining

En este subapartado expondremos las 8 técnicas de data mining más utilizadas por las empresas explicando en qué consisten de manera sencilla.

Árbol de decisión

Se llama así porque tiene una estructura arborescente en la que encontramos dos tipos de nodos: los puntos de decisión y los puntos de azar.

Los problemas y la secuencia de los árboles de decisión se plasman en estos árboles, donde un nodo es un punto de unión conectado por ramas.

El árbol se crea de izquierda a derecha, pero se evalúa de forma inversa, simplemente porque a la izquierda se encuentra la decisión y a la derecha los resultados.

Consta de 4 elementos:

  • Puntos de decisión: se representan con un cuadrado. Aquí el decisor elige una alternativa de acción entre un número finito de ellas que son representadas por las ramas cuyos costes asociados se escriben sobre ellas. Las ramas escogidas pueden acabar en otro punto de decisión, en uno de azar o en un resultado.
  • Puntos de azar: se dibujan con un círculo e indican que un suceso aleatorio se espera en este punto del proceso. Desde aquí también surgen ramas.
  • Ramas: en el argot del big data se definen como alternativas cuando salen de los puntos de decisión y como estados de la naturaleza cuando salen de los puntos de azar. En este último caso, se les asigna unas probabilidades determinadas.
  • Resultado: al final tenemos que decidir qué decisión tomar en función del resultado obtenido proveniente de cada rama.

Red neuronal

Esta técnica de data mining se basa en el funcionamiento de nuestras neuronas, pues el cerebro humano tiene millones que se conectan entre sí en un proceso llamado “sinapsis”. Gracias a ello, cada uno de nosotros es capaz de pensar.

Esta red neuronal artificial se parece tanto a una biológica que cuenta con nodos de entrada (reciben información del exterior), nodos de salida (transmiten información al exterior) y nodos ocultos (intercambian información con otros nodos de la red).

Cuando estos nodos están definidos se pasa a la fase de aprendizaje donde se asignan diferentes valores a estos nodos hasta encontrar respuestas, pues es la propia red la que los crea, modifica o elimina automáticamente.

La principal ventaja de esta técnica de data mining es su capacidad para trabajar con datos incompletos.

Modelado estadístico

Se basa en las relaciones entre variables en los datos mediante ecuaciones matemáticas para predecir resultados.

Es la más antigua de las técnicas de minería de datos, ya que se empezó a desarrollar en el siglo XVII con métodos más arcaicos, pero la esencia era la misma que en la actualidad.

Si es tan antigua, es porque es una rama de las matemáticas que se fue introduciendo al mundo de los datos a medida que fueron incorporándose en nuestra sociedad.

Reglas de asociación

Nos permiten encontrar las combinaciones de artículos que ocurren con mayor frecuencia en una base de datos y la importancia de las mismas.

Un ejemplo de esta técnica de data mining es el cliente que va a comprar un artículo y su intención de compra se asocia con la de otros consumidores en la base de datos, o incluso se le muestran otros productos basándose en su historial.

Los datos se agremian en forma de lista, en una representación vertical o en una horizontal.

Agrupamiento (clustering)

Se agrupan elementos en un conjunto de datos, que a su vez, están agrupados en subconjuntos distintos.

El objetivo es que los elementos de una misma clase tengan grandes similitudes entre sí, mientras que los que pertenezcan a una clase distinta cuenten con el menor parecido posible.

Hay muchos tipos de clustering, pero los más frecuentes son dos:

  • Clustering jerárquico: un objeto está más relacionado con los objetos que tiene cerca que con los objetos lejanos.
  • Clustering basado en la densidad: se agrupan los objetos en clústeres siempre y cuando los elementos más cercanos estén dentro de un umbral establecido.

Algoritmo genético

Al igual que la red neuronal está basada en nuestras neuronas, el algoritmo genético está basado en la teoría de la evolución.

En esta técnica de data mining se intenta replicar el comportamiento biológico de la selección natural y la genética.

El algoritmo cuenta con una población inicial de datos que representan ciertos resultados (cromosomas) y que contienen bits (genes).

Estos pasan juntos a la fase de evaluación donde se le asignará un porcentaje en función de la aptitud. Los más aptos siguen y los demás no, igual que en la teoría de Charles Darwin.

Después de esto, los datos se cruzan o mutan y el proceso se repite hasta que se llega al resultado esperado o hasta que se para manualmente.

Regresión lineal

La regresión lineal es otra de las técnicas de minería de datos más utilizadas en un sector que no para de crecer debido a la transformación digital. En ella, se relacionan dos variables continuas, concretamente, las variables de predicción y de respuesta.

Hablamos de regresión lineal cuando existe solo una variable de predicción y de regresión múltiple cuando hay más de una. Sea lineal o múltiple, es una variable independiente mientras que la de respuesta depende de la anterior.

Redes bayesianas

Representan ciertas incertidumbres que están asociadas a nodos que reproducen variables aleatorias, las cuales se asocian a su vez a un condicionante externo. Para esto, existen los llamados “clasificadores bayesianos”, que organizan cada variable y consiguen plasmar los condicionantes de tal manera que sean muy sencillos de leer.

Son muy característicos en la medicina para diagnósticos graves. Se utilizan las redes bayesianas para descartar enfermedades rápidamente.

Herramientas y técnicas de data mining

Las 5 herramientas de data mining que recomendamos

Cada vez son más las herramientas de data mining que existen en el mercado. Cuál es la más adecuada dependerá de tu situación y tu modelo de negocio, pues no todas valen para lo mismo. Pese a la complejidad general del mundo de los datos, vamos a intentar explicar en qué te puedes fijar cuando las elijas como lo haría un data manager.

Las herramientas de minería de datos se podrían clasificar en dos grandes grupos. Las que sirven para almacenar datos y las que se utilizan para procesarlos. Además de esto, se podrían dividir en otros dos, dividiéndolas en herramientas big data o en tradicionales.

Es este subapartado no vamos a tener en cuenta las herramientas big data porque solo son necesarias para volúmenes de datos muy grandes y, por ende, para empresas de ese tamaño.

Primero veremos herramientas de data mining cuya función es almacenar datos, y luego, las que se dedican a procesarlos.

Herramientas de bases de datos relacionales (almacenamiento)

Aquí se encuentran algunas empresas como Oracle o Teradata. Son muy utilizadas cuando no se manejan grandes cantidades de datos y éstos se almacenen en tablas y son formados por filas y columnas.

Es muy frecuente encontrarse con la interfaz de Lenguaje de Consultas Estructuradas (SQL) para que se recopilen los datos de forma dinámica y puedan usarse en informes.

Son muy comunes en la mayoría de las empresas, a no ser que haya crecimientos exponenciales de datos muy elevados y las necesidades en el proceso de almacenamiento sean impredecibles. Esto último pasa en un porcentaje muy pequeño de los casos.

Este proceso también se puede dar desde formatos de ficheros, importando datos, por ejemplo, en CSV o TXT desde un Excel. Al igual que las bases de datos relacionales, sirven para almacenar datos.

Ahora pasamos a las herramientas de minería de datos que sirven principalmente para procesarlos.

Herramientas y técnicas de data mining

Rapid Miner

En esta herramienta de data mining se pueden tanto minar datos como realizar análisis predictivos de forma gratuita, por lo que es bastante útil para multitud de empresas.

De hecho, está ganando bastante cuota de mercado estos últimos años debido a la facilidad para crear chatbots, aunque se puede utilizar para innumerables proyectos.

Orange

Lo más destacable de Orange son los 100 widgets de los que dispone para personalizarla y realizar variables personalizadas.

Quizás sea la herramienta más fácil de usar por su sencillez y funcionalidad. Además, cuenta con largos tutoriales para que te muevas por la interfaz.

R y Python

Siempre ha habido debates sobre cuál escoger, así que hacemos una comparativa sencilla entre las dos.

  • R es un lenguaje estadístico que nació específicamente para el análisis de datos. Los que tienen perfiles técnicos o de negocios suelen preferir R por delante de Python. Esto es porque sus gráficas para la visualización de datos son muy intuitivas y se pueden crear informes y visualizaciones de datos de gran calidad.
  • Python: este lenguaje de programación no es tan específico en la parte estadística como R, pero ha ido introduciéndose en el mundo de data science con el tiempo. Normalmente, las personas que vienen de perfiles matemáticos o del mundo del desarrollo escogen esta herramienta de minería de datos antes que R.

 

Hemos visto las 8 técnicas de data mining más utilizadas y 5 herramientas muy conocidas dentro de un sector que no parece tener techo.

Si quieres saber más sobre este mundo, te animamos a que eches un vistazo a los 10 módulos de nuestro Máster en Business Intelligence y solicites información si te surge cualquier duda.



© Instituto de Innovación Digital de las Profesiones. Planeta Formación y Universidades. Todos los derechos reservados.
Por cualquier consulta, escríbanos a info@inesdi.com