8 algoritmos de Aprendizaje Automático Data Mining más usados

 Por Juan Pabo Cerón 

Cada vez es más frecuente escuchar términos como Machine Learning o Data Mining en los nuevos productos que vemos cada día. Muchas empresas desde hace tiempo hacen uso de estas tecnologías para poder procesar datos más rápido o poder realizar modelos estadísticos y proyecciones futuras de datos.

Por ejemplo Facebook, utiliza éste tipo de algoritmos, para analizar todo el comportamiento de un usuario mientras navega en la plataforma, a qué le da Like, cuánto tiempo tarda, qué tipos de noticias lee, etc. Todos éstos datos son recogidos y procesados a través de miles de fórmulas matemáticas, para poder determinar los intereses y preferencias de cada usuario y así determinar incluso el tipo de publicidad que se le mostrará.

Otro ejemplo es Shazam, una aplicación a la que solo le basta escuchar un fragmento de una canción para poder determinar de cual se trata. Shazam no necesita conocer todas las canciones del mundo, sino sería una base de datos inmensa. Solo le basta con escuchar unos segundos, para poder saber que claves musicales están sonando y con base a eso, empieza a pasar esos datos a través de los algoritmos y gracias a la magia de estas fórmulas, Shazam nos dice que canción está sonando.

Tipos de Algoritmos | Aprendizaje Automático y Data Mining

Ahora bien, de este tipo de algoritmos hay miles y las variantes son millones, por lo que no los quiero aburrir con miles de datos matemáticos y solo hablaremos de los 8 más usados en el mundo:

  1. Regresión Lineal

Es un modelo matemático usado para aproximar la relación de dependencia entre una variable dependiente Y, las variables independientes Xi y término aleatorio E. ¿Qué?

De una forma sencilla, por ejemplo, si definimos una estatura promedio para los hombres en México de 1.80m, podemos decir que los hijos de los padres que tienen una estatura superior al promedio, también pueden medir 1.80 o más. De igual manera, si tienes un padre bajo, lo más probable es que también los hijos sean de estatura baja, o en el mejor de los casos “regresar” al promedio, de ahí el término Regresión Lineal.

  1. Regresión Logística

Con un análisis de regresión es posible poder predecir el resultado de una variable categórica en función de variables independientes. Éste tipo de algoritmo es bastante usado en Ciencias Médicas y Sociales, ya que es posible modelar la probabilidad de un evento en función de otros factores.

Por ejemplo, para calcular la probabilidad de que una persona sufra hipertensión, se agregan y dan valor a los demás factores, como cuanta sal come, cuanta grasa consume, cuanto ejercicio hace, etc. Podemos decir que mientras más factores negativos tengas, más probabilidades tienes que te pase algo.

  1. Máquinas de soporte Vectorial

Desarrollado por AT&T, es un algoritmo de aprendizaje supervisado, el cual resuelve problemas de clasificación y regresión.

Imaginemos que tenemos 2 puntos en el espacio, el cual tiene cada uno su categoría, si añadimos un nuevo punto al espacio, el algoritmo es capaz de saber a qué categoría pertenece. Puede que estos puntos pertenezcan a ambas categorías o desarrolla una nueva categoría, es decir, estamos hablando de poder añadir una cantidad infinita de puntos en hiperplanos mientras sea posible.

  1. K-Means

Es un método de agrupamiento, que tiene como objetivo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano. Es el método más utilizado en Data Mining.

Este ejemplo es un poco más complejo, espero no nos perdamos. Empecemos por tener 3 piezas de lego de 3 diferentes colores, rojo, azul y verde. Tenemos en total 9 piezas (K=9)

Y además tenemos 21 piezas negras, para tener en total 30 piezas, pero solamente nos interesa separar los 3 colores del resto de las piezas, por lo que el algoritmo además del color negro, identifica que tenemos otros 3 colores de piezas y son modelados en algo conocido como diagrama de Voronoi.

El algoritmo empieza a trabajar y a calcular, entonces se separan las piezas de colores y se juntan las que son parecidas, en un proceso conocido como convergencia, y así es como se separa los colores de las piezas negras.

Ahora solo cambien los legos de colores por información que quieran obtener, como son Nombres de personas, mails, etc. Y busquen entre toda la información que podemos tener (legos de color negro) y así es como se hace la magia del Data mining con K-Means.

En la siguiente entrega hablaremos de los otros 4 tipos de algoritmos de Aprendizaje Automático o Data Mining más usados.

Descarga el libro electrónico  «Introducción a la inteligencia artificial para profesionales de la seguridad» abordaremos las técnicas de aprendizaje automático en situaciones prácticas para mejorar tu capacidad de prosperar en un mundo impulsado por los datos.

  •  ¿Qué te pareció este artículo? Cuéntanoslo en los comentarios.

Síguienos en nuestras redes sociales