8 algoritmos de Aprendizaje Automático Data Mining más usados, parte 2

Por Juan Pablo Cerón 

En el artículo anterior, hablábamos de los primeros 4 tipos de algoritmos de Aprendizaje Automático o Data Mining más utilizados actualmente, en esta entrega revisaremos los siguientes 4.

Conjunto de Árboles

Existen múltiples ejemplos de este algoritmo, pero solo hablaré del más común, que es Selvas Aleatorias.

Es una combinación de árboles predictores, en la que cada árbol depende de los valores de un vector aleatorio probado independientemente y con la misma distribución para cada uno de estos.

El Random Forest es de los algoritmos de aprendizaje más certero que existe y puede trabajar con una gran cantidad de datos.

Ejemplo, tenemos 200 puntos aleatorios, 100 de color verde y 100 de color rojo. En términos de plano cartesiano, los puntos verdes usan un centroide para ubicarse en (0,1) y los puntos rojos en un centroide (1,0). Entonces hacemos 50 árboles entrenados para poder determinar la pureza de un color. Los 50 árboles son capaces de determinar qué color es verde y que color es rojo y separarlos en un solo plano, quedando dividido en 2, en rojo y en verde.

Factorización de Matriz

Es descomponer una matriz como producto de 2 o más matrices de forma canónica. Este algoritmo sirve para resolver problemas de ecuaciones lineales y cálculo de determinantes.

Existen múltiples variantes, como es Factorización LU, Cholesky, Gauss-Jordan, etc.

Básicamente es descomponer una gran cantidad de datos en grupos pequeños para poderlos clasificar y procesar de forma más rápida.

Clasificador Naive Bayes

Otro gran exponente de la Teoría de la probabilidad y Data Mining. En términos simples, Bayes Naive asume la que presencia o ausencia de una característica no está relacionada con la presencia o ausencia de cualquier otra característica.

Ejemplo, una fruta puede ser considerada una manzana, si es roja, redonda y de 7cm. Bayes Naive considera que cada una de esas características contribuye de manera independiente a la probabilidad que esta fruta sea una manzana, independientemente de la presencia o ausencia de las otras características.

Redes Neuronales

Sin duda quizá el algoritmo más escuchado recientemente, es el que tiene más variantes.  Una red neuronal es un grupo interconectado de nodos, simulando una red del cerebro. Esto nos permite resolver problemas de la misma manera que el cerebro humano.

Tenemos millones de neuronas con billones de conexiones entre ellos, lo que cada nodo puede tener infinidad de conexiones hacia los demás nodos. Algunas de las variables son:

a) Aprendizaje supervisado: Usado en sistemas que reconocen el habla o los gestos, ya que dependen de una entidad externa que les enseñe a las máquinas los patrones.

b) Aprendizaje no supervisado: Esto es usado para estimación de problemas, distribución estadística y filtrado de datos.

c) Aprendizaje por refuerzo: Se le otorga al sistema solo cierta cantidad de datos, para que pueda el sistema poder conocer los demás a corto o largo plazo, si el sistema se desvía de los datos obtenidos, se le otorgan más datos para reducir las falsas probabilidades.

Así que a la próxima que les hablen de Data Mining o Machine Learning, ya sabrán de toda la magia que sucede detrás y así podemos obtener nuestra canción de Shazam en menos de 2 segundos.

Descarga el libro electrónico  «La Revolución de la Inteligencia Artificial» en español 

  •  ¿Qué te pareció este artículo? Cuéntanoslo en los comentarios.

Síguienos en nuestras redes sociales