Los 6 mejores algoritmos de inteligencia artificial (parte 2)

Terminamos con los algoritmos mas usados en machine learning

Apr 24, 2023

Hace dos semanas vimos juntos 3 algoritmos famosos de machine learning. Eran:

la regresión lineal,
la regresión logística
y las redes neuronales.

En el post había mucha mas información, como la diferencia entre regresión y clasificación. Hoy también vamos cargados de más datos muy útiles.

Vamos con los siguientes 3 modelos:

Si te gusta lo que lees, te dejo por aquí este botón, es gratis e inofensivo:

Los datos son mucho más que el futuro.

Doy gracias cada día por haber elegido esta profesión. Me parece el sector mas excitante en el que estar. Aquí puedes hacer crecer tu salario rápidamente si le echas horas de práctica, y esto no pasa en todos los campos.

Y lo mejor es que no hace falta hacer una carrera para dedicarte a los datos. Yo hice una carrera de 5 años que me ayudó bastante para la vida, pero no me preparó demasiado al mundo laboral.

Honestamente creo que con un master o un curso, tienes más que de sobra para empezar a trabajar, y ya desde ahí, ir creciendo día a día. Vamos, es lo que recomiendo yo a todo el que me pregunta.

Y GammaTech School tiene un curso de ánalisis de datos que cubre todo SQL y Python, incluyendo hasta cloud, y trabajando con bases de datos reales. Por este curso pongo la mano en el fuego, ya que yo doy clases en el. También hay un curso en ciberseguridad y otro en desarrollo web.

Para entrar en él hay que pasar una serie de entrevistas, pero si les decís que vais de mi parte (JaviDataScience) se os considerará como mejores canditatos.

Échale un vistazo! GammaTech.

Ahora sí, sigamos con los algoritmos más importantes:

4. Random Forest

Este es uno de los algoritmos más famosos.

El nombre no se eligió al azar. Forest es porque tomamos un conjunto de árboles de decisión. Cada árbol representa una serie de decisiones que se toman para llegar a una conclusión. Y esos árboles de decisión se entrenan con muestras aleatorias de los datos. Esta es la diferencia principal respecto al árbol de decisión.

Hay una analogía que me encanta para entender bien esto:

Quién decide mejor? El presidente, que puede ser el que más sabe de la empresa? O un comité de expertos, que no saben tanto como el presidente, pero si tienen un conocimiento más amplio sobre más temas?

Lo normal sería que ambos tomarían muy buenas decisiones siempre, pero el presidente, al ser solo una persona, es más propenso a tener un error. Así que, sería mas fiable fiarse del comité de expertos.

Pues esto es lo que pasa en el random forest.

Si has entendido esto, acabas de entender otro concepto de machine learning: el overfitting. De esta manera, estamos reduciendo el riesgo de sobreajuste del modelo.

Deja de pedir siempre lo mismo en el restaurante y prueba a descubrir de vez en cuando algo nuevo, que esa aleatoriedad está demostrada que te va a hacer más feliz.

5. Maquina de vector soporte.

Este es un algoritmo no tan conocido, pero no por ello deja de ser importante.

Es más conocido como SVM, por sus siglas en inglés.

La idea detrás de este modelo es encontrar el mejor "camino" que separa los diferentes grupos de datos en un espacio multidimensional.

Imagina que tienes dos grupos de datos que se superponen un poco, pero están mayormente separados en un plano.

El objetivo de SVM es encontrar la línea recta que mejor separa los dos grupos de datos.

Es parecido a la regresión lineal, pero realmente es más potente.

Este modelo es muy útil cuando se tienen muchos datos con muchas características, ya que puede encontrar una solución óptima incluso en espacios de alta dimensión.

Además, SVM también es capaz de trabajar con datos no lineales, utilizando lo que se llama "kernel trick", que transforma los datos en un espacio de mayor dimensión para que puedan ser separados linealmente.

Es cierto que este modelo se puede usar para regresión también, pero es mejor usarlo para la clasificación.

Y no todo puede ser bueno.

El modelo es muy sensible a los parámetros del modelo, es difícil de ajustar, no funciona bien con grandes datos y no es tan fácil de interpretar.

Ya sabes bastante de SVM!

Vayamos al último:

6. K-Means

Aquí saltamos a las técnicas de clustering.

Clustering no deja de ser la clasificación de datos en grupos (o clústeres).

Estas técnicas no siguen las reglas tradicionales de los demás modelos. Aquí no hay un numero que predecir. Aquí hay que encontrar grupos por similitud.

Es decir, que me digas si a esta persona le envío la publicidad de joven estudiante o de padre estresado.

Imagina que tienes un conjunto de datos y quieres agruparlos en diferentes categorías, pero no tienes ninguna etiqueta o información previa sobre los grupos. K-means puede ayudarte a encontrar los grupos de manera automática.

El modelo funciona de la siguiente manera: Primero, se especifica el número de grupos que se desea encontrar (llamado K).

A continuación, el algoritmo comienza a iterar, ajustando los centros de los grupos (representados por los llamados "centroides") para minimizar la distancia entre los puntos de datos y el centroide del grupo al que se asignaron.

Este proceso se repite hasta que la posición de los centroides ya no cambia mucho entre iteraciones o se alcanza un número máximo de iteraciones. En ese momento, los grupos finales se definen como los grupos de puntos de datos que tienen los centroides más cercanos.

El modelo de K-means es muy útil para explorar y clasificar grandes conjuntos de datos. A menudo se utiliza en la exploración de datos y análisis de mercado para segmentar a los clientes en diferentes grupos en función de sus características.

Y aquí acabas de aprender otro concepto de machine learning: el clustering.

Con todo lo que te he comentado en estos dos correos ya puedes hablar con un data scientist entendiendo lo que dice, que no es poco.

Te recomiendo practicar cada modelo, así lo entenderás todo al 100%.

Y por cierto, si les escribes a humberto@gammatech.school o a majo@gammatech.school , tendrás más posibilidades de entrar a GammaTech.

Espero que te haya gustado. No dudes en enviarme un mensaje contándome sobre ti, sobre qué haces, qué te gustaría leer o qué has comido hoy.

Si así ha sido, comparte mi newsletter con un amigo tuyo interesado en programación, data science, data engineering o el mundo empresarial.

Share JaviDataScience’s Substack

Nos leemos.

JaviDS

Sígueme en youtube para ver cosas guays: https://www.youtube.com/@javidatascience

JaviDataScience’s Substack