Aprendizaje Automático Supervisado en R : tidymodels

1ª Edición (2024)

Presentación

La demanda de analistas de datos dentro de los ámbitos tecnológico y científico está creciendo rápidamente. En estos momentos, la toma de decisiones en el entorno empresarial, académico y de las administraciones públicas se basa en información generada a partir de un volumen creciente de datos. El término Big Data es hoy uno de los más usados en el mundo tecnológico. Este curso, ayudará a los alumnos a desarrollar las capacidades básicas necesarias para la Ciencia de Datos, como por ejemplo, programación en R, búsqueda y descarga de datos en internet, procesado y limpieza de datos, visualización e interpretación de resultados.

El curso se plantea como una introducción al análisis de datos de una forma práctica mediante el uso del software R, de forma que al finalizar, se pretende que el alumno sea capaz de: analizar y comprender la estructura de los datos con los que se trabaja, su observación, visualización y representación.

Nomenclatura

En las aplicaciones basadas en ML quereemos escribir un algoritmo que use una serie de variables para predecir un resultado. Usamos la siguiente nomenclatura:

  • resultado ('outcome') : aquello que queremos predecir
  • variables ('features') : aquello que usamos para hacer la prediccion

Las variables aparecen tambien en bibliografia como 'predictors' o 'covariates'.

La aproximacion de ML (supervisada) se basa en entrenar un algoritmo usando datos de los cuales conocemos el resultado para aplicar posteriormente el algoritmo y hacer predicciones cuando no conocemos el resultado.

Tipos

Los problemas en Supervised ML se dividen en funcion si el resultado es categorico o continuo. En los problemas categoricos, el resultado puede ser cualquiera de las clases presentes en los datos. En este caso nos referimos al ML model como 'clasificacion'. Cuando el resultado es continuo, la prediccion no sera correcta/incorrecta sino que buscamos un resultado que se acerque al valor 'real' lo maximo posible, de forma que determinaos el error definido como la diferencia entre la prediccion y el valor real. En este caso nos referimos al ML model como 'regresion'.

Webs

Clasification & Regression metrics : https://yardstick.tidymodels.org/reference/

Recipes & step functions : https://recipes.tidymodels.org/reference/index.html

Ordering pre-processing steps : https://recipes.tidymodels.org/articles/Ordering.html