Dataset Desbalanceado: Prediciendo eventos muy poco frecuentes

Editor — Tue, 17 Mar 2020 10:24:01 +0000

Sucesos infrecuentes de alto impacto en el negocio

En nuestros procesos de negocio gestionamos eventos que ocurren con relativa poca frecuencia pero tienen un gran impacto en nuestros resultados.

Algunos de estos eventos raros son favorables:

Cerrar una venta cuantiosa, pero difícil
Identificar un cliente que nos trae otro
Recuperar un cliente que va a abandonar

Y otros sucesos son muy desfavorables:

Un error en un proceso
Una máquina que deja de funcionar correctamente
Una enfermedad rara
La materialización de un impago u otro tipo de riesgo
La ocurrencia de un fraude que nos perjudica

Surge la necesidad de identificar estos sucesos para potenciar los favorables y para prevenir, corregir o mitigar los desfavorables.

Identificando los sucesos con la ciencia de datos: modelos predictivos

La ciencia de datos o data science nos ayuda a identificar con más precisión dónde, cuándo y porqué ocurren esos sucesos vitales para el éxito de nuestro negocio y alcanzar los objetivos. Utilizamos algoritmos de inteligencia artificial o modelos predictivos que transforman el conocimiento acumulado en las bases de datos en estas reglas que identifican esos sucesos.

Entrenando modelos de eventos raros

Ocurre a veces, que hay que identificar estos sucesos relativamente escasos de una gran cantidad de situaciones en las que no ocurre nada destacable, como en los ejemplos que mencionábamos antes: venta exitosa / no venta; error / funcionamiento normal; fraude / transacción normal. Vemos que una de las dos categorías opuestas es mucho más frecuente que la otra.

Los modelos predictivos tienden a aprender mejor las situaciones que más se les muestran. Dicho de otra forma, si no hacemos nada, tendremos problemas para predecir las situaciones más infrecuentes.

Estas bases de datos con eventos muy raros, técnicamente, se llaman conjuntos de datos o dataset desblanceados.

Técnicamente, ¿qué es un Dataset desbalanceado?

Es un conjunto de datos en el que el número de observaciones no es el mismo para las distintas clases que deseamos distinguir en el dataset. Algunas de las clases son muy frecuentes y otras muy raras.

¿Qué ocurre si trabajamos con este tipo de Dataset?

Si queremos realizar de una forma correcta la clasificación de esa clase minoritaria (por ejemplo, personas que van a realizar fraude) debemos tener unos datos con un número de observaciones similar para cada clase. De no ser así los algoritmos tienden a favorecer la clase con mayor proporción de observaciones pudiendo obtener un modelo que no predice de forma correcta la clase minoritaria.

En este post, trabajaremos con un dataset en el cual encontramos dos clases:

Clase 0: No fraude.
Clase 1: Fraude.

Análisis exploratorio de los datos

Nuestro conjunto de datos está desbalanceado, tenemos más registros pertenecientes a la clase 0 (no fraude) y prácticamente ninguno en la clase 1 (fraude) que es la que queremos predecir. El modelo predictivo que montemos sobre estos datos tendrá dificultades para identificar que caracteriza a la clase 1 de fraude.

¿Qué podemos hacer?

En primer lugar, intentaremos conseguir más datos. En ocasiones, conseguir un mayor número de registros no es posible. Para resolver el problema disponemos de varias técnicas:

Undersampling: Consiste en reducir el número de casos de la categoría más abundante con el fin de obtener un conjunto de datos balanceado.

Para realizar esta técnica en nuestros datos, proponemos dos maneras (de ambas formas obtenemos resultados similares):

1.1 Utilizando el método resample de la librería sklearn:

1.2 Utilizando el método RandomUnderSampler de la librería imblearn:

En ambos casos se obtiene un nuevo dataset balanceado cuyo diagrama de barras seria:

2. Oversampling: Consiste en generar datos sintéticos con unas características parecidas a las observaciones de la clase minoritaria.

Para realizar esta técnica proponemos dos maneras (de ambas formas obtenemos resultados similares):

2.1 Utilizando el método Smote (Synthetic Minority Over-sampling) de la librería imblearn:

2.2 Utilizando el método RandomOversample de la librería imblearn:

El nuevo dataset balanceado obtenido aplicando las dos fórmulas anteriores, presenta el siguiente gráfico:

Nota: Se recomienda aplicar estas familias de técnicas solo en los datos de entrenamiento y no sobre los datos de test.

De esta forma lograremos modelos que no pasen por alto esas clases menos frecuentes pero tan valiosas

Desde Data Equity esperamos que la información de este artículo sea de utilidad para tratar con dataset desbalanceados. No dudéis en poneros en contacto con nosotros.

La entrada Dataset Desbalanceado: Prediciendo eventos muy poco frecuentes apareció primero en Data Equity.

GPU vs Cloud en procesos Machine Learning (ML)

Privilegiado — Wed, 25 Sep 2019 11:15:01 +0000

El reciente auge que ha experimentado el sector del Data Science ha impulsado a las organizaciones a reorientar sus estrategias de negocio mediante la transformación digital, aspirando a convertirse en “Data driven companies”. De una cantidad ingente de datos se derivan tanto una mayor facilidad para identificar oportunidades de negocio, valorar su potencial, entender sus claves (“insights”). Son algunos ejemplos de cómo crear valor con los datos.

Por lo tanto, es necesario utilizar máquinas cada vez más potentes. Será necesario contar con una buena CPU, a ser posible con un buen número de cores, de la misma manera, y en cuanto a la memoria RAM, es usual que los Data Scientists requieran una RAM de 64 o 128GB de memoria, aunque en ocasiones esto tampoco es suficiente.

Por otro lado, en técnicas tanto de Machine Learning como de Deep Learning, ha cobrado gran importancia el uso de las GPU, unidades de procesamiento que combinan capacidad de cálculo y memoria para acelerar los procesos de cálculo. Por ejemplo, dentro de los paquetes de Python, las librerías XGBoost o Keras incluyen procesos optimizados para la aceleración de GPU.

Debido a este gran número de requerimientos que necesitan las herramientas de un Data Scientist, Nvidia ha lanzado recientemente una máquina que reúne todo el hardware y software necesario para el Data Scientist. Algunas de las técnicas soportadas son:

Machine Learning

scikit-learn
pandas
numpy
scipy
Xgboost

Deep Learning

TensorFlow
Keras
NLTK

No obstante, también se puede optar por la opción de los entornos cloud, ahora bien, ¿Qué es un Entorno Cloud? “Significa almacenar y acceder a datos y programas a través de Internet en lugar de hacerlo directamente al disco duro de nuestro ordenador.” ¿Qué combinación es mejor? No se puede establecer un ranking de mejor o peor, lo primero que se debe establecer es la siguiente pregunta; ¿Utilizaré esta herramienta con mucha frecuencia o no?, ¿Necesitaré escalabilidad? Una vez determinadas estas cuestiones es más fácil decantarse con una u otra opción.

La entrada GPU vs Cloud en procesos Machine Learning (ML) apareció primero en Data Equity.

Data Scientist | Data Equity