Dataset Desbalanceado: Prediciendo eventos muy poco frecuentes

17 Mar Dataset Desbalanceado: Prediciendo eventos muy poco frecuentes

Posted at 11:24h in Análisis de datos, Business, Datos, Machine Learning, python, tratamiento datos by Editor

Sucesos infrecuentes de alto impacto en el negocio

En nuestros procesos de negocio gestionamos eventos que ocurren con relativa poca frecuencia pero tienen un gran impacto en nuestros resultados.

Algunos de estos eventos raros son favorables:

Cerrar una venta cuantiosa, pero difícil
Identificar un cliente que nos trae otro
Recuperar un cliente que va a abandonar

Y otros sucesos son muy desfavorables:

Un error en un proceso
Una máquina que deja de funcionar correctamente
Una enfermedad rara
La materialización de un impago u otro tipo de riesgo
La ocurrencia de un fraude que nos perjudica

Surge la necesidad de identificar estos sucesos para potenciar los favorables y para prevenir, corregir o mitigar los desfavorables.

Identificando los sucesos con la ciencia de datos: modelos predictivos

La ciencia de datos o data science nos ayuda a identificar con más precisión dónde, cuándo y porqué ocurren esos sucesos vitales para el éxito de nuestro negocio y alcanzar los objetivos. Utilizamos algoritmos de inteligencia artificial o modelos predictivos que transforman el conocimiento acumulado en las bases de datos en estas reglas que identifican esos sucesos.

Entrenando modelos de eventos raros

Ocurre a veces, que hay que identificar estos sucesos relativamente escasos de una gran cantidad de situaciones en las que no ocurre nada destacable, como en los ejemplos que mencionábamos antes: venta exitosa / no venta; error / funcionamiento normal; fraude / transacción normal. Vemos que una de las dos categorías opuestas es mucho más frecuente que la otra.

Los modelos predictivos tienden a aprender mejor las situaciones que más se les muestran. Dicho de otra forma, si no hacemos nada, tendremos problemas para predecir las situaciones más infrecuentes.

Estas bases de datos con eventos muy raros, técnicamente, se llaman conjuntos de datos o dataset desblanceados.

Técnicamente, ¿qué es un Dataset desbalanceado?

Es un conjunto de datos en el que el número de observaciones no es el mismo para las distintas clases que deseamos distinguir en el dataset. Algunas de las clases son muy frecuentes y otras muy raras.

¿Qué ocurre si trabajamos con este tipo de Dataset?

Si queremos realizar de una forma correcta la clasificación de esa clase minoritaria (por ejemplo, personas que van a realizar fraude) debemos tener unos datos con un número de observaciones similar para cada clase. De no ser así los algoritmos tienden a favorecer la clase con mayor proporción de observaciones pudiendo obtener un modelo que no predice de forma correcta la clase minoritaria.

En este post, trabajaremos con un dataset en el cual encontramos dos clases:

Clase 0: No fraude.
Clase 1: Fraude.

Análisis exploratorio de los datos

Nuestro conjunto de datos está desbalanceado, tenemos más registros pertenecientes a la clase 0 (no fraude) y prácticamente ninguno en la clase 1 (fraude) que es la que queremos predecir. El modelo predictivo que montemos sobre estos datos tendrá dificultades para identificar que caracteriza a la clase 1 de fraude.

¿Qué podemos hacer?

En primer lugar, intentaremos conseguir más datos. En ocasiones, conseguir un mayor número de registros no es posible. Para resolver el problema disponemos de varias técnicas:

Undersampling: Consiste en reducir el número de casos de la categoría más abundante con el fin de obtener un conjunto de datos balanceado.

Para realizar esta técnica en nuestros datos, proponemos dos maneras (de ambas formas obtenemos resultados similares):

1.1 Utilizando el método resample de la librería sklearn:

1.2 Utilizando el método RandomUnderSampler de la librería imblearn:

En ambos casos se obtiene un nuevo dataset balanceado cuyo diagrama de barras seria:

2. Oversampling: Consiste en generar datos sintéticos con unas características parecidas a las observaciones de la clase minoritaria.

Para realizar esta técnica proponemos dos maneras (de ambas formas obtenemos resultados similares):

2.1 Utilizando el método Smote (Synthetic Minority Over-sampling) de la librería imblearn:

2.2 Utilizando el método RandomOversample de la librería imblearn:

El nuevo dataset balanceado obtenido aplicando las dos fórmulas anteriores, presenta el siguiente gráfico:

Nota: Se recomienda aplicar estas familias de técnicas solo en los datos de entrenamiento y no sobre los datos de test.

De esta forma lograremos modelos que no pasen por alto esas clases menos frecuentes pero tan valiosas

Desde Data Equity esperamos que la información de este artículo sea de utilidad para tratar con dataset desbalanceados. No dudéis en poneros en contacto con nosotros.

Tags:

Análisis de datos, Data Scientist, dataset desbalanceado, manchine learning, tratamiento de datos

Print page

3 Likes

Cookies	Duración	Finalidad	Titular
PHPSESSID	De sesión	Mantener la sesión del usuario	Propia
CONSENT	Permanente	Cookie técnica para controlar la aceptación de cookies	Google
moove_gdpr_popup	De sesión	Utilizada para guardar las preferencias sobre cookies	Propia

Nombre de la cookie	Duración	Descripción
`_ga`	2 años	Se usa para distinguir a los usuarios.
`_gid`	24 horas	Se usa para distinguir a los usuarios.
`_gat`	1 minuto	Se usa para limitar el porcentaje de solicitudes. Si se ha implementado Google Analytics mediante Google Tag Manager, esta cookie se llamará `_dc_gtm_<property-id>`.

Dataset Desbalanceado: Prediciendo eventos muy poco frecuentes

17 Mar Dataset Desbalanceado: Prediciendo eventos muy poco frecuentes

Sucesos infrecuentes de alto impacto en el negocio

Identificando los sucesos con la ciencia de datos: modelos predictivos

Entrenando modelos de eventos raros

Técnicamente, ¿qué es un Dataset desbalanceado?

Análisis exploratorio de los datos

¿Qué podemos hacer?

Tags:

GPU vs Cloud en procesos Machine Learning (ML)

Análisis de datos y gestión de clientes

Los beneficios de los Dashboard o cuadros de mando

Dataset Desbalanceado: Prediciendo eventos muy poco frecuentes

¿Dónde estamos?

Links de utilidad

¿Te llamamos?

¿Qué empresa trata tus datos?	DATA EQUITY S.L.
¿Por qué tratamos los datos que te pedimos?	Tratamos tus datos para poder prestarte los servicios de DATA EQUITY y enviarte información sobre nuestros productos y servicios, conforme a las finalidades de tratamiento que hayas aceptado + info
¿Cuál es la legitimación para este tratamiento de tus datos?	Estos datos son necesarios para llevar a cabo la prestación de los servicios que se hayan solicitado a través del Sitio Web, y del consentimiento que nos hayas otorgado conforme a nuestra Política de Privacidad + info
¿Se van a hacer cesiones o transferencias con tus datos?	No, sus datos podrán no se cederán a terceras empresas por parte de DATA EQUITY + info
¿Cuáles son mis derechos?	El interesado tiene derecho a ejercitar su derecho de: - Acceso. - Rectificación. - Supresión. - Oposición. - Portabilidad de los Datos. - Limitación del Tratamiento. - No ser objeto de decisiones automatizadas individualizadas + info
¿Se utilizan tus datos para hacer perfilados o segmentaciones?	DATA EQUITY podrá realizar técnicas de profiling con tus datos. + info
¿Tienes dudas?	Tanto si tienes alguna duda o sugerencia, como si quieres darte de baja, ponte en contacto con nosotros enviando un email a la siguiente dirección: lopd-gdpr@dataequity.es o a través del teléfono 910 68 62 42 + info