Supuestos para el tratamiento de valores perdidos (Missing Value)

Lo que hay saber para un optimo tratamiento o agrupación de datos.

Franco Mansilla Ibañez
4 min readMar 7, 2021
https://www.everypixel.com/image-17185349025401530277

¿Cómo deseamos imputar nuestros datos faltantes?

Cada día se apertura y se desarrolla nuevos métodos para que llevar más allá la Inteligencia Artificial (IA); no solamente utilizando métodos de ingeniería, robótica, diseño y todo lo que tenga que ver con construir un robot. También desarrollando nuevas técnicas que entreguen de mejor forma la inteligencia de estos sistemas inteligentes, del cual se encarga el Machine Learning (ML).

En estos tiempos no solamente empresas tecnológicas quieren desarrollar nuevos sistemas de inteligencia como nuevos productos o servicio para ofrecer en el mercado; de igual modo las empresas quieren apoyar la gestión y disminuir los riesgos en la gestión utilizando estos métodos estadísticos y computacionales avanzados. Hace un tiempo atrás, las empresas gestionaban mediante reglas de decisión en base a criterios expertos, de la cual aún se hace. Posteriormente, se dieron cuenta que la generación de los datos podría generar modelos estadísticos que podrían apoyar de mejor forma en la gestión, por lo que comenzó todo un ingeniería del dato (data engineer) logrando que los datos utilizados sean trazable a lo largo del tiempo. LLego un momento, por ahí en el 2012, en que los métodos de Machine Learning resurgieron. En esos años la industria utilizaba modelos estadísticos clásicos; de la cual no se quedaron fuera de la utilización de estos nuevos métodos para mejorar el poder predictivos de estos modelos clásicos. Obviamente, cumpliendo siempre el principio de parsimonia (explicar lo máximo posible con lo más simple).

Ahora bien, si se adentra en los métodos de Machine Learning, estos no solamente basta con una aplicación de algún algoritmo famoso y ya automatizado, realmente eso equivale un 20% en comparación de todo lo que se tiene hacer para llegar a la ejecución del propio algoritmo. Unas de las etapas en que más demora, en tiempo, es en la extracción, manipulación y procesamiento de los datos, sin mencionar el hecho posterior de implementar el modelo a los motores de la empresa.

El 99.9% (periódico) de los datos reales viene de forma desbalanceada, es decir, variables que por algún motivo no tienen balanceada la igual cantidad de datos entre variables, por lo que eso imposibilita la ejecución directa de algún modelo algoritmo; siendo esta problemática independiente de la ejecución por algún algoritmo de Machine Learning o un modelo de estadística clásica.

Es por eso el motivo de esta publicación: ¿De qué forma podemos rellenar estas celdas vacías?, ¿Qué supuestos tenemos cumplir?, ¿Qué tipo de método aplicar?.

En la actualidad existen unas variedades de técnicas de imputación, desde las más simples hasta las más complejas de programar. Sin embargo, no hay ninguna que sea mejor que la otra. Más bien es saber cuál es la que mejor responde a los supuestos de imputar valores faltantes.

Cuando se trabaja sobre el tratamiento de los datos, por valores perdidos, existen dos formas de tratamientos de datos faltantes

1. Imputación.

2. Por agrupación.

En ambos tratamientos se tienen que cumplir ciertos supuestos, como por ejemplo:

A. No modificar la distribución de la variable: La variable a imputar se comporta en función a una distribución de probabilidad conocida, fácilmente comprobable con un ajuste de distribución asociado con un nivel de significancia y p-value. Lo ideal que el comportamiento de variable después de la imputación se comporte de la misma forma antes.

B. Introducir la menor cantidad de ruido: En parte este supuesto viene de la mano del anterior, es decir, si generas el menor ruido posible genera la posibilidad de no cambiar el comportamiento. ¿Pero de qué forma se podrá evaluar si estamos entregando el menor ruido mediante la técnica que se escogió?.

C. Variables con menos del 10% de valores perdidos: Hay que tener claro que las variables entregan información representado en datos. Por lo tanto, si se trata de imputar valores de variables con altos niveles de valores perdidos se estará “ensuciando” la posible información que podría entregar esa variable… (es lógico); aunque se esté utilizando una técnica, per se, que genera la menor cantidad de ruido posible.

Ahora bien, en base al supuesto C, hay que saber diferenciar el valor perdido, es decir, realmente es un valor perdido porque no se logró cuantificar el dato para esa observación, o realmente ese valor perdido representa una información. Para saber de qué forma clasificar el valor perdido dependerá únicamente y exclusivamente del significado de la variable que se requiera imputar.

Las técnicas existentes, como mencione anteriormente, pueden ser de nivel básico a nivel avanzado computacionalmente, pero no hay ninguna que sea mejor que la otra transversalmente de las veces. Esto dependerá de la población objetivos, de los datos, de la técnica a modelar, etc. Es por eso que se mencionó una serie de supuestos bases para poder desarrollar una técnica adecuada que permita la imputación o agrupación de datos faltantes. Por lo mismo, respondiendo a la pregunta del supuesto B, realmente no existe una forma para evaluar con exactitud, es por eso que se necesitan tener estos supuestos para poder imputar o agrupar introduciendo a los datos el menor ruido posible.

Por último, ¿Realmente se necesita introducir el menor ruido posible, si al fin y al cabo la masividad de los datos se encarga de diluir o compensar el ruido que genere la imputación?. Una respuesta para esto, es la ESTABILIDAD!.

Franco Mansilla Ibañez
https://www.linkedin.com/in/francomansilla/

#missingvalue #supuestos #tratamiento #machinelearning

--

--