Entropía: Método de Tratamiento Valores Perdido (Missing Value)
Método para el tratamiento de valores perdidos considerando un target dicotómico o categórico.
“En dios confiamos. Los demás traen datos”, Edward Deming.
Cuando se habla de entropía se abre en la mente que viene de los fundamentos de la termodinámica señalando la magnitud que indica el grado de desorden molecular de un sistema. Este concepto no solo se encuentra actualmente involucrado en esta área, del mismo modo se encuentran en el área de informática: medida de incertidumbre existente ante un conjunto de mensaje. De todas las definiciones del concepto de entropía recae en un punto de principal: caos.
En la actualidad, la entropía es muy utilizado en la ciencia de los datos como un criterio para el desarrollo de los algoritmos de machine learning: conocidos como Ensemble Learning (ensamble de árboles de decisión), del cual se encuentran las familia de los Boosting, Bagging, Pasting y Stacking. Usualmente, este criterio es usado por los algoritmos hijos de los Boosting y Bagging para establecer los cortes de la creación de las ramas del árbol en conjunto a las funciones de costo. Por otro lado, se ocupa en las diferentes arquitecturas del Deep Learning con el mismo propósito de las familias de los Ensamble Learning.
Lo divertido de este método es su aplicación transversal a cualquier área, solo hay que saber cómo alinearlo para sacar el máximo provecho del valor entregado por la entropía. Uno de los propósitos de esta publicación es mostrar en como el concepto se podría alinear para el tratamiento de valores perdidos (Missing Value); evaluando una proporción de caos para cada dato que compone la variable interés a tratar.
Lo interesante de aplicar esta medida a target discretos o categóricos es el propósito de la utilización de estos tipos de target para el modelamiento: Clasificación. Es importante para los modelos de clasificación tener variables que permitan discriminar de mejor manera las clases del target, es decir, distribuciones normales bivariados (por clase) visiblemente separables. Al tener un variable ordenada mediante un concepto de caos podría el algoritmo entender de mejor forma la información entregada por cada una de las variables, sin la necesidad de hacer tratamientos de transformación.
La entropía, en términos sencillos, es una medida de desorden desarrollada por Willard Gibbs en base a la formulación de Boltzmann y Planck 1872–1875, representada:
El término es conocido como la proporción del elemento dada la clase i, k es conocido como la categoría a calcular, y la clase hace referencia al target bajo estudio que se define como una categoría o dicotomía.
El tipo de información que se tratara de calcular, será: variables continuas, variables categóricas continuas, variables categóricos, y variables dicotómicas.
Por ejemplo,
Toda base de datos estructura se encuentra como la Tabla 1. Es decir, tiene un variable de interés o no, dependiendo del tipo de aprendizaje que uno desea aplicar; para este caso es un target dicotómico. Se encuentran variable dicotómicas, categóricas, categorías continuas, y continuas. Las categóricas continuas son consideras variable con un numero de categorías finitas y prolongado.
Cada una de la variable es un almacenador etiquetado de datos que debe ser tratado de forma única (Leer articulo Supuestos para el tratamiento de valores perdidos), la gran mayoría de veces los tratamientos son univariados, es decir, que solo considera los datos de esa variable para imputar los valores perdidos. En otras ocasiones, se considera otra variable, como el target para imputar o agrupar ese valor perdido. La pregunta es: ¿en cómo considerar el target para el tratamiento?; para algunas ocasiones utilizan una agrupación y otras una estimación.
Para el caso de aplicar la ecuación 1 (entropía), se utilizara el target y la variable a tratar (en singular), utilizando un método de agrupamiento, para así obtener un valor, del cual ese valor es sinónimo de caos.
Variable Dicotómica
Las variables dicotómica es análogo a una variable categórica pero acotado en dos categorías: [0,1]; [3;2]; [#valor1,#valor2]. La gran mayoría de estos valores representan alguna características (cuantitativa) que al momento de recodificar queda con valores arbitrarios: [casado, no casado] = [0, 1] o [2,3].
Ahora bien, cada categoría o valor de la variable dicotómica puede represente una proporción caótica en función a las clases del target.
Calculemos los valores de entropía para cada categoría de variable dicotómica, por ejemplo
Considerando la Tabla 2 como la tabla de resumen para calcular la proporción de caos por cada categoría. En base a la ecuación 1, cada K viene asociado a la categoría agrupar, y cada i representa la clase del target (para este caso es un target [0,1]).
Por lo tanto, cada categoría k tendrá asociado su proporción de coas, entre mayor sea mayor caos tendrá, entre menor proporción tendrá menor caos considerándolo una categoría pura. Una categoría pura se podrá conocer como una categoría ideal para discriminar entre las clases del target.
La columna que representa (“imputación”) viene asociado a los cálculos de las ecuaciones anteriores.
Variable Categórica
Cuando se trabaja con datos de estructura categórica hay que tener claro las diferencias entre una categoría con un nivel acotado de categorías, y una categorías finitas y prolongada (varias categorías). Esta ultima la denomino variables categorías de carácter continuo. Es por eso, que para la agrupación mediante la ecuación 1, hay que separar la definición utilizando en un criterio experto o estadístico; las variables propiamente categóricas y las categóricas de carácter continuo.
El criterio experto es el que define de forma arbitrario, negocio o “expertis ”un corte para diferenciarlas, por ejemplo, establecer un corte de 50 categorías. Por otro lado, existe el criterio estadístico la que permite que los datos definan cual seria mejor criterio mediante un prueba: chi-cuadrado, regresión evaluando medidas de bondad de ajuste, pruebas de hipótesis, etc.
La tabla 3 representa cual serán las agrupaciones y la proporción caótica para cada una de las categorías. Estos valores vienen ser calculados por:
Variable Continúas
Las características que entrar en esta sección pueden ser variable que son propiamente continuas, y categorías que son de carácter continuo. Ahora bien, estas variables no son propiamente una categoría por lo tanto hay que transformarlas a categorías, es decir, establecer puntos de cortes siendo esos puntos cortes las categorías para establecer su proporción de caos.
La forma de establecer puntos de cortes pueden ser varias, pero las que se utilizan son: medidas de localización y/o pruebas de hipótesis. Si se combinan estas medidas los puntos de cortes quedarían mucho más robusto. Otra forma, es establecer diferentes puntos de cortes y evaluarlo con medidas de bondad de ajuste.
Para este ejemplo de la base de datos se estableció una mediana, quedaría:
Al aplicar la mediana sobre los valores observables de la variable estos se podrían separar en dos categorías: bajo el valor de la mediana y sobre el valor de la mediana.
La tabla 4se calculó:
Como se mencione anteriormente, no necesita establecer un criterio experto para seleccionar el punto de corte, también se podría realizar un proceso iterativo de regresión, con diferentes puntos de corte, para que las medidas de evaluación seleccione cual sería el mejor punto de corte.
Base final
Reemplazando cada uno de las proporciones caóticas para cada categoría, quedaría la siguiente base de datos para comenzar los procesos de modelamiento de datos.
Algunas consideraciones y Resumen
1. Cuando se habla de agrupación se refiere en algunas ocasiones ciertas categorías que se podrían agrupar, y formar una proporción de coas en función esos dos categorías o más categorías agrupadas. Incluso, lo valores perdidos se agrupan con otras categorías que son propiamente valores. Ahora bien, si quieres observar la proporción de coas de una categoría bastaría hacerlo solo con esa categoría.
a. La agrupación de categorías se pueden realizar mediante pruebas estadísticas como chi-cuadrado, o comparar las proporciones de las clases entre categorías; si se parecen en magnitud, y es estadísticamente significativo se podrían juntar.
2. Para aplicar la técnica de imputación se debe diferenciar: dicotómica, categoría, categórica continua y continuas.
3. Para aplicar la técnica por entropía se tiene que establecer: el punto de corte para diferenciar las categóricas y las categóricas continuas, y cuantil para la variable continua.
4. Los criterios del punto (3) se pueden realizar de dos forma: criterio experto o un proceso iterativo de pruebas de regresión y que la bondad de ajuste te arroje cuales son los criterios que maximicen esa(s) medida(s) de evaluación.
Un abrazo, Franco.
https://www.linkedin.com/in/francomansilla/
Nota 1: Elaboración propia y derechos reservados.
Nota 2: Código elaborado en Stata CORP, prontamente publicado SSC.
Nota 3: Código en elaboración para Python.
#Entropy #MissingValue #Treatment #hand-on treatment