Handling Categorical Features with Many Levels Using a Product Partition Model = Manejo de características categóricas con muchos niveles utilizando un modelo de partición de producto
Abstract:
A common difficulty in data analysis is how to handle categorical predictors with a large number of levels or categories. Few proposals have been developed to tackle this important and frequent problem. We introduce a generative model that simultaneously carries out the model fitting and the aggregation of the categorical levels into larger groups. We represent the categorical predictor by a graph where the nodes are the categories and establish a probability distribution over meaningful partitions of this graph. Conditionally on the observed data, we obtain a posterior distribution for the levels
aggregation, allowing the inference about the most probable clustering for the categories. Simultaneously, we extract inference about all the other regression model parameters. We compare our and state-of-art methods showing that it has equally good predictive performance and more interpretable results. Our approach balances out accuracy versus interpretability, a current important concern in statistics and machine learning.
Resumen:
Una dificultad común en el análisis de datos es cómo manejar predictores categóricos con una gran cantidad de niveles o categorías. Se han desarrollado pocas propuestas para abordar este importante y frecuente problema. Introducimos un modelo generativo que realiza simultáneamente el ajuste del modelo y la agregación de los niveles categóricos en grupos más grandes. Representamos el predictor categorial mediante un gráfico donde los nodos son las categorías y establecemos una distribución de probabilidad sobre particiones significativas de este gráfico. Condicionalmente sobre los datos observados, obtenemos una distribución posterior para la agregación de niveles, lo que permite la inferencia sobre el agrupamiento más probable para las categorías. Simultáneamente, extraemos inferencias sobre todos los demás parámetros del modelo de regresión. Comparamos nuestros métodos y los de última generación mostrando que tiene un rendimiento predictivo igualmente bueno y resultados más interpretables. Nuestro enfoque equilibra la precisión con la interpretabilidad, una preocupación importante en la actualidad en las estadísticas y el aprendizaje automático.
Citación recomendada (normas APA)
Tulio L.; Assunção Criscuolo, "Handling Categorical Features with Many Levels Using a Product Partition Model = Manejo de características categóricas con muchos niveles utilizando un modelo de partición de producto", Brasil:-, 2021. Consultado en línea en la Biblioteca Digital de Bogotá (https://www.bibliotecadigitaldebogota.gov.co/resources/3711453/), el día 2025-05-22.
¡Disfruta más de la BDB!
Explora contenidos digitales de forma gratuita, crea tus propias colecciones, colabora y comparte con otros.
Selecciona las Colecciones en las que vas a añadir el contenido
Para consultar los contenidos añadidos busca la opción
Tus colecciones en el menú principal o en
Mi perfil.
Mis colecciones
Cargando colecciones
Compartir este contenido
Handling Categorical Features with Many Levels Using a Product Partition Model = Manejo de características categóricas con muchos niveles utilizando un modelo de partición de producto