Por:
Danna Lesley Cruz Reyes
|
Fecha:
2021
Abstract:
The conditional autoregressive model (CAR model) is the most popular distribution for jointly modeling the \textit{a priori} uncertainty over spatially correlated data. In general, it is used in hierarchical spatial models where it models the uncertainty about random spatial effects. A limitation of the CAR model is its inability to produce high correlations between neighboring areas. We propose a robust model for area data that alleviates this problem.
We represent the map by an undirected graph where nodes represent areas and edges connect neighboring nodes on the map. We assign distinct and random weights to the edges. The model is based on a spatially structured $t-$Student multivariate distribution, in which the precision matrix is indirectly constructed assuming a multivariate distribution for the random weights of the edges.
Such t- Student distribution spatially correlates the edge weights and induces another $t$-Student model for the spatial effects of the areas that correlates them and is able to accommodate outliers and heavy tail behavior for these effects. More importantly, the proposed model can produce a higher marginal correlation between spatial effects than the CAR model, overcoming one of the main limitations of this model. We adjusted the proposed model to map the incidence of some types of cancer in southern Brazil and compared its performance with several alternative models proposed in the literature. The results show that the proposed model is competitive and provides similar and, in some cases, better results than those obtained by fitting models commonly used to analyze this type of data. In the second proposal, we approach the problem of dimensionality reduction in regression models. One of the most used methods to avoid overfitting and to select relevant variables in regression models with many predictors is the penalized regression technique. Under suchapproaches, variable selection is performed in a non-probabilistic way using some optimization criterion. Bayesian approaches to penalized regression have been proposed assuming an \textit{a priori} distribution for the regression coefficients that plays a role similar to the penalty term in classical statistics: compressing towards zero non-significant coefficients and putting a probability mass significant in coefficients that can be grouped. Generally, such a priori distributions, called shrinkage priors, assume independence between the effects of the covariates, which may not bean appropriate assumption in many cases. In this work, we focus on the dimensionality reduction of categorical variables with many levels. These variables are included in the model through variables dummy inducing sparsity in the design matrix, which can generate overfitting and difficulties in interpreting the results. The effect of the levels of these categorical variables are naturally correlated. To deal with this problem, we propose two a priori shrinkage distributions for the coefficients associated with the levels of categorical variables, correlating them. The proposed distributions are properand, in addition to sparsity, they have the property of grouping similar effects. We illustrate the use of these distributions by applying them to dimensionality reduction in a linear regression. Their performances are analyzed and compared to pre-existing methods through simulated data studies and considering housing price data available on Airbnb.
Resumen:
El modelo autorregresivo condicional (modelo CAR) es la distribución más popular para modelar conjuntamente la incertidumbre \ textit {apriori} sobre datos correlacionados espacialmente. En general, se utiliza en modelos espaciales jerárquicos donde modela la incertidumbre sobre los efectos espaciales aleatorios. Una limitación del modelo CAR es su incapacidad para producir altas correlaciones entre áreas vecinas. Proponemos un modelo robusto para datos de área que alivia este problema.
Representamos el mapa mediante un gráfico no dirigido donde los nodos representan áreas y los bordes conectan los nodos vecinos en el mapa. Asignamos pesos distintos y aleatorios a los bordes. El modelo se basa en una distribución multivariante $ t- $ Student estructurada espacialmente, en la que la matriz de precisión se construye indirectamente asumiendo una distribución multivariante para los pesos aleatorios de los bordes.
Tal distribución t-Student correlaciona espacialmente los pesos de los bordes e induce otro modelo $ t $ -Student para los efectos espaciales de las áreas que los correlaciona y es capaz de acomodar valores atípicos y un comportamiento de cola pesada para estos efectos. Más importante aún, el modelo propuesto puede producir una mayor correlación marginal entre los efectos espaciales que el modelo CAR, superando una de las principales limitaciones de este modelo. Ajustamos el modelo propuesto para mapear la incidencia de algunos tipos de cáncer en el sur de Brasil y comparamos su desempeño con varios modelos alternativos propuestos en la literatura. Los resultados muestran que el modelo propuesto es competitivo y proporciona resultados similares y, en algunos casos, mejores que los obtenidos mediante el ajuste de modelos comúnmente utilizados para analizar este tipo de datos.
En la segunda propuesta abordamos el problema de la reducción de dimensionalidad en modelos de regresión. Uno de los métodos más utilizados para evitar el sobreajuste y seleccionar variables relevantes en modelos de regresión con muchos predictores es la técnica de regresión penalizada. Bajo tales enfoques, la selección de variables se realiza de forma no probabilística utilizando algún criterio de optimización. Se han propuesto enfoques bayesianos para la regresión penalizada asumiendo una distribución \ textit {a priori} para los coeficientes de regresión que juega un papel similar al término de penalización en la estadística clásica: comprimir hacia cero coeficientes no significativos y poner una masa de probabilidad significativa en coeficientes que se pueden agrupar.
Generalmente, tales distribuciones a priori, llamadas a priori de contracción, asumen independencia entre los efectos de las covariables, lo que puede no ser una suposición apropiada en muchos casos.
En este trabajo, nos enfocamos en la reducción de dimensionalidad de variables categóricas con muchos niveles. Estas variables se incluyen en el modelo a través de variables ficticias que inducen escasez en la matriz de diseño, lo que puede generar sobreajustes y dificultades en la interpretación de los resultados. El efecto de los niveles de estas variables categóricas está naturalmente correlacionado. Para abordar este problema, proponemos dos distribuciones de contracción a priori para los coeficientes asociados a los niveles de variables categóricas, correlacionándolos. Las distribuciones propuestas son adecuadas y, además de escasa, tienen la propiedad de agrupar efectos similares. Ilustramos el uso de estas distribuciones aplicándolas a la reducción de dimensionalidad en una regresión lineal. Sus resultados se analizan y comparan con métodos preexistentes a través de estudios de datos simulados y teniendo en cuenta los datos de precios de la vivienda disponibles en Airbnb.