Loading…

The linear Lasso: A location model approach

We use location model methodology to guide the least squares analysis in the Lasso problem of variable selection and inference. The nuisance parameter is taken to be an indicator for the selection of explanatory variables, and the interest parameter is the response variable itself. Recent theory eli...

Full description

Saved in:
Bibliographic Details
Published in:Canadian journal of statistics 2022-06, Vol.50 (2), p.437-453
Main Authors: Fraser, D. A. S., Bédard, Mylène
Format: Article
Language:English
Subjects:
Citations: Items that this one cites
Items that cite this one
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:We use location model methodology to guide the least squares analysis in the Lasso problem of variable selection and inference. The nuisance parameter is taken to be an indicator for the selection of explanatory variables, and the interest parameter is the response variable itself. Recent theory eliminates the nuisance parameter by marginalization on the data space and then uses the resulting distribution for inference concerning the interest parameter. We develop this approach and find that primary inference is essentially one‐dimensional rather than n‐dimensional, inference focuses on the response variable itself rather than the least squares estimate (as variables are removed), computation is relatively easy, a scalar marginal model is available, and ineffective variables can be removed by distributional tilt or shift. Résumé Nous utilisons la méthodologie des modèles de position dans le but de guider l'analyse des moindres carrés dans le cadre du problème de type Lasso, c'est‐à‐dire de sélection et d'inférence de variables. Le paramètre de nuisance est une variable indicatrice relative à la sélection des variables explicatives alors que le paramètre d'intérêt est la variable réponse. Selon des développements théoriques récents, le paramètre de nuisance est éliminé par marginalisation sur l'espace de données; la distribution résultante est alors utilisée pour effectuer une inférence sur le paramètre d'intérêt. Nous développons cette approche et constatons: que l'inférence primaire est essentiellement unidimensionnelle plutôt que n‐dimensionnelle; que l'inférence se concentre sur la variable réponse elle‐même plutôt que sur l'estimé des moindres carrés (à mesure que les variables sont supprimées); que les calculs sont relativement faciles; que le modèle marginal scalaire est disponible; et que les variables inefficaces peuvent être supprimées par inclinaison ou glissement distributionnel.
ISSN:0319-5724
1708-945X
DOI:10.1002/cjs.11691