Loading…
Inference after variable selection using restricted permutation methods
When confronted with multiple covariates and a response variable, analysts sometimes apply a variable-selection algorithm to the covariate-response data to identify a subset of covariates potentially associated with the response, and then wish to make inferences about parameters in a model for the m...
Saved in:
Published in: | Canadian journal of statistics 2009-12, Vol.37 (4), p.625-644 |
---|---|
Main Authors: | , |
Format: | Article |
Language: | English |
Subjects: | |
Citations: | Items that this one cites Items that cite this one |
Online Access: | Get full text |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
Summary: | When confronted with multiple covariates and a response variable, analysts sometimes apply a variable-selection algorithm to the covariate-response data to identify a subset of covariates potentially associated with the response, and then wish to make inferences about parameters in a model for the marginal association between the selected covariates and the response. If an independent data set were available, the parameters of interest could be estimated by using standard inference methods to fit the postulated marginal model to the independent data set. However, when applied to the same data set used by the variable selector, standard ("naive") methods can lead to distorted inferences. The authors develop testing and interval estimation methods for parameters reflecting the marginal association between the selected covariates and response variable, based on the same data set used for variable selection. They provide theoretical justification for the proposed methods, present results to guide their implementation, and use simulations to assess and compare their performance to a sample-splitting approach. The methods are illustrated with data from a recent AIDS study. Lorsque le statisticien doit choisir entre plusieurs covariables et qu'il n'a qu'une seule variable réponse, il doit souvent appliquer un algorithme de sélection de variables aux jeux de données afin d'identifier un sous-ensemble de covariables potentiellement associées à la variable réponse. Par la suite, il peut faire l'inférence sur les paramètres d'un modèle de l'association marginale entre les covariables choisies et la variable réponse. Si un autre jeu de données indépendant était disponible, les paramètres d'intérêt pourraient être estimés par les méthodes d'inférence courantes pour ajuster le modèle marginal considéré à ce jeu de données. Cependant, lorsque ces méthodes d'inférence sont utilisées sur le jeu de données qui a servi à la sélection des covariables, ces méthodes "naïves" peuvent produire un biais d'estimation. Les auteurs ont développé des tests et des méthodes d'estimation par intervalle pour les paramètres tenant compte de l'association marginale entre les covariables sélectionnés et la variable réponse, en utilisant les mêmes données qui ont servi à choisir les covariables. Ils donnent une justification théorique pour les méthodes proposées, présentent des résultats pour guider leur implantation, et ils utilisent des simulations pour mesu-rer et comparer leur performance |
---|---|
ISSN: | 0319-5724 1708-945X |
DOI: | 10.1002/cjs.10039 |