Un problema común en la recolección de datos primarios es la presencia de datos perdidos que puede explicarse por varios motivos, por ejemplo,  en una encuesta sobre el ingreso familiar pueden darse casos en donde la persona se niegue a dar la información o simplemente no se encuentre la persona adecuada que pueda suministrarla. Otro caso es aquel donde se encuentran valores atípicos. Hay dos formas de ver la presencia de valores atípicos: uno desde el punto de vista probabilístico y el otro como consecuencia de errores humanos. Desde el punto de vista probabilístico, se puede definir como valor atípico, aquel que según la población en estudio, la probabilidad de ocurrencia de ese valor es casi nula y sin embargo ocurrió.  Pero cuando ese no es el caso sino por motivos distintos a la ley de probabilidad, entonces debe eliminarse convirtiéndose en un valor perdido. Por tanto en un archivo de datos debe detectarse los valores perdidos y aquellos atípicos productos de errores humanos que deben considerarse como valores faltantes cuando no es posible corregirlos.

Las soluciones dadas a este problema son muy variadas, una de ellas es desechar en el análisis estadístico aquellas variables que para al menos una observación no existe el dato correspondiente. Esto ocurre cuando se está aplicando técnicas de análisis de datos tales como regresión múltiple, componentes principales, análisis de correspondencia entre otros, en el caso de regresión múltiple se requiere que todas las variables explicativas contengan todas los datos de las observaciones, en los casos de reducción de dimensionalidad como componentes principales todas las observaciones de todas las variables deben tener sus datos presentes.  La otra solución, en el caso de análisis univariante, es trabajar con los datos existentes y hacer las estimaciones de los parámetros con los datos disponibles en cada variable, obviando la presencia de valores faltantes.

Resolver el problema por alguna de las dos formas anteriores trae consecuencias a los resultados inferenciales, entre ellos que los estimadores dejan de ser eficientes y insesgados.

Otra forma de solucionar el problema es usar imputación, esto es, sustituir los datos faltantes por valores obtenidos mediante alguna técnica estadística. Estas técnicas se divide en dos grandes grupos: imputación simple e imputación múltiple. Al mismo tiempo, tiene que considerarse la escala de medición de las variables para aplicar una de las técnicas adecuadas y la estructura de los datos perdidos.

Para abrir haga clic aquí

PROBLEMA DE IMPUTACIÓN USANDO SAS