Thursday, December 15, 2016

Subpopulation In Stata Forex

Bienvenido al Instituto de Investigación y Educación Digital Stata Class Notes Contando de n a N Introducción Stata tiene dos variables integradas llamadas n y N. N es la notación Stata para el número de observación actual. N es 1 en la primera observación, 2 en la segunda, 3 en la tercera, y así sucesivamente. N es la notación Stata para el número total de observaciones. Veamos cómo funcionan N y N. Como se puede ver, el ID de la variable contiene el número de observación que va de 1 a 7 y nt es el número total de observaciones, que es 7. Contando con usando n y N junto con el comando by pueden producir algunos resultados muy útiles. Por supuesto, para usar el comando by debemos primero ordenar nuestros datos en la variable by. Ahora n1 es el número de observación dentro de cada grupo y n2 es el número total de observaciones para cada grupo. Para enumerar la puntuación más baja de cada grupo, utilice lo siguiente: Para enumerar la puntuación más alta de cada grupo, utilice lo siguiente: Otro uso de n Utiliza n para averiguar si hay números de identificación duplicados en los siguientes datos: Las observaciones 6 y 7 tienen los mismos números de identificación y valores de puntuación diferentes. Búsqueda de duplicados Ahora utilice N para encontrar observaciones duplicadas. En este ejemplo clasificamos las observaciones por todas las variables. Entonces usamos toda la variable en la sentencia by y ponemos set n igual al número total de observaciones que son idénticas. Finalmente, enumeramos las observaciones para las cuales N es mayor que 1, identificando así las observaciones duplicadas. Si tiene muchas variables en el conjunto de datos, puede tardar mucho tiempo en escribirlas todas dos veces. Podemos hacer uso del comodín para indicar que queremos utilizar todas las variables. Además en las últimas versiones de Stata podemos combinar ordenar y por en una sola declaración. A continuación se muestra una versión simplificada del código que producirá los mismos resultados que anteriormente. El contenido de este sitio web no debe ser interpretado como un endoso de ningún sitio web, libro o producto de software en particular por la Universidad de California. Uso de Stata para el análisis de subpoblación de datos complejos de encuestas por muestreo En esta presentación, Consideraciones que los analistas de grandes conjuntos de datos de encuestas de uso público deben tener en cuenta al intentar hacer inferencias para subpoblaciones finitas de interés de investigación. Discutiré varios ejemplos de posibles enfoques de análisis de subpoblaciones que los analistas podrían tomar usando los comandos Stata svy: y enfatizaré las implicaciones de cada enfoque para hacer inferencias. Los participantes tendrán tiempo para una sesión de preguntas y respuestas basada en los ejemplos. Si experimenta problemas al descargar un archivo, compruebe si tiene la aplicación adecuada para verla primero. En caso de problemas adicionales, lea la página de ayuda de IDEAS. Tenga en cuenta que estos archivos no están en el sitio IDEAS. Por favor sea paciente ya que los archivos pueden ser grandes. Bienvenidos al Instituto de Investigación y Educación Digital Stata FAQ Cómo puedo analizar una subpoblación de mis datos de encuesta en Stata NOTA: Esta página fue creada con Stata 9. Todo el código de esta página Funcionará con Stata 10. El código de esta página no funcionará con Stata 8 (o versiones anteriores de Stata). Al analizar los datos de la encuesta, es común querer mirar sólo a ciertos encuestados, quizás sólo mujeres, o sólo los encuestados mayores de 50 años. Al analizar estas subpoblaciones (dominios AKA), debe utilizar la opción adecuada. Stata 9 tiene dos opciones de subpoblación que son muy flexibles y fáciles de usar. El uso de la (s) opción (es) de la subpoblación es extremadamente importante al analizar los datos de la encuesta. Si el conjunto de datos es un subconjunto, lo que significa que las observaciones que no se incluirán en la subpoblación se eliminarán del conjunto de datos, los errores estándar de las estimaciones no se pueden calcular correctamente. Cuando se utiliza la (s) opción (es) de subpoblación, sólo se utilizan los casos definidos por la subpoblación en el cálculo de la estimación, pero todos los casos se utilizan en el cálculo de los errores estándar. Para obtener más información sobre este tema, consulte Técnicas de muestreo, tercera edición de William G. Cochran (1977) y Small Area Estimation de J. N. K. Rao (2003). Por razones de consistencia, usaremos el comando mean para todos nuestros ejemplos. Sin embargo, las opciones de subpop y over funcionan igual para todos los comandos svy. Comenzaremos por ver la media de nuestra variable continua, ell. A continuación, consideraremos dos variables para usar con la opción subpop, yrrnd. Que está codificado 0/1, y ambos. Que se codifica 1/2. Como verá, la opción subpop maneja estas dos variables de forma diferente. Aquí podemos ver que yrrnd está codificado 0/1. (Esta opción faltante se usa aquí para mostrar que no hay valores faltantes para esta variable. Queremos saber esto más adelante). Observe en la salida del comando svy: tab que hay 789.6 casos codificados 1. (Es No un número entero porque estamos estimando este valor usando los pesos de probabilidad.) En la salida del comando svy: mean, también vemos que 789.552 casos están incluidos en la subpoblación. Ahora vamos a tratar de usar una variable codificada 1/2 en lugar de 0/1. Aquí podemos ver que ambos están codificados 1/2. (Esta opción que falta se utiliza aquí para mostrar que no hay valores faltantes para esta variable. Queremos saber esto más adelante.) Observe en la salida del comando svy: tab que hay 1888 casos codificados 1. Sin embargo, en La salida del comando svy: mean, vemos que todas las observaciones, 6194 casos, se incluyen en la subpoblación. Esto se debe a que la opción subpop debe tener una variable true / false. Como se indica en la página 39 del manual de Stata 9 Survey, cuando se utiliza la opción subpop, la subpoblación está definida por la 0s (false), que indica los casos que se excluyen de la subpoblación. Los valores no 0 se incluyen en el análisis, excepto los valores faltantes, que se excluyen del análisis. Debido a que no tenemos casos codificados como 0, todos los casos están incluidos en la subpoblación, como se explica en la nota en la salida. Ahora vamos a crear una copia de ambos y recodificar los 1s a 0s. También estableceremos algunos valores a falta, para ver qué sucede con los valores faltantes en la variable de subpoblación. La salida del comando de pestaña nos muestra que la recodificación fue como se planificó. La salida del comando svy: mean muestra que todos los casos no codificados 0 o ausentes (los 424 casos codificados como 2) están incluidos en la subpoblación. Observe la nota que proporciona Stata cuando la variable de subpoblación no está codificada 0/1. También puede utilizar si al definir su subpoblación. Debe hacerse hincapié en que esto es muy diferente de usar si para eliminar casos de un análisis. El uso de si en la opción subpop no quita casos del análisis. Los casos excluidos de la subpoblación por el if se siguen utilizando en el cálculo de los errores estándar, como deberían ser. Puede utilizar subpop o más con varias variables para crear la subpoblación que desee. Veamos algunos ejemplos usando la opción over. Primero, usaremos yrrnd. Nuestra variable 0/1, luego ambas. Nuestra 1/2 variable. Observe que la salida es diferente de la salida usando la opción subpop en que se dan las dos categorías de la variable, y no hay ninguna nota cuando se usa una variable 1/2. Tenga en cuenta que la opción de más sólo está disponible para la media de los comandos de encuesta. Proporción. Proporción y total. Ahora vamos a usar ambos yrrnd y ambos como las variables de subpoblación. Primero usaremos el comando svy: tab para asegurar que haya casos en las cuatro categorías. Luego usamos el comando svy: mean con la opción over. A continuación se crea una nueva variable de EMER con cuatro categorías. Entonces usaremos esta variable con yrrnd y ambas combinaciones de las variables se muestran en la salida. Esto es a menudo muy útil y le ahorra tener que crear una nueva variable de subpoblación. Sin embargo, si cada una de sus variables tiene muchas categorías, la salida puede llegar a ser larga y engorrosa, especialmente si sólo está interesado en algunas combinaciones de categorías. La opción subpop puede combinarse con la opción over. Esto es útil porque si no se puede utilizar con la opción sobre. Al combinar las opciones, puede tener lo mejor de ambos mundos. El contenido de este sitio web no debe ser interpretado como un endoso de ningún sitio web, libro o producto de software en particular por la Universidad de California.


No comments:

Post a Comment