Bienvenido al Instituto de Investigación y Educación Digital NOTA: Esta página ha sido desvinculada. Ya no se mantiene y la información de esta página puede estar obsoleta. Debido a que esta página ha sido desvinculada, no podemos responder a preguntas relacionadas con esta página. Stata FAQ: Cómo convertir variables de cadena a variables numéricas en Stata La manera más fácil de convertir variables de cadena a forma numérica es usar el comando codificar. Si la variable es realmente un valor numérico que simplemente pasa a ser almacenado como una cadena, consulte nuestro FAQ: ¿Cómo puedo convertir rápidamente muchas variables de cadena a variables numéricas? Digamos que usted tiene los siguientes datos: Comencemos leyendo en el dataset de Internet y utilizando el comando describe. La región variable es una variable de cadena. A continuación, vamos a hacer un tabulado en la región. Ahora vamos a usar el comando codificar y otro describir. El comando codificar ha generado una nueva variable llamada region2 que es de tipo entero largo y tiene etiquetas de valor que se definen y también se llaman region2. Ahora vamos a hacer dos tabulaciones s, una con etiquetas y otra sin etiquetas. La primera tabulación parece idéntica a la tabulación realizada en la región variable de cadena anterior. Como puede ver en el segundo cuadro. Region2 tiene los valores numéricos de 1 a 4 pero conserva las cadenas Central, Este, Sur y Oeste como etiquetas de valor. El contenido de este sitio web no debe ser interpretado como un endoso de cualquier sitio web en particular, libro o producto de software por la Universidad de California. Bienvenido al Instituto de Investigación Digital y Educación Stata FAQ ¿Cómo puedo convertir rápidamente muchas variables de cadena a Variables numéricas Puede haber ocasiones en las que reciba un archivo que tenga muchas (o todas) las variables definidas como cadenas. Es decir, variables de caracteres. Las variables pueden contener valores numéricos, pero si se definen como tipo cadena. Hay muy pocas cosas que usted puede hacer para analizar los datos. No puedes obtener medios, no puedes hacer una regresión, no puedes hacer un ANOVA, etc. A veces el conjunto de datos contiene valores numéricos que se almacenan como cadenas. Primero abordaremos este escenario. A continuación, abordaremos el caso en el que las variables de cadena realmente contienen cadenas, y el objetivo es asignar cada valor que la cadena asume a un valor numérico. Todos los ejemplos de esta página usan el mismo conjunto de datos, así que comencemos examinando los datos. El ejemplo de conjunto de datos, hsbs. Es un subconjunto del archivo de datos de High School y Beyond con todas las variables como variables de cadena. Como se ve en el comando describir a continuación, las variables se definen como variables de cadena (por ejemplo, science es str2, una cadena de longitud 2). Ahora que sabemos que las variables son variables de cadena, podemos usar el comando list para ver cómo son las cadenas almacenadas en estas variables. Aunque la ciencia variable se define como str2, puede ver en la lista de abajo que contiene sólo valores numéricos. Aún así, debido a que la variable se define como str2, Stata no puede realizar ningún tipo de análisis numérico de la variable ciencia. Lo mismo es cierto para la variable read. Conversión de variables de cadena con valores numéricos Un método de convertir números almacenados como cadenas en variables numéricas es usar una función de cadena llamada real que traduce valores numéricos almacenados como cadenas en valores numéricos que Stata puede reconocer como tales. La primera línea de sintaxis se lee en el conjunto de datos mostrado anteriormente. El segundo genera una nueva variable readn que es igual al valor del número almacenado en la variable de cadena leída. El (s) real (es) es la función que traduce los valores mantenidos como cadenas, donde s es la variable que contiene cadenas. Un segundo método para lograr el mismo resultado es la destrucción de comandos. Vamos a intentar usar el comando destring y ver cómo funciona. La primera línea de sintaxis carga el conjunto de datos de nuevo, de modo que estamos empezando con un conjunto de datos que contiene sólo variables de cadena de nuevo. La segunda línea de sintaxis ejecuta el comando destring. Como se puede ver en el comando describir a continuación, el comando destring convierte todas las variables en numéricas, excepto para la raza. Género y schtyp. Dado que estas variables tenían caracteres en ellos, el comando de destrucción dejó tales variables solo. Si hubiera habido alguna variable numérica en el conjunto de datos, se mantendrían sin cambios. Ambas técnicas descritas anteriormente tienen atributos que en algunas situaciones son ventajas y en otras situaciones pueden ser desventajas. El destringente de comandos se puede ejecutar en un conjunto de datos completo en un paso, el método que utiliza la función real requiere emitir un comando para cada variable que se va a convertir (aunque esto puede hacerse con un bucle en lugar de escribir la sintaxis para cada variable). Una ventaja potencial al usar la función real (el primer método) es que si la función real encuentra un valor no numérico, establece la variable igual a falta en ese caso y se mueve. En cierta medida, la destrucción puede hacerse de manera similar, pero no idéntica. Con el fin de convertir una variable de cadena que contenga cualquier valor no numérico usando destring uno debe listar los caracteres que deben ser ignorados (por ejemplo, o.). Además, en lugar de establecer valores para aquellos casos que contienen valores no numéricos que faltan (lo que hace la función real), destring elimina los caracteres numéricos no especificados. Destring extraerá las cadenas especificadas y luego convertirá, lo que significa que a4 se puede convertir en 4. destringir s comportamiento es muy bueno si uno tiene valores numéricos almacenados como cadenas que ocasionalmente contienen cosas como comas (por ejemplo, 4,354), pero puede haber situaciones donde Este comportamiento es indeseable. Conversión de variables de cadena con valores no numéricos en valores numéricos Cómo convertir el género y schtyp en valores numéricos Podemos utilizar el comando codificar como se muestra a continuación. Estos comandos crean gender2 y schtyp2. Observe en el comando describir a continuación que gender2 y schtyp2 son variables numéricas y tienen etiquetas asociadas a ellas (llamadas gender2 y schtyp2). Si se enumeran los datos, parece que gender2 y schtyp2 son idénticos al género y schtyp. Sin embargo, son realmente numéricos y lo que está viendo son las etiquetas de valor asociadas con las variables. Debajo usamos la opción nolabel y ves que gender2 y schtyp2 son realmente numéricos. ¿Qué pasa con la variable de la raza. Todavía es una variable de carácter porque nuestro comando de destrucción anterior vio la X en los datos y no intentó convertirlo porque tenía valores no numéricos. A continuación podemos convertirlo en numérico mediante include la opción ignore (X) que dice destring para convertir la variable a numeric y cuando se encuentra con X para convertirla a un valor faltante. Puede ver los resultados en el comando de lista a continuación. Como hemos visto, podemos usar destring para convertir variables de cadena que contienen números en variables numéricas, y puede manejar situaciones en las que algunos valores se almacenan como un carácter (como el X que vimos con raza). Si tiene una variable de carácter que se almacena como todos los caracteres, puede utilizar codificar para convertir la variable de carácter a numérica y creará etiquetas de valor que tienen los valores que se almacenaron con la variable de carácter. Para obtener más información, consulte la ayuda o el manual de referencia sobre los comandos de destrucción y codificación. El contenido de este sitio web no debe ser interpretado como un endoso de cualquier sitio web, libro o producto de software en particular por la Universidad de California. STRREC: Módulo Stata para recodificar variables de cadena según reglas strrec recodifica variables de cadena según reglas. Las variables pueden ser recodificadas en variables numéricas o en variables de cadena. Cualquier cadena en var que no cumpla las condiciones de las reglas se establece en falta en las variables numéricas creadas y se copia de var en las variables de cadena creadas. Las etiquetas de valor se definirán para variables numéricas. Strrec también se puede utilizar para recodificar variables numéricas según sus etiquetas de valor. Si experimenta problemas al descargar un archivo, compruebe si tiene la aplicación adecuada para verla primero. En caso de problemas adicionales, lea la página de ayuda de IDEAS. Tenga en cuenta que estos archivos no están en el sitio IDEAS. Por favor sea paciente ya que los archivos pueden ser grandes. Componente de software proporcionado por el Departamento de Economía de Boston College en su serie Statistics Software Components con el número S457177. Cuando solicite una corrección, mencione por favor estos artículos handle: RePEc: boc: bocode: s457177. Consulte la información general sobre cómo corregir el material en RePEc. Para preguntas técnicas sobre este tema, o para corregir sus autores, título, resumen, información bibliográfica o de descarga, contacte a: (Christopher F Baum) Si ha creado este artículo y aún no está registrado en RePEc, le recomendamos que lo haga aquí . Esto permite vincular tu perfil a este elemento. También le permite aceptar citas potenciales a este tema de las que no estamos seguros. Si faltan referencias, puede agregarlas usando este formulario. Si las referencias completas enumeran un elemento que está presente en RePEc, pero el sistema no enlazó con él, puede ayudar con este formulario. Si sabe de los elementos que faltan citando éste, puede ayudarnos a crear esos vínculos agregando las referencias pertinentes de la misma manera que se ha indicado anteriormente, para cada elemento referente. Si usted es un autor registrado de este artículo, también puede revisar la pestaña de citas en su perfil, ya que puede haber algunas citas esperando confirmación. Tenga en cuenta que las correcciones pueden tardar un par de semanas en filtrarse a través de los distintos servicios de RePEc. Más servicios MyIDEAS Seguir series, revistas, autores amp más Nuevos artículos por correo electrónico Suscribirse a nuevas adiciones a RePEc Registro de autor Perfiles públicos para investigadores de economía Rankings Varios rankings de investigación en economía y campos relacionados Genealogía ¿Quién fue un estudiante de quién, con RePEc RePEc Biblio Artículos curados artículos de amp y varios temas de economía MPRA Sube tu artículo para ser incluido en RePEc e IDEAS EconAcademics Agregador de blogs para la investigación de la economía Plagio Casos de plagio en la economía Documentos de mercado de trabajo RePEc serie de trabajo de trabajo dedicada al mercado de trabajo Fantasy League Pretendas estar al timón De un departamento de economía Servicios de los datos de Fed StL, la investigación, aplicaciones más amp de la Fed de San Luis
No comments:
Post a Comment