Friday 5 January 2018

Excluding missing values in stata forex


Valores ausentes Valores ausentes e como trabalhar com eles Stata representa valores ausentes com a. (Período) em sua janela de resultados. Se o arquivo tiver valores em falta especiais, Stata os representa como. a,.b..z. Os valores ausentes são armazenados como valores maiores do que o maior número permitido para o tipo de dados. Por exemplo, uma variável armazenada como byte de tipo de dados pode ter os seguintes valores: A maioria dos comandos ignora os valores ausentes por padrão. Alguns comandos, como tabular. Tem uma opção para mostrar em falta se você quiser ver quantas observações faltando lá são. Outros comandos, no entanto, podem usar valores em falta de uma forma que irá surpreendê-lo. Por exemplo, o comando replace não ignora valores em falta. Aqui está um exemplo simples para demonstrar como substituir e recode manipular valores ausentes de forma diferente. Neste exemplo, temos três variáveis ​​com os valores de 1, 2 e ausentes. Nós queremos mudar todos os valores de 2 para 1. O primeiro substituir o comando muda cada valor thats maior do que 1 para 1. Este comando não ignora os valores faltantes, assim tanto 2 como ausentes são alterados para 1. Isso provavelmente não é o que gostaríamos Normalmente quer fazer, uma vez que os valores em falta devem permanecer em falta. O segundo comando de substituição muda todos os valores maiores que 1 mas menos do que faltando para 1. Neste caso, os valores de 2 são alterados e os valores ausentes não são alterados, que é a nossa intenção. O comando recode ignora automaticamente os valores em falta, por isso não temos de pensar nisso. Os resultados são os mesmos que o segundo comando de substituição. Para perguntas rápidas, envie um email para dataprinceton. edu. Nenhum appts. Necessário durante horas walk-in. Nota: o laboratório do DSS está aberto desde que o Firestone esteja aberto, sem compromissos necessários para usar os computadores do laboratório para sua própria análise. Usando Variáveis ​​Dummy Eu uso dados automáticos neste exemplo. No prompt de comando, digite In this data, foreign é uma variável dummy, que contém resultado binário. A variável tem um valor de 1 para modelo estrangeiro e 0 para modelo doméstico. Eu tenho outra variável categórica, classificação de reparo, que estou interessado em ver o efeito em mpg. A classificação de reparo, chamada rep78, varia de 1 a 5, 1 sendo mais reparos e 5 sendo menos reparos. Aqui, o rating de reparo pode ser tratado como um valor contínuo, mas como ele tem apenas cinco valores e eu considero-o como uma variável categórica, vou fazer cada um do valor em uma variável dummy. Este tipo de situação é mais comum com variáveis ​​como etnia ou ocupação, onde a atribuição de número é bastante arbitrária ea quantidade não tem um significado. Uma maneira fácil de criar uma variável dummy de uma variável de categoria múltipla como esta rep78 é usar o comando tabulate. Cria cinco dummies, um para cada valor de rep78. Você pode ver as novas variáveis ​​Stata criado por rolagem da janela da variável para a parte inferior. Observe que a tabulação mostra o total como 69, quando o número total de registros é 74. Acontece que cinco carros têm suas classificações de reparo em falta. Stata deixa cair casos com valores faltando completamente ao executar regressões. Assim, no próximo modelo você pode ver que o caso total utilizado na análise é 69. Das cinco categorias, posso incluir quatro, um menos categorias, do que o número total de categorias, no modelo, como um deles será Uma categoria de referência. Os coeficientes serão interpretados em referência à categoria excluída. Os coeficientes de reparos referem-se à classificação de reparo 5. Assim, os carros com classificação de reparo 1 produzem cerca de 6,36 menos mpg do que os carros com classificação de reparo 5, avaliação de reparo 2 Rendimentos cerca de 8,23 menos mpg do que reparação rating 5, e assim por diante. Faz sentido que os carros com melhor classificação de reparos usem menos gás: eles devem ser construídos para serem mais eficientes. Cada manequim é 0 ou 1, portanto, para calcular o mpg previsto, você pode conectar 1 à classificação que você deseja obter uma estimativa para, e 0 para os outros. Quando um carro tem um rating de reparo 5, o mpg previsto é 27.36. Quando um carro tem um rating de reparo 1, o mpg previsto é 27.36-6.36 21. Algumas pessoas estão confusas quando eu digo-lhes para excluir uma categoria para torná-lo em um grupo de referência. Se você tem apenas um conjunto de manequins e deseja incluí-los todos, você pode ajustar um modelo com todos os manequins, mas dizer Stata que já existe uma constante. Eu não recomendo usar isso se você tiver vários conjuntos de variáveis ​​dummy, como o estado civil (solteiro, casado, divorciado, etc) E etnia (branco, preto, hispânico, asiático, etc), porque a interpretação da intercepção Torna-se confuso. Desta vez, os coeficientes são previstos mpg para cada classificação de reparo em vez de diferença em referência à categoria excluída. Observe que o coeficiente de reparo5 é 27,36, o que calculamos a partir do que foi dito acima. O coeficiente para reparo1 é 21, novamente, o mesmo que no cálculo que obtivemos a partir do modelo acima. Assim, os resultados são os mesmos de qualquer maneira. Mais informações sobre o uso de variáveis ​​dummy em uma regressão, consulte Regressão linear e tutorial Stata. Cópia 2007 Os Truestees da universidade de Princeton. Todos os direitos reservados. Dataprinceton. edu Esta página foi atualizada pela última vez em 28 de agosto de 20082. Gerenciamento de dados Nesta seção, descrevemos os arquivos de dados do Stata, discutimos como ler dados brutos no Stata em formatos livres e fixos, como criar novas variáveis, como documentar um conjunto de dados Rotulando as variáveis ​​e seus valores, e como gerenciar arquivos do sistema Stata. O Stata 11 introduziu um gerenciador de variáveis ​​que permite editar nomes de variáveis, rótulos, tipos, formatos e notas, bem como rótulos de valores, usando uma interface gráfica intuitiva do usuário disponível no Gerenciador de dados no sistema de menus. Enquanto o gerente é certamente conveniente, ainda preferimos escrever todos os comandos em um arquivo do para garantir a reprodutibilidade da pesquisa. Um bom recurso do gerente, no entanto, é que ele gera os comandos Stata necessários para realizar as mudanças, para que ele possa ser usado como uma ferramenta de aprendizagem e, enquanto você estiver registrando a sessão, deixa um registro para trás. 2.1 Arquivos Stata Os conjuntos de dados Stata são matrizes retangulares com n observações sobre m variáveis. Diferentemente dos pacotes que lêem uma observação de cada vez, o Stata mantém todos os dados na memória, o que é uma razão pela qual ele é tão rápido. Theres um limite de 2.047 variáveis ​​em Stata / IC, 32.767 em Stata / SE. Você pode ter tantas observações como a memória de seus computadores permitirá, desde que você não vá muito longe acima de 2 bilhões de casos. (Para encontrar esses limites, digite os limites de ajuda.) 2.1.1 Nomes de variáveis ​​Os nomes de variáveis ​​podem ter até 32 caracteres, mas muitos comandos imprimem apenas 12 e nomes mais curtos são mais fáceis de digitar. Os nomes de Stata distinguem maiúsculas de minúsculas. Idade e idade são variáveis ​​diferentes Vale a pena desenvolver uma convenção para nomear variáveis ​​e aderir a ela. Eu prefiro nomes curtos e minúsculos tendem a usar palavras simples ou abreviaturas em vez de nomes de várias palavras, por exemplo, eu prefiro esforço ou fpe para familyplanningeffort ou FamilyPlanningEffort, embora todos os quatro nomes são legais. Observe o uso de underscores ou camel casing para separar palavras. 2.1.2 Variáveis ​​As variáveis ​​podem conter números ou cadeias de caracteres. Variáveis ​​numéricas podem ser armazenadas como inteiros (bytes, inteiros ou longos) ou ponto flutuante (float ou double). Esses tipos diferem no intervalo ou precisão dos valores que podem conter, digite help datatype para obter detalhes. Você geralmente não precisa se preocupar com o modo de armazenamento Stata faz todos os cálculos usando duplas, eo comando compress irá encontrar a maneira mais econômica para armazenar cada variável em seu conjunto de dados, tipo help compress para saber mais. Você precisa ter cuidado com comparações lógicas envolvendo tipos de ponto flutuante. Se você armazenar 0.1 em um flutuador chamado x você pode se surpreender ao saber que x 0.1 nunca é verdade. A razão é que 0,1 é arredondado para números binários diferentes quando armazenado como um flutuador (x) ou como um duplo (a constante 0,1). Esse problema não ocorre com inteiros ou seqüências de caracteres. Variáveis ​​de seqüência de caracteres podem ter comprimentos variáveis ​​até 244 caracteres no Stata 12 ou até dois bilhões de caracteres no Stata 13, onde você pode usar str1. Str2045 para definir seqüências de comprimento fixo de até 2045 caracteres e strL para definir uma seqüência longa, apropriado para armazenar texto sem formatação ou mesmo objetos grandes binários, como imagens ou documentos de processamento de texto, digite cadeias de ajuda para saber mais. As strings são ideais para variáveis ​​de identificação porque podem ser comparadas sem problemas. Às vezes você pode precisar converter entre variáveis ​​numéricas e de seqüência de caracteres. Se uma variável foi lida como uma string mas realmente contém números, você vai querer usar o comando destring ou a função real (). Caso contrário, você pode usar codificar para converter dados de seqüência de caracteres em uma variável numérica ou decodificar para converter variáveis ​​numéricas em seqüências de caracteres. Esses comandos dependem de rótulos de valor, que são descritos a seguir. 2.1.3 Valores ausentes Como outros pacotes estatísticos, o Stata distingue os valores faltantes. O valor em falta básico para variáveis ​​numéricas é representado por um ponto. Começando com a versão 8, existem 26 códigos de valores em falta adicionais indicados por. a para. z. Esses valores são representados internamente como números muito grandes, então validnumbers lt. Lt. A lt. Lt Para verificar se você está faltando, você precisa escrever var gt. (Não var.). Stata tem uma função que pode fazer essa comparação, faltando (varname) e eu recomendo porque ele leva a mais legível código, por exemplo. Eu prefiro id de lista se estiver faltando (idade) para listar id se idade gt. Os valores ausentes para variáveis ​​de cadeia são denotados por, a string vazia não deve ser confundida com uma string que é todos os espaços em branco, como. Os dados de inquéritos demográficos usam frequentemente códigos como 88 para não aplicável e 99 para não ser determinado. Por exemplo, a idade no casamento pode ser codificada 88 para as mulheres solteiras e 99 para as mulheres que são conhecidas por serem casadas, mas não relataram sua idade no casamento. Muitas vezes você vai querer distinguir estes dois casos usando diferentes tipos de códigos de valores em falta. Se você quiser recodificar 88s para. n (para na ou não especificado) e 99s para. m (para ausente) você pode usar o código Às vezes você deseja tabular uma variável incluindo valores em falta, mas excluindo casos não aplicáveis. Se você vai fazer isso muitas vezes você pode preferir deixar 99 como um código regular e definir apenas 88 como ausente. Basta ter cuidado se você, em seguida, executar uma regressão Stata navios com um número de pequenos conjuntos de dados, digite sysuse dir para obter uma lista. Você pode usar qualquer um destes digitando o nome sysuse. O site Stata também é um repositório para conjuntos de dados usados ​​nos manuais Stata e em vários livros estatísticos. 2.2 Leitura de dados em Stata Nesta seção, discutiremos como ler arquivos de dados brutos. Se seus dados vêm de outro pacote estatístico, como SAS ou SPSS, considere usar uma ferramenta como Stat / Transfer (stattransfer) ou DBMSCopy (dataflux). Stata pode ler arquivos de transporte SAS com o comando fdause (assim chamado porque este é o formato exigido pela Food and Drug Administration), tipo help fdause. O Stata também pode importar e exportar planilhas Excel, digitar help import excel para aprender mais e ler dados de bancos de dados relacionais, digite help odbc para uma introdução. 2.2.1 Formato Livre Se seus dados estiverem em formato livre, com variáveis ​​separadas por espaços em branco, vírgulas ou guias, você pode usar o comando inf ilo. Para obter um exemplo de um arquivo de formato livre, consulte os dados de esforço de planejamento familiar disponíveis na web em data. princeton. edu/wws509/datasets (leia a descrição e clique em effort. raw). Trata-se essencialmente de um ficheiro de texto com quatro colunas, uma com nomes de países e três com variáveis ​​numéricas, separadas por espaços em branco. Podemos ler os dados em Stata usando o comando O comando inf il é seguido pelos nomes das variáveis. Como o nome do país é uma string em vez de uma variável numérica, nós precedemos o nome com str14. Que define o tipo da variável como uma seqüência de até 14 caracteres. Todas as outras variáveis ​​são numéricas, que é o tipo padrão. A palavra-chave que usa é seguida pelo nome do arquivo, que pode ser um arquivo em seu computador, uma rede local ou a internet. Neste exemplo, estamos lendo o arquivo diretamente da internet. E isso é tudo o que há para isso. Para obter mais informações sobre este comando, digite help infile1. Para ver o que temos, podemos listar alguns casos. Os pacotes de planilhas como o Excel geralmente exportam dados separados por guias ou guias com uma observação por linha. Às vezes, a primeira linha tem os nomes das variáveis. Se seus dados estiverem neste formato, você pode lê-los usando o comando insheet. Este comando é um pouco mais simples do que infile. Mas infelizmente não funciona com valores em branco. Digite help sheet para saber mais. 2.2.2 Formato Fixo Os dados de pesquisa freqüentemente vêm em formato fixo, com um ou mais registros por caso e cada variável em uma posição fixa em cada registro. A maneira mais simples de ler dados de formato fixo é usar o comando infix para especificar as colunas onde cada variável está localizada. Acontece que os dados do esforço são ordenadamente alinhados em colunas, para que possamos lê-los da seguinte forma: Isto diz para ler o nome do país das colunas 4-17, definindo das colunas 23-24, e assim por diante. É, naturalmente, essencial ler as colunas corretas. Nós especificamos que o país era uma variável de seqüência de caracteres, mas não precisamos especificar a largura, o que ficou claro pelo fato de que os dados estão nas colunas 4-17. A opção clear é usada para substituir o conjunto de dados existente na memória. Se você tem um grande número de variáveis, você deve considerar digitar os nomes e locais em um arquivo separado, chamado de dicionário, que você pode chamar a partir do comando infix. Tente digitar o seguinte dicionário em um arquivo chamado effort. dct: Dicionários aceitar apenas comentários e estes devem aparecer após a primeira linha. Depois de salvar esse arquivo, você pode ler os dados usando o comando Note que agora você usa o dicionário, que por sua vez usa o arquivo de dados. Em vez de especificar o nome do arquivo de dados no dicionário, você poderia especificá-lo como uma opção para o comando infix, usando o infixo de formulário usando dictionaryfile. Usando (datafile). O primeiro uso especifica o dicionário e o segundo uso é uma opção especificando o arquivo de dados. Isto é particularmente útil se você quiser usar um dicionário para ler vários arquivos de dados armazenados no mesmo formato. Se suas observações abrangem vários registros ou linhas, você ainda pode lê-las usando infix, desde que todas as observações tenham o mesmo número de registros (não necessariamente todos da mesma largura). Para obter mais informações, consulte infixo de ajuda. O comando infile também pode ser usado com dados de formato fixo e um dicionário. Este é um comando muito poderoso que lhe dá um número de opções não disponíveis com infixo, por exemplo, ele permite definir etiquetas de variáveis ​​no dicionário, mas a sintaxe é um pouco mais complicado. Consulte help infile2. Na maioria dos casos, você descobrirá que pode ler dados de formato livre usando dados em formato fixo e infile usando infix. Para mais informações sobre os trade-offs veja ajuda infiling. Os dados também podem ser digitados diretamente no Stata usando o comando input, veja help input. Ou usando o editor de dados Stata incorporado disponível através do editor D ataData no sistema de menus. 2.3 Documentação de dados Depois de ler os seus dados no Stata, é importante preparar alguma documentação. Nesta seção, veremos como criar conjuntos de dados, variáveis ​​e rótulos de valores e como criar notas para os dados ou variáveis. 2.3.1 Data Label e Notes O Stata permite que você marque seu conjunto de dados usando o comando label data seguido de um rótulo de até 80 caracteres (244 no Stata SE). Você também pode adicionar notas de até 64K caracteres cada usando o comando notas seguido de dois-pontos e, em seguida, o texto: Os usuários dos dados podem digitar notas para ver sua anotação. Documentar seus dados com cuidado sempre vale a pena. 2.3.2 Etiquetas e Notas Variáveis ​​Você pode (e deve) rotular suas variáveis ​​usando o comando label variável seguido pelo nome da variável e um rótulo de até 80 caracteres entre aspas. Com o comando infile você pode adicionar estas etiquetas ao dicionário, que é uma casa natural para eles. Caso contrário, você deve preparar um arquivo do com todos os rótulos. Heres como definir rótulos para as três variáveis ​​em nosso conjunto de dados: Stata também permite que você adicione notas a variáveis ​​específicas usando as notas de comando varname. Texto. Observe que o comando é seguido por um nome de variável e, em seguida, dois pontos: Digite descrever e, em seguida, notas para verificar o nosso trabalho até agora. 2.3.3 Etiquetas de Valor Você também pode rotular os valores de variáveis ​​categóricas. Nosso conjunto de dados não tem nenhuma variável categórica, mas permite criar uma. Vamos fazer uma cópia da variável esforço de planejamento familiar e depois agrupá-la em três categorias, 0-4, 5-15 e 15, que representam programas fracos, moderados e fortes (a geração e recodificação usadas nas duas primeiras linhas são descritas Na próxima seção, onde também mostramos como realizar todas essas etapas com apenas um comando): Stata tem uma abordagem em duas etapas para definir rótulos. Primeiro você define um conjunto de rótulos nomeado que associa códigos inteiros com rótulos de até 80 caracteres (244 no Stata SE), usando o comando label define. Em seguida, associar o conjunto de etiquetas a uma variável, utilizando o comando label values. Muitas vezes você usa o mesmo nome para o conjunto de etiquetas ea variável, como fizemos em nosso exemplo. Uma vantagem desta abordagem é que você pode usar o mesmo conjunto de rótulos para várias variáveis. O exemplo canônico é label defina yesno 1 sim 0 não. Que pode ser associado a todas as variáveis ​​0-1 no seu conjunto de dados, usando um comando dos valores do rótulo de formulário variablename yesno para cada um. Ao definir etiquetas, você pode omitir as aspas se o rótulo for uma única palavra, mas eu prefiro usá-las sempre para clareza. Os conjuntos de etiquetas podem ser modificados usando as opções adicionar ou modificar. Listadas usando o rótulo dir (lista somente nomes) ou lista de rótulos (lista nomes e rótulos) e salvos em um arquivo do usando o rótulo salvar. Digite o rótulo de ajuda para saber mais sobre essas opções e comandos. Você também pode ter rótulos em diferentes idiomas, conforme explicado abaixo. 2.3.4 Etiquetas multilíngues (Esta sub-seção pode ser pulada sem perda de continuidade.) Um arquivo Stata pode armazenar etiquetas em vários idiomas e você pode se mover livremente de um conjunto para outro. Uma limitação do suporte multi-linguagem na versão 13 e anteriores é que os rótulos foram restritos a caracteres ascii de 7 bits, então você não poderia incluir letras com marcas diacríticas, como acentos. Essa limitação foi removida com a introdução do suporte Unicode no Stata 14, para que você possa usar marcas diacríticas e outros caracteres não-ascii, não apenas em rótulos, mas em todo o Stata. Bem, ilustre a idéia, criando rótulos espanhóis para o nosso conjunto de dados. Seguindo as recomendações da Stata, usaremos os códigos de idioma ISO de duas letras, en para inglês e es para espanhol. Primeiro, usamos o idioma do rótulo para renomear o idioma atual para en. E para criar um novo idioma set es: Se você digitar desc agora você vai descobrir que as nossas variáveis ​​não têm rótulos Nós poderíamos ter copiado os Inglês, usando a opção de cópia. Mas que wouldnt salvar us qualquer trabalho neste caso. Aqui estão as versões em espanhol dos rótulos de dados e variáveis: Essas definições não substituem os rótulos correspondentes em inglês, mas coexistem com eles em um universo espanhol paralelo. Com rótulos de valor você precisa ser um pouco mais cuidadoso, porém você não pode simplesmente redefinir o conjunto de rótulos chamado effortg porque é apenas a associação entre uma variável e um conjunto de rótulos, e não os próprios rótulos, que é armazenado em um conjunto de idiomas. O que você precisa fazer é definir um novo conjunto de rótulos, welll chamá-lo de esforço. Combinando o nome antigo eo novo código de idioma e, em seguida, associá-lo à variável effortg: Você pode tentar o comando descrever agora. Experimente o esforço de tabulação: Em seguida, alteramos o idioma de volta para o inglês e executamos a tabela novamente: Para mais informações, digite help labellanguage. 2.4 Criando Novas Variáveis ​​Os comandos Stata mais importantes para criar novas variáveis ​​são gerar / substituir e recodificar. E eles são freqüentemente usados ​​juntos. 2.4.1 Gerar e substituir O comando gen erate cria uma nova variável usando uma expressão que pode combinar constantes, variáveis, funções e operadores aritméticos e lógicos. Vamos começar com um exemplo simples: aqui está como criar a configuração ao quadrado: Se você estiver indo para usar este termo em uma regressão você sabe que termos lineares e quadráticos são altamente correlacionados. Pode ser uma boa idéia centrar a variável (subtraindo a média) antes de quadrá-la. Aqui rodamos resumindo usando silenciosamente para suprimir a saída e recuperar a média do resultado armazenado r (média): Note que eu usei um nome diferente para esta variável. O Stata não permite que você sobrescreva uma variável existente usando generate. Se você realmente pretende substituir os valores da variável antiga use substituir em vez disso. Você também pode usar drop varnames para descartar uma ou mais variáveis ​​do conjunto de dados. 2.4.2 Operadores e Expressões A tabela a seguir mostra os operadores aritméticos, lógicos e relacionais padrão que você pode usar em expressões: gt maior ou igual Heres como criar uma variável de indicador para países com programas de alto esforço: Este é um idioma Stata comum , Aproveitando o fato de que as expressões lógicas tomam o valor 1 se verdadeiro e 0 se falso. Uma alternativa comum é escrever As duas estratégias produzem exatamente a mesma resposta. Ambos estarão errados se houver valores em falta, que serão codificados como de alto esforço porque os códigos de valores em falta são valores muito grandes, conforme observado na Seção 2.1 acima. Você deve desenvolver um bom hábito de evitar comparações abertas. Minha abordagem preferida é usar o que dá verdadeiro para esforço acima de 14, falso para esforço menor ou igual a 14 e ausente quando falta esforço. Expressões lógicas podem ser combinadas usando amp para e ou para ou. Heres como criar uma variável de indicador para o esforço entre 5 e 14: Aqui nós não precisamos nos preocupar com valores faltantes, eles são excluídos pela cláusula esforço lt 14. 2.4.3 Funções Stata tem um grande número de funções, aqui estão alguns O valor absoluto de x a função exponencial de x o inteiro obtido truncando x em direção a zero o logaritmo natural de x se xgt0 a base log 10 de x (para xgt0) O log das probabilidades para a probabilidade x: logit (x) ln (x / (1-x)) o máximo de x1, x2. Xn, ignorando valores em falta o mínimo de x1, x2. Xn, ignorando valores em falta x arredondado para o número inteiro mais próximo a raiz quadrada de x se x gt 0 Estas funções são aplicadas automaticamente a todas as observações quando o argumento é uma variável no seu conjunto de dados. Stata também tem uma função para gerar números aleatórios (útil em simulação), ou seja, uniforme (). Ele também possui um extenso conjunto de funções para calcular distribuições de probabilidade (necessárias para valores p) e suas inversas (necessárias para valores críticos), incluindo normal () para o normal cdf e invnormal () para seu inverso; mais informação. Para simular observações normalmente distribuídas você pode usar Existem também algumas funções especializadas para trabalhar com seqüências de caracteres, consulte as funções de seqüência de caracteres de ajuda. E com datas, consulte funções de data de ajuda. 2.4.4 Variáveis ​​de Recodificação O comando recode é usado para agrupar uma variável numérica em categorias. Suponha, por exemplo, uma pesquisa de fertilidade tem idade em anos únicos para mulheres de 15 a 49 anos, e você gostaria de codificá-lo em grupos etários de 5 anos. Você poderia, naturalmente, usar algo como, mas isso só funciona para intervalos regularmente espaçados (e é um pouco críptico). O mesmo resultado pode ser obtido usando Cada expressão entre parênteses é uma regra de recodificação, e consiste em uma lista ou intervalo de valores, seguido por um sinal de igual e um novo valor. Um intervalo, especificado usando uma barra, inclui os dois limites, então 15/19 é 15 a 19, que também poderia ser especificado como 15 16 17 18 19 ou mesmo 15 16 17/19. Você pode usar min para se referir ao menor valor e max para se referir ao maior valor, como em min / 19 e 44 / max. Os parênteses podem ser omitidos quando a regra tem o formato rangevalue, mas geralmente ajudam a tornar o comando mais legível. Os valores são atribuídos à primeira categoria onde eles caem. Valores que nunca são atribuídos a uma categoria são mantidos como estão. Você pode usar else (ou) como a última cláusula para se referir a qualquer valor ainda não atribuído. Alternativamente, você pode usar ausente e nonmissing para se referir a valores não atribuídos ausentes e nonmissing estes devem ser as duas últimas cláusulas e não pode ser combinado com else. No nosso exemplo também usamos a opção gen () para gerar uma nova variável, nesse caso age5 o padrão é substituir os valores da variável existente. Eu recomendo fortemente que você sempre usar a opção gen ou fazer uma cópia da variável original antes de recodificá-lo. Você também pode especificar rótulos de valor em cada regra de recodificação. Isso é mais simples e menos propenso a erros que criar os rótulos em uma instrução separada. O rótulo de opção (l abelname) permite atribuir um nome aos rótulos criados (o padrão é o mesmo que o nome da variável). Heres um exemplo mostrando como recodificar e rotular o esforço de planejamento familiar em uma etapa (compare com os quatro comandos usados ​​na Seção 2.4.2 acima). Geralmente, é uma boa idéia cruzar tabelas de variáveis ​​originais e recodificadas para verificar se a transformação funcionou como pretendido. (Claro que isso só pode ser feito se você tiver gerado uma nova variável) 2.5 Gerenciando arquivos Stata Depois de ter criado um arquivo de sistema Stata você vai querer salvá-lo no disco usando save filename. substituir. Onde a opção replace, como de costume, é necessária somente se o arquivo já existir. Para carregar um arquivo Stata que você salvou em uma sessão anterior, emita o comando use filename. Se houver variáveis ​​temporárias que você não precisa no arquivo salvo você pode soltá-las (antes de salvar) usando drop varnames. Como alternativa, você pode especificar as variáveis ​​que deseja manter, usando keep varname s. Com arquivos grandes você pode querer comprimi-los antes de salvar este comando olha para os dados e armazena cada variável no menor tipo possível de dados que não resultará em perda de precisão. É possível adicionar variáveis ​​ou observações a um arquivo Stata. Para adicionar variáveis, use o comando de mesclagem, que requer dois (ou mais) arquivos Stata, geralmente com um id comum, de modo que as observações podem ser emparelhadas corretamente. Uma aplicação típica é adicionar informações do agregado familiar a um ficheiro de dados individual. Digite help merge para saber mais. Para adicionar observações a um arquivo, use o comando append, que requer que os dados sejam anexados a um arquivo Stata, geralmente contendo as mesmas variáveis ​​do conjunto de dados na memória. Você pode, por exemplo, ter dados para pacientes em uma clínica e pode querer anexar dados semelhantes de outra clínica. Digite help append para saber mais. Um comando relacionado mas mais especializado é joinby. Que forma todas as combinações pairwise de observações na memória com observações em um dataset externo (veja também cross). Cópia 2017 Germaacuten Rodriacuteguez, Universidade de Princeton

No comments:

Post a Comment