Bases de Regressão para Análise de Negócios Se você já se perguntou como duas ou mais coisas se relacionam, ou se você já teve seu chefe pedir que você criasse uma previsão ou analisasse as relações entre as variáveis, então a regressão da aprendizagem valeria o seu tempo. Neste artigo, você aprenderá os conceitos básicos de regressão linear simples - uma ferramenta comumente usada na previsão e na análise financeira. Começaremos por aprender os principais princípios de regressão, primeiro aprendendo sobre covariância e correlação, e depois avançando para construir e interpretar um resultado de regressão. Muitos softwares, como o Microsoft Excel, podem fazer todos os cálculos e saídas de regressão para você, mas ainda é importante aprender a mecânica subjacente. No centro da regressão é a relação entre duas variáveis chamadas variáveis dependentes e independentes. Por exemplo, suponha que você preveja vendas para a sua empresa e concluiu que as vendas da sua empresa aumentam e dependem das mudanças no PIB. As vendas que você está prevendo serão a variável dependente porque seu valor depende do valor do PIB e o PIB seria a variável independente. Você precisaria determinar a força da relação entre essas duas variáveis para prever as vendas. Se os aumentos do PIB diminuírem em 1, quanto suas vendas aumentarão ou diminuirão. Covariância A fórmula para calcular a relação entre duas variáveis é chamada de covariância. Este cálculo mostra a direção do relacionamento, bem como sua força relativa. Se uma variável aumenta e a outra variável também aumenta, a covariância seria positiva. Se uma variável sobe e a outra tende a diminuir, então a covariância seria negativa. O número real que você obtém de calcular isso pode ser difícil de interpretar porque não está padronizado. Uma covariância de cinco, por exemplo, pode ser interpretada como um relacionamento positivo, mas a força do relacionamento só pode ser dito ser mais forte do que se o número fosse quatro ou mais fraco do que se o número fosse seis. Coeficiente de correlação Precisamos padronizar a covariância para nos permitir melhor interpretar e usá-la na previsão, e o resultado é o cálculo da correlação. O cálculo da correlação simplesmente assume a covariância e divide-a pelo produto do desvio padrão das duas variáveis. Isso vinculará a correlação entre um valor de -1 e 1. Uma correlação de 1 pode ser interpretada de modo a sugerir que ambas as variáveis se movem perfeitamente positivamente entre si e uma -1 implica que elas estão perfeitamente correlacionadas negativamente. No nosso exemplo anterior, se a correlação for 1 e o PIB aumentará em 1, as vendas aumentarão em 1. Se a correlação for -1, um aumento no PIB resultaria em uma 1 queda nas vendas - exatamente o oposto. Equação de regressão Agora que sabemos como a relação relativa entre as duas variáveis é calculada, podemos desenvolver uma equação de regressão para prever ou prever a variável que desejamos. Abaixo está a fórmula para uma regressão linear simples. O y é o valor que estamos tentando prever, b é a inclinação da regressão, o x é o valor do nosso valor independente, e o a representa o y-intercepto. A equação de regressão simplesmente descreve a relação entre a variável dependente (y) e a variável independente (x). A intercepção, ou a, é o valor de y (variável dependente) se o valor de x (variável independente) for zero. Portanto, se não houvesse mudança no PIB, sua empresa ainda faria algumas vendas - esse valor, quando a mudança no PIB é zero, é a intercepção. Dê uma olhada no gráfico abaixo para ver uma representação gráfica de uma equação de regressão. Neste gráfico, existem apenas cinco pontos de dados representados pelos cinco pontos no gráfico. A regressão linear tenta estimar uma linha que melhor se ajusta aos dados e a equação dessa linha resulta na equação de regressão. Figura 1: Linha de melhor ajuste Interpretação Os principais resultados que você precisa se preocupar com a regressão linear simples são o R-squared. A intercepção e o coeficiente do PIB. O número R-quadrado neste exemplo é 68.7 - isso mostra o quão bem o nosso modelo prevê ou prevê as vendas futuras. Em seguida, temos uma intercepção de 34,58, o que nos diz que, se a mudança no PIB fosse zero, nossas vendas seriam cerca de 35 unidades. E, finalmente, o coeficiente de correlação do PIB de 88,15 nos diz que se o PIB aumentar em 1, as vendas provavelmente aumentarão em cerca de 88 unidades. The Bottom Line Então, como você usaria esse modelo simples em seu negócio? Bem, se sua pesquisa o levar a acreditar que a próxima mudança do PIB será uma certa porcentagem, você pode conectar essa porcentagem ao modelo e gerar uma previsão de vendas. Isso pode ajudá-lo a desenvolver um plano e orçamento mais objetivos para o próximo ano. Claro que isso é apenas uma regressão simples e existem modelos que você pode construir que usam várias variáveis independentes chamadas múltiplas regressões lineares. Mas várias regressões lineares são mais complicadas e têm várias questões que precisarão de outro artigo para discutir. Análise de Revisão 13 Para encontrar o erro padrão da estimativa, tomamos a soma de todos os termos residuais quadrados e dividimos por (n - 2) e Em seguida, pegue a raiz quadrada do resultado. Nesse caso, a soma dos resíduos quadrados é 0.090.160.642.250.04 3.18. Com cinco observações, n - 2 3 e SEE (3.183) 12 1.03. A computação para erro padrão é relativamente semelhante à do desvio padrão para uma amostra (n - 2 é usado em vez de n - 1). Isso dá alguma indicação da qualidade preditiva de um modelo de regressão, com números SEE mais baixos indicando que previsões mais precisas são possíveis. No entanto, a medida de erro padrão não indica a medida em que a variável independente explica variações no modelo dependente. Coeficiente de Determinação Como o erro padrão, esta estatística dá uma indicação de quão bem um modelo de regressão linear serve como um estimador de valores para a variável dependente. Ele funciona medindo a fração da variação total na variável dependente que pode ser explicada pela variação na variável independente. Neste contexto, a variação total é constituída por duas frações: Variação total variação explicada variação inexplicável variação total variação total O coeficiente de determinação. Ou variação explicada como porcentagem da variação total, é o primeiro desses dois termos. Às vezes é expresso como 1 - (variação total de variação inexplicada). Para uma regressão linear simples com uma variável independente, o método simples para calcular o coeficiente de determinação é a quadratura do coeficiente de correlação entre as variáveis dependente e independente. Uma vez que o coeficiente de correlação é dado por r, o coeficiente de determinação é popularmente conhecido como R 2. ou R-quadrado. Por exemplo, se o coeficiente de correlação for 0.76, o R-quadrado é (0.76) 2 0.578. Os termos R-quadrado são geralmente expressos em porcentagens, portanto 0,578 seria 57,8. Um segundo método de computação deste número seria encontrar a variação total na variável dependente Y como a soma dos desvios quadrados da média da amostra. Em seguida, calcule o erro padrão da estimativa seguindo o processo descrito na seção anterior. O coeficiente de determinação é então calculado por (variação total na variação Y inexplicável em Y) variação total em Y. Este segundo método é necessário para regressões múltiplas, onde há mais de uma variável independente, mas para nosso contexto, seremos fornecidos O r (coeficiente de correlação) para calcular um R-quadrado. O que R 2 nos diz são as mudanças na variável dependente Y que são explicadas por mudanças na variável independente X. R 2 de 57.8 nos diz que 57.8 das mudanças no resultado Y de X também significa que 1 - 57.8 ou 42.2 de As mudanças em Y são inexplicadas por X e são o resultado de outros fatores. Assim, quanto maior o R-quadrado, melhor a natureza preditiva do modelo de regressão linear. Coeficientes de regressão Para qualquer coeficiente de regressão (interceptar a ou inclinação b), um intervalo de confiança pode ser determinado com as seguintes informações: 13 Um valor de parâmetro estimado de uma amostra 13 Erro padrão da estimativa (SEE) 13 Nível de significância para o t - Distribuição 13 Graus de liberdade (que é tamanho de amostra - 2) 13 Para um coeficiente de inclinação, a fórmula para o intervalo de confiança é dada por btc SEE, onde tc é o valor t crítico no nosso nível significativo escolhido. Para ilustrar, faça uma regressão linear com retornos de fundos mútuos como variável dependente e índice SampP 500 como variável independente. Durante cinco anos de retornos trimestrais, o coeficiente de inclinação b é de 1,18, com um erro padrão da estimativa de 0,147. A distribuição t dos alunos para 18 graus de liberdade (20 trimestres - 2) com um nível de significância de 0,05 é 2.101. Esses dados nos fornecem um intervalo de confiança de 1,18 (0,147) (2,101), ou uma faixa de 0,87 a 1,49. Nossa interpretação é que há apenas uma chance de que a inclinação da população seja inferior a 0,87 ou superior a 1,49 - estamos confiantes de que esse fundo é pelo menos 87 tão volátil quanto o SampP 500, mas não mais de 149 como Volátil, com base em nossa amostra de cinco anos. Teste de Hipóteses e Coeficientes de Regressão Os coeficientes de regressão são freqüentemente testados usando o procedimento de teste de hipóteses. Dependendo do que o analista pretenda provar, podemos testar um coeficiente de inclinação para determinar se explica chances na variável dependente e na medida em que explica as mudanças. Os Betas (coeficientes de inclinação) podem ser determinados acima ou abaixo de 1 (mais voláteis ou menos voláteis do que o mercado). Alphas (o coeficiente de intercepção) pode ser testado em uma regressão entre um fundo mútuo e o índice de mercado relevante para determinar se há evidência de um alfa suficientemente positivo (sugerindo valor agregado pelo gerente do fundo). A mecânica do teste de hipóteses é semelhante aos exemplos que usamos anteriormente. Uma hipótese nula é escolhida com base em um valor não igual a maior ou menor do que o caso, com a alternativa que satisfaz todos os valores não cobertos no caso nulo. Suponha que, em nosso exemplo anterior, regredimos um retorno de fundos mútuos no SampP 500 por 20 trimestres, nossa hipótese é que esse fundo mútuo é mais volátil do que o mercado. Um fundo igual em volatilidade para o mercado terá declive b de 1,0, então, para este teste de hipóteses, apresentamos a hipótese nula (H 0), caso o declive seja menor ou maior a 1,0 (ou seja, H 0: l 1,0 ). A hipótese alternativa H a tem b gt 1.0. Sabemos que este é um caso maior do que o caso (ou seja, um atinente) - se assumimos um nível de significância de 0,05, t é igual a 1,734 em graus de liberdade n - 2 18. Exemplo: Interpretando um teste de hipótese De nossa amostra, nós Tinha estimado b de 1,18 e erro padrão de 0,147. Nossa estatística de teste é calculada com esta fórmula: t coeficiente estimado - coeficiente de hipótese. Erro padrão (1.18 - 1.0) 0.147 0.180.147, ou t 1.224. Para este exemplo, nossa estatística de teste calculada está abaixo do nível de rejeição de 1.734, portanto não podemos rejeitar a hipótese nula de que o fundo é mais volátil do que o mercado. Interpretação: a hipótese de que b gt 1 para este fundo provavelmente precisa de mais observações (graus de liberdade) para ser comprovada com significância estatística. Além disso, com 1,18 apenas um pouco acima de 1,0, é bem possível que este fundo não seja tão volátil quanto o mercado, e estávamos corretos para não rejeitar a hipótese nula. Exemplo: Interpretação de um coeficiente de regressão O exame CFA provavelmente dará as estatísticas resumidas de uma regressão linear e pedirá interpretação. Para ilustrar, assuma as seguintes estatísticas para uma regressão entre um fundo de crescimento de pequena capitalização e o índice Russell 2000: 13 Coeficiente de correlação 13 As duas abreviaturas a entender são RSS e SSE: 13 RSS. Ou a soma de regressão dos quadrados, é a quantidade de variação total na variável dependente Y que é explicada na equação de regressão. O RSS é calculado calculando cada desvio entre um valor Y predito e o valor Y médio, esquadrinhando o desvio e somando todos os termos. Se uma variável independente explica nenhuma das variações em uma variável dependente, então os valores previstos de Y são iguais ao valor médio e RSS 0. 13 SSE. Ou a soma do erro quadrado dos resíduos, é calculado ao encontrar o desvio entre um Y predito e um Y real, o quadrado do resultado e a adição de todos os termos. 13 TSS, ou variação total, é a soma de RSS e SSE. Em outras palavras, este processo ANOVA quebra a variância em duas partes: uma que é explicada pelo modelo e um que não é. Essencialmente, para que uma equação de regressão tenha alta qualidade preditiva, precisamos ver um RSS elevado e um SSE baixo, o que tornará a relação (RSS1) SSE (n - 2) alta e (com base em uma comparação com um F - Valor estatisticamente significativo. O valor crítico é retirado da distribuição F e é baseado em graus de liberdade. Por exemplo, com 20 observações, os graus de liberdade seriam n - 2 ou 18, resultando em um valor crítico (da tabela) de 2.19. Se o RSS fosse 2,5 e a SSE fosse 1,8, então a estatística de teste calculada seria F (2,5 (1,818) 25, que está acima do valor crítico, o que indica que a equação de regressão possui qualidade preditiva (b é diferente de 0) Estimativa de estatísticas econômicas Com modelos de regressão Os modelos de regressão são freqüentemente utilizados para estimar as estatísticas econômicas, como a inflação e o crescimento do PIB. Suponha que a seguinte regressão seja feita entre a inflação anual estimada (X ou variável independente) eo número real (Y ou variável dependente): Usando isso Modelo, o número de inflação previsto seria calculado com base no modelo para os seguintes cenários de inflação: 13 Estimativa de inflação 13 Inflação baseada no modelo 13 As previsões baseadas neste modelo parecem funcionar melhor para estimativas de inflação típicas e sugerem que estimativas extremas tendem a Supera a inflação - por exemplo, uma inflação real de apenas 4,46 quando a estimativa foi de 4,7. O modelo parece sugerir que as estimativas são altamente preditivas. Embora para avaliar melhor este modelo, precisamos ver o erro padrão eo número de observações em que se baseia. Se conhecemos o valor verdadeiro dos parâmetros de regressão (inclinação e interceptação), a variância de qualquer valor previsto de Y seria igual ao quadrado do erro padrão. Na prática, devemos estimar os parâmetros de regressão, portanto nosso valor previsto para Y é uma estimativa baseada em um modelo estimado. Quão confiável podemos estar em tal processo. Para determinar um intervalo de predição, use as seguintes etapas: 1. Preditar o valor da variável dependente Y com base na observação independente X. 2. Calcular a variância do erro de predição, usando o Seguinte equação: 13 Onde: s 2 é o erro padrão quadrado da estimativa, n é o número de observações, X é o valor da variável independente usada para fazer a predição, X é o valor médio estimado da variável independente e sx 2 é a variância de X. 3. Escolha um nível de significância para o intervalo de confiança. 4. Construa um intervalo de confiança de (1 -), usando a estrutura Y t c s f. Este é outro caso em que o material se torna muito mais técnico do que o necessário e pode-se ficar atolado na preparação, quando na realidade a fórmula para a variação de um erro de previsão provavelmente não será coberta. Priorize - não desperdice horas preciosas de estudo memorizando. Se o conceito for testado, provavelmente será dada a resposta para a Parte 2. Simplesmente sabe como usar a estrutura na Parte 4 para responder a uma pergunta. Por exemplo, se a observação X prevista for 2 para a regressão Y 1.5 2.5X, teríamos um Y predito de 1.5 2.5 (2), ou 6.5. Nosso intervalo de confiança é 6.5 t c s f. O t-stat é baseado em um intervalo de confiança escolhido e graus de liberdade, enquanto sf é a raiz quadrada da equação acima (para variância do erro de predição. Se esses números são tc 2.10 para confiança 95 e sf 0.443, o intervalo É 6.5 (2.1) (0.443), ou 5.57 a 7.43. Limitações da análise de regressão Concentre-se em três limitações principais: 1. Instabilidade de parâmetros - Esta é a tendência para que as relações entre as variáveis mudem ao longo do tempo devido a mudanças na economia ou nos mercados , Entre outras incertezas. Se um fundo mútuo produzisse um histórico de retorno em um mercado onde a tecnologia era um setor de liderança, o modelo pode não funcionar quando os mercados estrangeiros e de capitais pequenos são líderes. 2. Divulgação pública do relacionamento - Em um mercado eficiente , Isso pode limitar a eficácia desse relacionamento em períodos futuros. Por exemplo, a descoberta de que os valores baixos de preço a valor de estoque superam o alto valor de preço por valor significa que esses estoques podem ser mais elevados e baseados em valores As abordagens de vestuário não manterão o mesmo relacionamento que no passado. 3. Violação dos relacionamentos de regressão - Anteriormente, resumimos os seis pressupostos clássicos de uma regressão linear. No mundo real, essas premissas são muitas vezes pouco realistas - por ex. Assumindo que a variável independente X não é aleatória.
No comments:
Post a Comment