Saturday 19 May 2018

Moving average and exponential smoothing models


A suavização de dados remove a variação aleatória e mostra tendências e componentes cíclicos Inerente à coleta de dados ao longo do tempo, há alguma forma de variação aleatória. Existem métodos para reduzir o cancelamento do efeito devido à variação aleatória. Uma técnica frequentemente usada na indústria é suavizar. Esta técnica, quando aplicada corretamente, revela mais claramente a tendência subjacente, componentes sazonais e cíclicos. Existem dois grupos distintos de métodos de suavização Métodos de Média Exponencial Suavização de Métodos A obtenção de médias é a maneira mais simples de suavizar dados. Primeiro investigaremos alguns métodos de cálculo de média, como a média simples de todos os dados anteriores. Um gerente de um depósito quer saber quanto um fornecedor típico entrega em unidades de mil dólares. Ele / ela pega uma amostra de 12 fornecedores, aleatoriamente, obtendo os seguintes resultados: A média calculada ou média dos dados 10. O gerente decide usar isso como a estimativa para o gasto de um fornecedor típico. Esta é uma estimativa boa ou ruim O erro quadrático médio é uma maneira de julgar quão bom é um modelo Vamos calcular o erro quadrático médio. O valor verdadeiro do erro gasto menos o valor estimado. O erro ao quadrado é o erro acima, ao quadrado. O SSE é a soma dos erros quadrados. O MSE é a média dos erros ao quadrado. Resultados do MSE, por exemplo Os resultados são: Erro e Erros Quadráticos A estimativa 10 Surge a pergunta: podemos usar a média para prever renda se suspeitarmos de uma tendência Uma olhada no gráfico abaixo mostra claramente que não devemos fazer isso. A média pesa todas as observações passadas igualmente Em resumo, afirmamos que A média simples ou média de todas as observações passadas é apenas uma estimativa útil para previsão quando não há tendências. Se houver tendências, use estimativas diferentes que levem em consideração a tendência. A média pesa todas as observações passadas igualmente. Por exemplo, a média dos valores 3, 4, 5 é 4. Sabemos, é claro, que uma média é computada adicionando todos os valores e dividindo a soma pelo número de valores. Outra maneira de calcular a média é somando cada valor dividido pelo número de valores, ou 3/3 4/3 5/3 1 1.3333 1.6667 4. O multiplicador 1/3 é chamado de peso. Em geral: bar frac soma esquerda (fratura direita) x1 esquerda (fratura direita) x2,. , esquerda (frac direita) xn. Os (à esquerda (fratura à direita)) são os pesos e, é claro, eles somam a 1.Previsão por Técnicas de Suavização Este site faz parte dos objetos de aprendizado de E-labs de JavaScript para a tomada de decisões. Outros JavaScript nesta série são categorizados em diferentes áreas de aplicativos na seção MENU desta página. Uma série temporal é uma seqüência de observações ordenadas no tempo. Inerente na coleta de dados ao longo do tempo é alguma forma de variação aleatória. Existem métodos para reduzir o cancelamento do efeito devido à variação aleatória. Técnicas amplamente utilizadas são suavizantes. Essas técnicas, quando aplicadas corretamente, revelam mais claramente as tendências subjacentes. Insira a série temporal em ordem de seqüência, começando no canto superior esquerdo e o (s) parâmetro (s) e, em seguida, clique no botão Calcular para obter previsão de um período à frente. Caixas em branco não são incluídas nos cálculos, mas zeros são. Ao inserir seus dados para mover de uma célula para outra na matriz de dados, use a tecla Tab e não insira as setas. Recursos de séries temporais, que podem ser revelados ao examinar seu gráfico. com os valores previstos, e o comportamento dos resíduos, modelagem de previsão de condição. Médias móveis: as médias móveis estão entre as técnicas mais populares para o pré-processamento de séries temporais. Eles são usados ​​para filtrar o ruído branco aleatório dos dados, para tornar a série temporal mais suave ou até para enfatizar certos componentes informativos contidos nas séries temporais. Suavização Exponencial: Este é um esquema muito popular para produzir uma Série Temporal suavizada. Enquanto em Moving Averages as observações passadas são ponderadas igualmente, o Exponential Smoothing atribui pesos exponencialmente decrescentes à medida que a observação fica mais velha. Em outras palavras, observações recentes recebem um peso relativamente maior na previsão do que as observações mais antigas. A suavização exponencial dupla é melhor para lidar com tendências. A suavização exponencial tripla é melhor para lidar com as tendências da parábola. Uma média móvel exponenciada com uma constante de suavização a. corresponde aproximadamente a uma média móvel simples de comprimento (isto é, período) n, em que a e n estão relacionados por: a 2 / (n1) OR n (2 - a) / a. Assim, por exemplo, uma média móvel exponenencialmente ponderada com uma constante de alisamento igual a 0,1 corresponderia aproximadamente a uma média móvel de 19 dias. E uma média móvel simples de 40 dias corresponderia aproximadamente a uma média móvel ponderada exponencialmente com uma constante de suavização igual a 0,04878. Holts Suavização linear exponencial: suponha que a série temporal seja não sazonal, mas exiba tendência. O método de Holts estima o nível atual e a tendência atual. Observe que a média móvel simples é um caso especial da suavização exponencial, configurando o período da média móvel para a parte inteira de (2-Alpha) / Alpha. Para a maioria dos dados de negócios, um parâmetro Alpha menor que 0,40 costuma ser efetivo. No entanto, pode-se realizar uma pesquisa em grade do espaço de parâmetros, com 0,1 a 0,9, com incrementos de 0,1. Em seguida, o melhor alfa tem o menor erro absoluto médio (erro MA). Como comparar vários métodos de suavização: Embora existam indicadores numéricos para avaliar a precisão da técnica de previsão, a abordagem mais ampla é usar a comparação visual de várias previsões para avaliar sua precisão e escolher entre os vários métodos de previsão. Nesta abordagem, é necessário plotar (utilizando, por exemplo, Excel) no mesmo gráfico os valores originais de uma variável de série temporal e os valores previstos de vários métodos de previsão diferentes, facilitando assim uma comparação visual. Você pode gostar de usar as Previsões Passadas por Técnicas de Suavização do JavaScript para obter os valores de previsão anteriores com base nas técnicas de suavização que usam apenas um único parâmetro. Os métodos de Holt e Winters usam dois e três parâmetros, respectivamente, portanto, não é uma tarefa fácil selecionar os valores ótimos, ou até mesmo próximos, por tentativa e erros para os parâmetros. A suavização exponencial única enfatiza a perspectiva de curto alcance que define o nível para a última observação e é baseada na condição de que não há tendência. A regressão linear, que ajusta uma linha de mínimos quadrados aos dados históricos (ou dados históricos transformados), representa o longo alcance, que é condicionado à tendência básica. A suavização exponencial linear de Holts captura informações sobre tendências recentes. Os parâmetros no modelo de Holts são parâmetros de níveis que devem ser diminuídos quando a quantidade de variação de dados é grande, e o parâmetro de tendências deve ser aumentado se a direção de tendência recente for apoiada por alguns fatores causais. Previsão de curto prazo: observe que todo JavaScript nesta página fornece uma previsão de um passo à frente. Para obter uma previsão de dois passos à frente. Basta adicionar o valor previsto ao final dos dados da série temporal e, em seguida, clicar no mesmo botão Calcular. Você pode repetir esse processo por algumas vezes para obter as previsões de curto prazo necessárias. Modelos de suavização expansiva e exponencial Como primeiro passo para melhorar modelos de previsão ingênuos, os padrões e tendências não sazonais podem ser extrapolados usando uma média móvel ou suavização modelo. A suposição básica por trás dos modelos de média e suavização é que a série temporal é localmente estacionária com uma média de variação lenta. Assim, tomamos uma média móvel (ou seja, local) para estimar o valor atual da média e usamos isso como a previsão. Isso pode ser considerado como um compromisso entre o modelo de média e o modelo de passeio aleatório. A média móvel geralmente é chamada de versão suavizada da série original, já que a média de curto prazo tem o efeito de suavizar os solavancos da série original. Ajustando o grau de suavização (ou seja, a largura da média móvel), podemos esperar encontrar algum tipo de equilíbrio ideal entre o desempenho dos modelos de caminhada média e aleatória. O tipo mais simples de modelo de média é o. Média Móvel Simples (igualmente ponderada): Aqui, a previsão Yacute (t) de um período à frente, feita no tempo t-1, é igual à média simples das últimas k observações. Esta média está centrada no período t - (k1) / 2, o que implica que a estimativa da média local tenderá a ficar atrás do valor real da média local em cerca de (k1) / 2 períodos. Assim, dizemos que a média de idade dos dados na média móvel simples é (k1) / 2 em relação ao período para o qual a previsão é calculada: este é o período de tempo que as previsões tendem a ficar para trás nos pontos de virada no dados. Por exemplo, se você está calculando a média dos últimos 5 valores, as previsões serão aproximadamente 3 períodos mais tarde para responder aos pontos de virada. Observe que, se k1, o modelo de média móvel simples (SMA) é equivalente ao modelo de passeio aleatório (sem crescimento). Se k é muito grande (comparável à duração do período de estimativa), o modelo SMA é equivalente ao modelo de média. Como em qualquer parâmetro de um modelo de previsão, costuma-se ajustar o valor de k para obter o melhor ajuste aos dados, ou seja, os menores erros de previsão, em média. Aqui está um exemplo de uma série que parece exibir flutuações aleatórias em torno de uma média de variação lenta. Primeiro, vamos tentar ajustá-lo com um modelo de passeio aleatório, que equivale a uma média móvel simples de 1 termo: o modelo de passeio aleatório responde muito rapidamente a mudanças na série, mas ao fazê-lo ele capta muito do ruído na série. dados (as flutuações aleatórias), bem como o sinal (a média local). Se, em vez disso, tentarmos uma média móvel simples de 5 termos, obteremos um conjunto de previsões mais suave: a média móvel simples de 5 termos gera erros significativamente menores do que o modelo de passeio aleatório nesse caso. A idade média dos dados nesta previsão é de 3 ((51) / 2), de modo que ela tende a ficar atrás de pontos de virada em cerca de três períodos. (Por exemplo, uma desaceleração parece ter ocorrido no período 21, mas as previsões não mudam até vários períodos depois.) Observe que as previsões de longo prazo do modelo SMA são uma linha reta horizontal, assim como no passeio aleatório. modelo. Assim, o modelo SMA assume que não há tendência nos dados. No entanto, enquanto as previsões do modelo de passeio aleatório são simplesmente iguais ao último valor observado, as previsões do modelo SMA são iguais a uma média ponderada de valores recentes. Curiosamente, os limites de confiança calculados pela Statgraphics para as previsões de longo prazo da média móvel simples não aumentam à medida que o horizonte de previsão aumenta. Isso obviamente não está correto Infelizmente, não há uma teoria estatística subjacente que nos diga como os intervalos de confiança devem se ampliar para esse modelo. Se você fosse usar esse modelo na prática, seria aconselhável usar uma estimativa empírica dos limites de confiança para as previsões de horizonte mais longo. Por exemplo, você poderia configurar uma planilha na qual o modelo do SMA seria usado para prever duas etapas à frente, três etapas à frente etc. na amostra de dados históricos. Você poderia calcular os desvios padrão da amostra dos erros em cada horizonte de previsão e, em seguida, construir intervalos de confiança para previsões de prazo mais longo adicionando e subtraindo múltiplos do desvio padrão apropriado. Se tentarmos uma média móvel simples de 9 termos, obteremos previsões ainda mais suaves e mais um efeito retardado: a idade média é agora de 5 períodos ((91) / 2). Se tomarmos uma média móvel de 19 anos, a idade média aumentará para 10: observe que, de fato, as previsões agora estão atrasadas em relação aos pontos de virada em cerca de 10 períodos. Suavização exponencial simples de Browns (média móvel exponencialmente ponderada) O modelo de média móvel simples descrito acima tem a propriedade indesejável de tratar as últimas k observações de forma igual e ignorar completamente todas as observações anteriores. Intuitivamente, os dados passados ​​devem ser descontados de forma mais gradual - por exemplo, a observação mais recente deve ter um pouco mais de peso do que o segundo mais recente, e o segundo mais recente deve ter um pouco mais de peso que o terceiro mais recente. em breve. O simples modelo de suavização exponencial (SES) faz isso. Deixe denotar uma constante de suavização (um número entre 0 e 1) e seja S (t) o valor da série suavizada no período t. A seguinte fórmula é usada recursivamente para atualizar a série suavizada conforme novas observações são registradas: Assim, o valor suavizado atual é uma interpolação entre o valor suavizado anterior e a observação atual, onde controla a proximidade do valor interpolado para a observação mais recente. A previsão para o próximo período é simplesmente o atual valor suavizado: (Nota: a partir de agora usaremos o símbolo Yacute para representar uma previsão da série temporal Y, porque Yacute é a coisa mais próxima de um y-hat que pode ser exibido em Equivalentemente, podemos expressar a próxima previsão diretamente em termos de previsões anteriores e observações anteriores, em qualquer uma das seguintes formas: Yacute (t1) Y (t) (1-) Yacute (t). Previsão de interpolação entre a previsão anterior e a observação anterior Yacute (t1) Yacute (t) e (t). previsão previsão anterior mais fração de erro anterior, onde e (t) Y (t) - Y (t) Yacute (t1) Y (t) - (1-) e (t). previsão da observação anterior menos a fração 1 do erro anterior Yacute (t1) Y (t) (1-) Y (t-1) ((1-) 2) Y (t-2) ((1-) 3) Y (t -3). . prever médias móveis exponencialmente ponderadas (isto é, descontadas) com factor de desconto 1- As quatro equações precedentes são todas matematicamente equivalentes - qualquer uma delas pode ser obtida por rearranjo de qualquer uma das outras. A primeira equação acima é provavelmente a mais fácil de usar se você estiver implementando o modelo em uma planilha: a fórmula de previsão se encaixa em uma única célula e contém referências de célula apontando para a previsão anterior, a observação anterior e a célula onde o valor é armazenado. Observe que, se 1, o modelo SES é equivalente a um modelo de passeio aleatório (sem crescimento). Se 0, o modelo SES é equivalente ao modelo da média, assumindo que o primeiro valor suavizado é definido como igual à média. A idade média dos dados na previsão de suavização exponencial simples é 1 / relativa ao período para o qual a previsão é calculada. (Isso não deve ser óbvio, mas pode ser facilmente mostrado avaliando-se uma série infinita.) Assim, a previsão da média móvel simples tende a ficar para trás em pontos de virada em cerca de 1 / ponto. Por exemplo, quando 0,5 o atraso é de 2 períodos, quando 0,2, o atraso é de 5 períodos, quando 0,1, o atraso é de 10 períodos e assim por diante. Para uma determinada idade média (ou seja, quantidade de defasagem), a previsão de suavização exponencial simples (SES) é um pouco superior à previsão de média móvel simples (SMA) porque coloca relativamente mais peso na observação mais recente - isto é. é um pouco mais sensível às mudanças que ocorreram no passado recente. Outra importante vantagem do modelo SES sobre o modelo SMA é que o modelo SES usa um parâmetro de suavização que é continuamente variável, para que possa ser facilmente otimizado usando um algoritmo de solver para minimizar o erro quadrático médio. O valor ideal do modelo SES para esta série é 0.2961, como mostrado aqui: A idade média dos dados nesta previsão é de 1 / 0.2961 3.4 períodos, o que é semelhante ao de uma média móvel simples de 6 termos . As previsões de longo prazo do modelo SES são uma linha reta horizontal. como no modelo SMA e no modelo de passeio aleatório sem crescimento. No entanto, observe que os intervalos de confiança calculados pela Statgraphics agora divergem de maneira razoável, e que eles são substancialmente mais estreitos do que os intervalos de confiança para o modelo de passeio aleatório. O modelo SES assume que a série é um pouco mais previsível do que o modelo de passeio aleatório. Um modelo SES é, na verdade, um caso especial de um modelo ARIMA, portanto, a teoria estatística dos modelos ARIMA fornece uma base sólida para calcular os intervalos de confiança para o modelo SES. Em particular, um modelo SES é um modelo ARIMA com uma diferença não sazonal, um termo MA (1) e nenhum termo constante. também conhecido como modelo ARIMA (0,1,1) sem constante. O coeficiente MA (1) no modelo ARIMA corresponde à quantidade 1- no modelo SES. Por exemplo, se você ajustar um modelo ARIMA (0,1,1) sem constante para as séries aqui analisadas, o coeficiente estimado MA (1) será 0,7029, que é quase exatamente um menos 0,2961. É possível adicionar a suposição de uma tendência linear constante diferente de zero a um modelo SES. Para fazer isso no Statgraphics, basta especificar um modelo ARIMA com uma diferença não-sazonal e um termo MA (1) com uma constante, ou seja, um modelo ARIMA (0,1,1) com constante. As previsões a longo prazo terão então uma tendência que é igual à tendência média observada ao longo de todo o período de estimativa. Você não pode fazer isso em conjunto com o ajuste sazonal, porque as opções de ajuste sazonal são desabilitadas quando o tipo de modelo é definido como ARIMA. No entanto, você pode adicionar uma tendência exponencial constante de longo prazo a um modelo de suavização exponencial simples (com ou sem ajuste sazonal) usando a opção de ajuste de inflação no procedimento Previsão. A taxa adequada de inflação (crescimento percentual) por período pode ser estimada como o coeficiente de inclinação em um modelo de tendência linear ajustado aos dados em conjunto com uma transformação logarítmica natural ou pode ser baseada em outra informação independente relativa às perspectivas de crescimento de longo prazo. . Browns Linear (ou seja, double) Suavização Exponencial Se a tendência, bem como a média, varia lentamente ao longo do tempo, é necessário um modelo de suavização de ordem superior para rastrear a tendência variável. O modelo de tendência mais simples e variante no tempo é o modelo de suavização exponencial linear (LES) de Brown, que usa duas séries suavizadas diferentes centradas em diferentes pontos no tempo. A fórmula de previsão é baseada em uma extrapolação de uma linha através dos dois centros. (Como alternativa, uma aplicação dupla do método da média móvel simples pode ser usada para rastrear tendências variáveis ​​no tempo - consulte as páginas 154-158 em seu livro.) A forma algébrica do modelo de suavização exponencial linear, como a da suavização exponencial simples modelo, pode ser expresso em várias formas diferentes, mas equivalentes. A forma padrão deste modelo é geralmente expressa da seguinte forma: Seja S a série suavemente isolada obtida pela aplicação de suavização exponencial simples à série Y. Ou seja, o valor de S no período t é dado por: (Lembre-se que, sob simples suavização exponencial, apenas deixaríamos Yacute (t1) S (t) neste ponto. Então, S indicará a série suavemente dupla obtida aplicando suavização exponencial simples (usando a mesma) à série S: Finalmente, a previsão Yacute ( t1) é dado por: a (t) 2S (t) - S (t). o nível estimado no período t As previsões com prazos de execução mais longos feitos no período t são obtidas pela adição de múltiplos do termo de tendência. Por exemplo, a previsão do período k-ahead (ou seja, a previsão para Y (tk) feita no período t) seria igual a a (t) kb (t). Para propósitos de ajuste de modelos (isto é, cálculo de previsões, resíduos e estatísticas residuais durante o período de estimação), o modelo pode ser inicializado configurando S (1) S (1) Y (1), isto é, ambas séries suavizadas o valor observado em t1. Uma forma matematicamente equivalente do modelo de suavização exponencial linear de Brown, que enfatiza seu caráter não estacionário e é mais fácil de implementar em uma planilha, é a seguinte: Em outras palavras, a diferença prevista no período t (a saber Yacute (t) - Y t-1)) é igual à diferença observada anteriormente (ou seja, Y (t-1) - Y (t-2)) menos uma diferença ponderada dos dois erros de previsão anteriores. Atenção: esta forma do modelo é bastante difícil de iniciar no início do período de estimativa. Recomenda-se a seguinte convenção: primeiro defina Yacute (1) Y (1), que produz e (1) 0 (ou seja, trapaceie um pouco e deixe a primeira previsão igual à primeira observação real) e defina Yacute (2) Y (1), que produz e (2) Y (2) - Y (1), então continue a partir deste ponto usando a equação acima. Isto produziria os mesmos valores ajustados que a fórmula baseada em S e S se estes últimos fossem iniciados usando S (1) S (1) Y (1). Mais uma vez, você pode usar sua planilha como solucionador ou qualquer algoritmo de mínimos quadrados não lineares para otimizar o valor de. O valor ideal do modelo LES ajustado para esta série pela Statgraphics é de 0,1607. Observe que as previsões de longo prazo do modelo LES para essa série temporal parecem acompanhar a tendência local observada nos últimos 10 períodos. Além disso, os intervalos de confiança para o modelo LES aumentam mais rapidamente do que os do modelo SES. O que é melhor para esta série temporal específica Aqui está um relatório de comparação de modelos para os modelos descritos acima. Parece que o modelo SES tem um desempenho melhor do que os modelos SMA, e o modelo LES está logo atrás. Se você escolher SES ou LES, neste caso, dependerá se você realmente acredita que a série tem uma tendência local. Modelo de alisamento de Browns quadrático (isto é, triplo). usa três séries suavizadas centradas em diferentes pontos no tempo e extrapola uma parábola através dos três centros. Isso raramente é usado na prática, já que tendências quadráticas verdadeiras são raras e o modelo é altamente instável. Qual tipo de extrapolação de tendência é melhor: horizontal, linear ou quadrática A evidência empírica sugere que, se os dados já tiverem sido ajustados (se necessário) para a inflação, pode ser imprudente extrapolar o linear de curto prazo (ou pior, ) tendências muito longe no futuro. Tendências evidentes hoje podem afrouxar no futuro devido a causas variadas, como obsolescência do produto, aumento da concorrência e desacelerações cíclicas ou retomadas em uma indústria. Por esse motivo, a suavização exponencial simples geralmente apresenta melhor desempenho fora da amostra do que seria esperado, apesar de sua extrapolação de tendência horizontal ingênua. Modificações de tendências amortecidas do modelo de suavização exponencial linear são frequentemente usadas na prática para introduzir uma nota de conservadorismo em suas projeções de tendência - que, infelizmente, não estão disponíveis na Statgraphics. Em princípio, é possível calcular intervalos de confiança em torno de previsões de longo prazo produzidas por modelos de suavização exponencial, considerando-os como casos especiais de modelos ARIMA. (Cuidado: nem todos os softwares fazem isso corretamente. Em particular, vários programas populares de previsão automática usam métodos altamente suspeitos para calcular intervalos de confiança para previsões de suavização exponencial.) A largura dos intervalos de confiança depende (i) do erro RMS do modelo, (ii) o valor de, (iii) o nível de suavização (simples, duplo ou triplo) e (iv) o número de períodos adiante que você está prevendo. Em geral, os intervalos se espalham mais rapidamente à medida que aumentam e / ou ou conforme a ordem de suavização aumenta de simples para dupla para triplo. Vamos revisitar este assunto quando discutirmos os modelos ARIMA no final do curso.

No comments:

Post a Comment