Monday 16 January 2017

Erreur De Prédiction Moyenne Mobile

Moyenne mobile Prévision Introduction. Comme vous pouvez le deviner, nous examinons certaines des approches les plus primitives en matière de prévision. Mais nous espérons que ce sont au moins une introduction utile à certains des problèmes informatiques liés à la mise en œuvre des prévisions dans les tableurs. Dans cette veine, nous allons continuer en commençant par le début et commencer à travailler avec les prévisions Moyenne mobile. Prévisions moyennes mobiles. Tout le monde est familier avec les prévisions de moyenne mobile, peu importe s'ils croient qu'ils sont. Tous les étudiants les font tout le temps. Pensez à vos résultats d'examen dans un cours où vous allez avoir quatre tests au cours du semestre. Supposons que vous avez obtenu un 85 sur votre premier test. Que penseriez-vous que votre professeur pourrait prédire pour votre score de test suivant Que pensez-vous que vos amis pourraient prédire pour votre score de test suivant Que pensez-vous que vos parents pourraient prédire pour votre score de test suivant Indépendamment de Tous les blabbing que vous pourriez faire à vos amis et parents, ils et votre professeur sont très susceptibles de vous attendre à obtenir quelque chose dans le domaine des 85 que vous venez de recevoir. Eh bien, maintenant, supposons qu'en dépit de votre auto-promotion à vos amis, vous surestimer vous-même et la figure que vous pouvez étudier moins pour le deuxième test et ainsi vous obtenez un 73. Maintenant, qu'est-ce que tous les intéressés et indifférents va Anticiper que vous obtiendrez sur votre troisième test Il ya deux approches très probables pour eux de développer une estimation indépendamment du fait qu'ils le partageront avec vous. Ils peuvent se dire, ce type est toujours souffler de la fumée sur son smarts. Hes va obtenir un autre 73 si hes chance. Peut-être que les parents vont essayer d'être plus solidaires et dire: «Bien, jusqu'à présent, vous avez obtenu un 85 et un 73, donc vous devriez peut-être figure sur obtenir un (85 73) 2 79. Je ne sais pas, peut-être si vous avez moins de fête Et werent wagging la belette partout et si vous avez commencé à faire beaucoup plus d'étude, vous pourriez obtenir un score plus élevé. quot Ces deux estimations sont en fait des prévisions moyennes mobiles. Le premier est d'utiliser uniquement votre score le plus récent pour prévoir vos performances futures. C'est ce que l'on appelle une moyenne mobile en utilisant une période de données. La seconde est également une prévision moyenne mobile, mais en utilisant deux périodes de données. Supposons que toutes ces personnes se brisant sur votre grand esprit ont sorte de pissé vous off et vous décidez de bien faire sur le troisième test pour vos propres raisons et de mettre un score plus élevé en face de vos quotalliesquot. Vous prenez le test et votre score est en fait un 89 Tout le monde, y compris vous-même, est impressionné. Donc, maintenant, vous avez le test final du semestre à venir et, comme d'habitude, vous vous sentez le besoin d'inciter tout le monde à faire leurs prédictions sur la façon dont vous allez faire sur le dernier test. Eh bien, j'espère que vous voyez le modèle. Maintenant, j'espère que vous pouvez voir le modèle. Qui pensez-vous est le sifflet le plus précis alors que nous travaillons. Maintenant, nous revenons à notre nouvelle entreprise de nettoyage a commencé par votre demi-soeur sœur appelé Whistle While We Work. Vous avez des données de ventes passées représentées par la section suivante dans une feuille de calcul. Nous présentons d'abord les données pour une moyenne mobile de trois périodes prévisionnelles. L'entrée pour la cellule C6 doit être maintenant Vous pouvez copier cette formule de cellule vers le bas pour les autres cellules C7 à C11. Remarquez comment la moyenne se déplace sur les données historiques les plus récentes, mais utilise exactement les trois périodes les plus récentes disponibles pour chaque prédiction. Vous devriez également remarquer que nous n'avons pas vraiment besoin de faire les prédictions pour les périodes passées afin de développer notre prédiction la plus récente. Ceci est certainement différent du modèle de lissage exponentiel. Ive inclus les prévisions quotpastquot parce que nous les utiliserons dans la prochaine page Web pour mesurer la validité de prédiction. Maintenant, je veux présenter les résultats analogues pour une prévision moyenne mobile à deux périodes. L'entrée pour la cellule C5 doit être Maintenant, vous pouvez copier cette formule de cellule vers le bas pour les autres cellules C6 à C11. Remarquez que maintenant, seules les deux plus récentes données historiques sont utilisées pour chaque prédiction. Ici encore, j'ai inclus les prévisions quotpast à des fins d'illustration et pour une utilisation ultérieure dans la validation des prévisions. Quelques autres choses qui sont d'importance à remarquer. Pour une prévision moyenne mobile de la période m, seules les m valeurs de données les plus récentes sont utilisées pour faire la prédiction. Rien d'autre n'est nécessaire. Pour une prévision moyenne mobile de la période m, lorsque vous faites des prédictions quotpast, notez que la première prédiction se produit dans la période m 1. Ces deux questions seront très importantes lorsque nous développerons notre code. Développement de la fonction Moyenne mobile. Maintenant, nous devons développer le code de la moyenne mobile qui peut être utilisé avec plus de souplesse. Le code suit. Notez que les entrées sont pour le nombre de périodes que vous souhaitez utiliser dans la prévision et le tableau des valeurs historiques. Vous pouvez le stocker dans le classeur que vous voulez. Fonction DéplacementAvant (Historique, NumberOfPeriods) En tant que Déclaration unique et initialisation de variables Dim Item Comme Variante Dim Compteur Comme Entier Dim Accumulation Comme Simple Dim HistoricalSize As Integer Initialisation des variables Counter 1 Accumulation 0 Détermination de la taille de Historique HistoricalSize Historical. Count For Counter 1 To NumberOfPeriods Accumuler le nombre approprié des valeurs les plus récentes observées antérieurement Accumulation Accumulation Historique (Historique - Taille - NombreOfPeriods Counter) MovingAverage Accumulation NumberOfPeriods Le code sera expliqué en classe. Vous voulez positionner la fonction sur la feuille de calcul afin que le résultat du calcul apparaisse où il devrait aimer le suivant. Moyennes de déplacement Moyennes de déplacement Avec les jeux de données classiques, la valeur moyenne est souvent la première et l'une des statistiques les plus utiles à calculer . Lorsque les données sont sous la forme d'une série chronologique, la moyenne en série est une mesure utile, mais ne reflète pas la nature dynamique des données. Les valeurs moyennes calculées sur des périodes court-circuitées, soit précédant la période courante, soit centrées sur la période courante, sont souvent plus utiles. Parce que ces valeurs moyennes vont varier, ou se déplacer, à mesure que la période courante se déplace du temps t 2, t 3, etc., on les appelle des moyennes mobiles (Mas). Une moyenne mobile simple est (typiquement) la moyenne non pondérée de k valeurs antérieures. Une moyenne mobile exponentiellement pondérée est essentiellement la même qu'une moyenne mobile simple, mais avec des contributions à la moyenne pondérée par leur proximité à l'heure actuelle. Parce qu'il n'y a pas une seule, mais toute une série de moyennes mobiles pour une série donnée, l'ensemble de Mas peut être tracé sur des graphes, analysé comme une série et utilisé dans la modélisation et la prévision. Une gamme de modèles peut être construite à l'aide de moyennes mobiles, et ce sont connus sous le nom de modèles MA. Si ces modèles sont combinés avec des modèles autorégressifs (AR), les modèles composites résultants sont connus sous le nom de modèles ARMA ou ARIMA (le I est pour intégré). Moyennes mobiles simples Comme une série temporelle peut être considérée comme un ensemble de valeurs, t 1,2,3,4, n la moyenne de ces valeurs peut être calculée. Si l'on suppose que n est assez grand, et on choisit un entier k qui est beaucoup plus petit que n. Nous pouvons calculer un ensemble de moyennes de bloc, ou moyennes mobiles simples (d'ordre k): Chaque mesure représente la moyenne des valeurs de données sur un intervalle de k observations. Notons que la première MA possible d'ordre k gt0 est celle de t k. De façon plus générale, nous pouvons supprimer l'indice supplémentaire dans les expressions ci-dessus et écrire: Ceci indique que la moyenne estimée au temps t est la moyenne simple de la valeur observée au temps t et aux précédentes étapes k -1. Si des poids sont appliqués qui diminuent la contribution des observations qui sont plus éloignées dans le temps, la moyenne mobile est dite exponentiellement lissée. Les moyennes mobiles sont souvent utilisées comme une forme de prévision, la valeur estimée pour une série au temps t 1, S t1. Est prise comme MA pour la période allant jusqu'au temps t inclus. par exemple. L'estimation d'aujourd'hui est basée sur une moyenne des valeurs antérieures enregistrées jusqu'à et y compris hier (pour les données quotidiennes). Les moyennes mobiles simples peuvent être considérées comme une forme de lissage. Dans l'exemple illustré ci-dessous, l'ensemble de données sur la pollution atmosphérique présenté dans l'introduction à ce sujet a été complété par une ligne de 7 jours de moyenne mobile (MA), affichée ici en rouge. Comme on peut le voir, la ligne MA permet de lisser les pics et les creux dans les données et peut être très utile pour identifier les tendances. La formule de calcul de référence standard signifie que les premiers k -1 points de données n'ont pas de valeur MA, mais ensuite les calculs s'étendent jusqu'au point de données final de la série. Une des raisons de calculer des moyennes mobiles simples de la manière décrite est qu'il permet de calculer les valeurs pour tous les intervalles de temps entre le temps tk et le temps présent, et Comme une nouvelle mesure est obtenue pour le temps t 1, la MA pour le temps t 1 peut être ajoutée à l'ensemble déjà calculé. Cela fournit une procédure simple pour les jeux de données dynamiques. Cependant, cette approche présente certains problèmes. Il est raisonnable de prétendre que la valeur moyenne au cours des 3 dernières périodes, par exemple, devrait être située à l'instant t -1, et non pas au temps t. Et pour une MA sur un nombre pair de périodes, il devrait être situé au point médian entre deux intervalles de temps. Une solution à cette question est d'utiliser des calculs de MA centrés, dans lesquels l'A à l'instant t est la moyenne d'un ensemble symétrique de valeurs autour de t. Malgré ses avantages évidents, cette approche n'est généralement pas utilisée car elle exige que des données soient disponibles pour des événements futurs, ce qui peut ne pas être le cas. Dans les cas où l'analyse est entièrement d'une série existante, l'utilisation de Mas centrée peut être préférable. Les moyennes mobiles simples peuvent être considérées comme une forme de lissage, en supprimant certaines composantes à haute fréquence d'une série chronologique et en mettant en évidence (mais non en supprimant) les tendances d'une manière similaire à la notion générale de filtrage numérique. En effet, les moyennes mobiles sont une forme de filtre linéaire. Il est possible d'appliquer un calcul de la moyenne mobile à une série qui a déjà été lissée, c'est-à-dire lisser ou filtrer une série déjà lissée. Par exemple, avec une moyenne mobile de l'ordre 2, nous pouvons la considérer comme étant calculée en utilisant des poids, de sorte que la MA à x 2 0,5 x 1 0,5 x 2. De même, la MA à x 3 0,5 x 2 0,5 x 3. Si nous Appliquer un deuxième niveau de lissage ou de filtrage, on a 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 c'est-à-dire le filtrage à 2 étages Processus (ou convolution) a produit une moyenne mobile symétrique pondérée variable, avec des poids. Les convolutions multiples peuvent produire des moyennes mobiles pondérées assez complexes, dont certaines ont été trouvées particulièrement utiles dans des domaines spécialisés, comme dans les calculs d'assurance-vie. Les moyennes mobiles peuvent être utilisées pour supprimer des effets périodiques si elles sont calculées avec la longueur de la périodicité comme étant connue. Par exemple, avec des données mensuelles, les variations saisonnières peuvent souvent être supprimées (si tel est l'objectif) en appliquant une moyenne mobile symétrique de 12 mois avec tous les mois pondérés également, sauf le premier et le dernier qui sont pondérés par 12. C'est parce qu'il y aura Être de 13 mois dans le modèle symétrique (temps actuel, t. - 6 mois). Le total est divisé par 12. Des procédures similaires peuvent être adoptées pour toute périodicité bien définie. Moyennes mobiles pondérées exponentiellement (EWMA) Avec la formule de la moyenne mobile simple: toutes les observations sont également pondérées. Si on appelle ces poids égaux, alpha t. Chacun des k poids serait égal à 1 k. Donc la somme des poids serait 1, et la formule serait: Nous avons déjà vu que les applications multiples de ce processus se traduisent par des poids variant. Avec des moyennes mobiles exponentiellement pondérées, la contribution à la valeur moyenne des observations qui sont plus éloignées dans le temps est délibérée réduite, ce qui met l'accent sur les événements plus récents (locaux). Essentiellement, on introduit un paramètre de lissage, 0lt alpha lt1, et on révise la formule à: Une version symétrique de cette formule serait de la forme: Si les poids dans le modèle symétrique sont sélectionnés comme les termes des termes de l'expansion binomiale, (1212) 2q. Ils additionneront 1, et comme q devient grand, approchera la distribution normale. C'est une forme de pondération du noyau, avec le Binomial agissant comme la fonction du noyau. La convolution à deux étages décrite dans la sous-section précédente est précisément cet arrangement, avec q 1, donnant les poids. Dans le lissage exponentiel il est nécessaire d'utiliser un ensemble de poids qui somme à 1 et qui réduisent en taille géométriquement. Les poids utilisés sont typiquement de la forme: Pour montrer que ces poids sont égaux à 1, considérons l'expansion de 1 comme une série. Nous pouvons écrire et développer l'expression entre parenthèses en utilisant la formule binomiale (1-x) p. Où x (1-) et p -1, ce qui donne: Ceci fournit alors une forme de moyenne mobile pondérée de la forme: Cette somme peut être écrite comme une relation de récurrence: ce qui simplifie considérablement le calcul et évite le problème que le régime de pondération Doit être strictement infini pour les poids à la somme de 1 (pour les petites valeurs de alpha, ce n'est généralement pas le cas). La notation utilisée par les différents auteurs varie. Certains utilisent la lettre S pour indiquer que la formule est essentiellement une variable lissée et écrivent: alors que la littérature théorique de contrôle utilise souvent Z plutôt que S pour les valeurs exponentiellement pondérées ou lissées (voir par exemple Lucas et Saccucci, 1990, LUC1 , Et le site Web du NIST pour plus de détails et exemples travaillés). Les formules citées ci-dessus découlent du travail de Roberts (1959, ROB1), mais Hunter (1986, HUN1) utilise une expression de la forme: qui peut être plus appropriée pour être utilisée dans certaines procédures de contrôle. Avec alpha 1, l'estimation moyenne est simplement sa valeur mesurée (ou la valeur de la donnée précédente). Avec 0,5, l'estimation est la moyenne mobile simple des mesures actuelles et précédentes. Dans les modèles de prévision, la valeur, S t. Est souvent utilisée comme valeur estimée ou prévisionnelle pour la période de temps suivante, c'est-à-dire comme l'estimation de x à l'instant t 1. Ainsi, nous avons: Ceci montre que la valeur de prévision à l'instant t 1 est une combinaison de la moyenne mobile exponentielle précédente Plus un composant qui représente l'erreur de prédiction pondérée, epsilon. À l'instant t. En supposant qu'une série chronologique est donnée et qu'une prévision est requise, une valeur pour alpha est requise. Ceci peut être estimé à partir des données existantes en évaluant la somme des erreurs de prédiction au carré obtenues avec des valeurs variables d'alpha pour chaque t 2,3. La première estimation étant la première valeur de données observée, x 1. Dans les applications de contrôle, la valeur de alpha est importante dans la mesure où elle est utilisée dans la détermination des limites de contrôle supérieure et inférieure et affecte la longueur de parcours moyenne (ARL) attendue Avant que ces limites de contrôle ne soient rompues (sous l'hypothèse que la série temporelle représente un ensemble de variables indépendantes, aléatoires, identiquement distribuées et de variance commune). Dans ces circonstances, la variance de la statistique de contrôle est (Lucas et Saccucci, 1990): les limites de contrôle sont habituellement fixées en tant que multiples fixes de cette variance asymptotique, par ex. - 3 fois l'écart-type. Si l'alpha 0,25, par exemple, et les données surveillées sont supposées avoir une distribution normale, N (0,1), en contrôle, les limites de contrôle seront - 1,134 et le processus atteindra une ou l'autre limite en 500 étapes en moyenne. Lucas et Saccucci (1990 LUC1) dérivent les ARL pour une large gamme de valeurs alpha et sous diverses hypothèses en utilisant des procédures de chaîne de Markov. Ils tabulent les résultats, y compris la fourniture d'ARL lorsque la moyenne du processus de contrôle a été décalée par un multiple de l'écart-type. Par exemple, avec un décalage de 0,5 avec l'alpha 0,25, l'ARL est inférieur à 50 pas de temps. Les approches décrites ci-dessus sont appelées lissage exponentiel simple. Comme les procédures sont appliquées une fois à la série chronologique, puis des analyses ou des processus de contrôle sont effectués sur les données lissées résultantes. Si l'ensemble de données inclut une tendance et / ou des composantes saisonnières, un lissage exponentiel à deux ou trois étapes peut être appliqué comme moyen d'enlever ces effets (explicitement la modélisation) (voir la section Prévision ci-dessous et l'exemple travaillé NIST). CHA1 Chatfield C (1975) L'analyse des séries chronologiques: théorie et pratique. Chapman et Hall, Londres HUN1 Hunter J S (1986) La moyenne mobile exponentiellement pondérée. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Systèmes de contrôle de la moyenne mobile pondérée exponentiellement: propriétés et améliorations. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Tests de carte de contrôle basés sur des moyennes mobiles géométriques. Technometrics, 1, 239-250 En pratique, la moyenne mobile fournira une bonne estimation de la moyenne des séries chronologiques si la moyenne est constante ou change lentement. Dans le cas d'une moyenne constante, la plus grande valeur de m donnera les meilleures estimations de la moyenne sous-jacente. Une période d'observation plus longue évalue en moyenne les effets de la variabilité. Le but de fournir un plus petit m est de permettre à la prévision de répondre à un changement dans le processus sous-jacent. Pour illustrer, nous proposons un ensemble de données qui intègre des changements dans la moyenne sous-jacente de la série chronologique. La figure montre la série chronologique utilisée pour l'illustration ainsi que la demande moyenne à partir de laquelle la série a été générée. La moyenne commence comme une constante à 10. En commençant au temps 21, elle augmente d'une unité dans chaque période jusqu'à ce qu'elle atteigne la valeur de 20 au temps 30. Puis elle redevient constante. Les données sont simulées en ajoutant à la moyenne un bruit aléatoire issu d'une distribution normale avec moyenne nulle et écart-type 3. Les résultats de la simulation sont arrondis à l'entier le plus proche. Le tableau montre les observations simulées utilisées pour l'exemple. Lorsque nous utilisons la table, nous devons nous rappeler qu'à un moment donné, seules les données passées sont connues. Les estimations du paramètre du modèle, pour trois valeurs différentes de m, sont indiquées avec la moyenne des séries temporelles dans la figure ci-dessous. La figure montre l'estimation moyenne mobile de la moyenne à chaque instant et non pas la prévision. Les prévisions changeraient les courbes de la moyenne mobile vers la droite par périodes. Une conclusion ressort immédiatement de la figure. Pour les trois estimations, la moyenne mobile est en retard par rapport à la tendance linéaire, le décalage augmentant avec m. Le retard est la distance entre le modèle et l'estimation dans la dimension temporelle. En raison du décalage, la moyenne mobile sous-estime les observations à mesure que la moyenne augmente. Le biais de l'estimateur est la différence à un moment précis dans la valeur moyenne du modèle et la valeur moyenne prédite par la moyenne mobile. Le biais lorsque la moyenne augmente est négatif. Pour une moyenne décroissante, le biais est positif. Le retard dans le temps et le biais introduit dans l'estimation sont des fonctions de m. Plus la valeur de m. Plus l'ampleur du décalage et du biais est grande. Pour une série en constante augmentation avec tendance a. Les valeurs de retard et de biais de l'estimateur de la moyenne sont données dans les équations ci-dessous. Les courbes d'exemple ne correspondent pas à ces équations parce que le modèle d'exemple n'est pas en augmentation continue, plutôt qu'il commence comme une constante, des changements à une tendance et devient alors à nouveau constante. Les courbes d'exemple sont également affectées par le bruit. La prévision moyenne mobile des périodes dans le futur est représentée par le déplacement des courbes vers la droite. Le décalage et le biais augmentent proportionnellement. Les équations ci-dessous indiquent le décalage et le biais d'une période de prévision dans le futur par rapport aux paramètres du modèle. Encore une fois, ces formules sont pour une série chronologique avec une tendance linéaire constante. Nous ne devrions pas être surpris de ce résultat. L'estimateur de la moyenne mobile est basé sur l'hypothèse d'une moyenne constante, et l'exemple a une tendance linéaire dans la moyenne pendant une partie de la période d'étude. Étant donné que les séries de temps réel obéiront rarement exactement aux hypothèses de n'importe quel modèle, nous devrions être préparés à de tels résultats. On peut aussi conclure de la figure que la variabilité du bruit a le plus grand effet pour m plus petit. L'estimation est beaucoup plus volatile pour la moyenne mobile de 5 que la moyenne mobile de 20. Nous avons les désirs contradictoires d'augmenter m pour réduire l'effet de la variabilité due au bruit et diminuer m pour rendre la prévision plus sensible aux changements En moyenne. L'erreur est la différence entre les données réelles et la valeur prévue. Si la série chronologique est vraiment une valeur constante, la valeur attendue de l'erreur est nulle et la variance de l'erreur est composée d'un terme qui est une fonction de et d'un second terme qui est la variance du bruit,. Le premier terme est la variance de la moyenne estimée avec un échantillon de m observations, en supposant que les données proviennent d'une population avec une moyenne constante. Ce terme est minimisé en faisant m le plus grand possible. Un grand m rend la prévision insensible à une modification de la série chronologique sous-jacente. Pour rendre la prévision sensible aux changements, nous voulons m aussi petit que possible (1), mais cela augmente la variance d'erreur. La prévision pratique nécessite une valeur intermédiaire. Prévision avec Excel Le complément de prévision met en œuvre les formules de moyenne mobile. L'exemple ci-dessous montre l'analyse fournie par l'add-in pour les données d'échantillon de la colonne B. Les 10 premières observations sont indexées -9 à 0. Par rapport au tableau ci-dessus, les indices de période sont décalés de -10. Les dix premières observations fournissent les valeurs de démarrage pour l'estimation et sont utilisées pour calculer la moyenne mobile pour la période 0. La colonne MA (10) (C) montre les moyennes mobiles calculées. Le paramètre de la moyenne mobile m est dans la cellule C3. La colonne Fore (1) (D) montre une prévision pour une période dans le futur. L'intervalle de prévision est dans la cellule D3. Lorsque l'intervalle de prévision est changé en un nombre plus grand, les nombres de la colonne Fore sont décalés vers le bas. La colonne Err (1) (E) montre la différence entre l'observation et la prévision. Par exemple, l'observation au temps 1 est 6. La valeur prévisionnelle faite à partir de la moyenne mobile au temps 0 est 11.1. L'erreur est alors de -5,1. L'écart type et l'écart moyen moyen (MAD) sont calculés respectivement dans les cellules E6 et E7.


No comments:

Post a Comment