Saturday 11 November 2017

Moving Average Loop Stata


Diese Datenstruktur ist für den Zweck recht untauglich. Angenommen, eine Identifikations-ID, die Sie neu formatieren müssen. z. B. Dann ist ein gleitender Durchschnitt einfach. Verwenden Sie tssmooth oder einfach nur generieren. z. B. Mehr darüber, warum Ihre Datenstruktur ganz untauglich ist: Nicht nur die Berechnung eines gleitenden Durchschnitts benötigt eine Schleife (nicht unbedingt mit egen), aber Sie würden mehrere neue Extravariablen erstellen. Mit denen in jeder nachfolgenden Analyse wäre irgendwo zwischen ungeschickt und unmöglich. EDIT Ill geben eine Probe Schleife, während nicht aus meiner Haltung, dass es schlechte Technik ist. Ich sehe keinen Grund hinter deiner Namenskonvention, wobei P1947 ein Mittelwert für 1943-1945 ist. Ich nehme an, das ist nur ein Tippfehler. Angenommen, wir haben Daten für 1913-2012. Für 3 Jahre lang verlieren wir ein Jahr an jedem Ende. Das könnte genauer geschrieben werden, auf Kosten einer Makre von Makros in Makros. Mit ungleichen Gewichten ist einfach, wie oben. Der einzige Grund, egen zu benutzen, ist, dass es nicht aufgibt, wenn es Verpassungen gibt, die das oben tun wird. Aus Gründen der Vollständigkeit ist zu beachten, dass es leicht ist, Verpassungen zu behandeln, ohne auf egen zurückzugreifen. Und der Nenner Wenn alle Werte fehlen, wird dies auf 00 reduziert oder fehlt. Andernfalls, wenn irgendein Wert fehlt, fügen wir 0 zum Zähler und 0 zum Nenner hinzu, der derselbe ist, der ihn ignoriert. Natürlich ist der Code erträglich wie oben für Durchschnitte von 3 Jahren, aber entweder für diesen Fall oder für die Mittelung über mehr Jahre, würden wir ersetzen die Zeilen oben durch eine Schleife, was ist was egen does. Stata: Datenanalyse und statistische Software Nicholas J Cox, Durham University, UK Christopher Baum, Boston College egen, ma () und seine Einschränkungen Statarsquos am offensichtlichsten Befehl für die Berechnung der gleitenden Mittelwerte ist die ma () - Funktion von egen. Angesichts eines Ausdrucks, schafft es einen - periodischen gleitenden Durchschnitt dieses Ausdrucks. Standardmäßig wird als 3. ungerade genommen. Jedoch kann, wie der manuelle Eintrag anzeigt, egen, ma () nicht mit varlist kombiniert werden:. Und aus diesem Grund allein gilt es nicht für Paneldaten. In jedem Fall steht es außerhalb des Satzes von Befehlen, die speziell für Zeitreihen geschrieben sind, siehe Zeitreihen für Details. Alternative Ansätze Um berechnende Durchschnitte für Panel-Daten zu berechnen, gibt es mindestens zwei Möglichkeiten. Beide hängen davon ab, dass der Datensatz vorher gesendet wurde. Das lohnt sich nicht nur: Sie können sich nicht nur wiederholt spezifizieren, um die Variable und die Zeitvariable zu bestimmen, aber Stata verhält sich scharf zwischen den Lücken. 1. Schreiben Sie Ihre eigene Definition mit generieren Verwenden Sie Zeitreihenoperatoren wie L. und F.. Geben Sie die Definition des gleitenden Durchschnitts als Argument einer generierten Anweisung an. Wenn Sie dies tun, sind Sie natürlich nicht auf die gleichgewichteten (ungewichteten) zentrierten gleitenden Durchschnitte, die von egen, ma () berechnet wurden, beschränkt. Zum Beispiel werden gleichgewichtete dreiseitige gleitende Durchschnitte gegeben und manche Gewichte können leicht angegeben werden: Sie können natürlich auch einen Ausdruck wie log (myvar) anstelle eines Variablennamens wie myvar angeben. Ein großer Vorteil dieses Ansatzes ist, dass Stata automatisch die richtige Sache für Panel-Daten macht: führende und nacheilende Werte werden in Panels ausgearbeitet, genauso wie Logik diktiert sie sein sollte. Der bemerkenswerteste Nachteil ist, dass die Kommandozeile ziemlich lang werden kann, wenn der gleitende Durchschnitt mehrere Begriffe beinhaltet. Ein weiteres Beispiel ist ein einseitiger gleitender Durchschnitt, der nur auf vorherigen Werten basiert. Dies könnte nützlich sein, um eine adaptive Erwartung zu schaffen, was eine Variable nur auf Informationen aktuell basiert: Was könnte jemand prognostizieren für die aktuelle Periode auf der Grundlage der letzten vier Werte, mit einem festen Gewichtung Schema (eine 4-Periode Verzögerung könnte sein Besonders häufig mit vierteljährlichen Zeiträumen verwendet.) 2. Verwenden Sie egen, filter () aus SSC Verwenden Sie den benutzerdefinierten egen-Funktionsfilter () aus dem egenmore-Paket auf SSC. In Stata 7 (aktualisiert nach dem 14. November 2001) können Sie dieses Paket installieren, nach welcher Hilfe egenmore auf Details zu filter () verweist. Die beiden obigen Beispiele würden gerendert (in diesem Vergleich ist der Generatoransatz vielleicht transparenter, aber wir sehen ein Beispiel für das Gegenteil in einem Moment.) Die Lags sind eine Numlist. Führt zu negativen Verzögerungen: In diesem Fall -11 dehnt sich auf -1 0 1 oder Blei 1, lag 0, lag 1. Die Coef ficients, eine andere numlist, multiplizieren die entsprechenden hinteren oder führenden Elemente: In diesem Fall sind diese Elemente F1.myvar . Myvar und L1.myvar Die Wirkung der Normalisierungsoption besteht darin, jeden Koeffizienten durch die Summe der Koeffizienten so zu skalieren, daß Coef (1 1 1) normalisiert ist, äquivalent zu Koeffizienten von 13 13 13 und Coef (1 2 1) Normalisierung äquivalent zu Koeffizienten von 14 12 14 ist Sie müssen nicht nur die Verzögerungen angeben, sondern auch die Koeffizienten. Weil egen, ma () den gleich gewichteten Fall liefert, ist die Hauptgrundlage für egen, filter (), den ungleich gewichteten Fall zu unterstützen, für den Sie Koeffizienten angeben müssen. Es könnte auch gesagt werden, dass die Verpflichtung der Benutzer, Koeffizienten anzugeben, ein wenig zusätzlicher Druck auf sie ist, darüber nachzudenken, welche Koeffizienten sie wollen. Die Hauptberechtigung für gleiche Gewichte ist, wir vermuten, Einfachheit, aber gleiche Gewichte haben lausige Frequenzdomäneneigenschaften, um nur eine Betrachtung zu erwähnen. Das dritte Beispiel oben könnte entweder so genauso kompliziert sein wie der generierte Ansatz. Es gibt Fälle, in denen egen, filter () gibt eine einfachere Formulierung als zu generieren. Wenn Sie einen neunfristigen Binomialfilter wünschen, welche Klimatologen nützlich sind, dann sieht es vielleicht weniger schrecklich aus als und einfacher, sich richtig zu machen, genauso wie bei der generierten Annäherung egen, filter () funktioniert ordnungsgemäß mit Panel-Daten. In der Tat, wie oben erwähnt, hängt es davon ab, dass der Datensatz vorher gesendet wurde. Eine grafische Spitze Nach der Berechnung Ihrer gleitenden Durchschnitte, werden Sie wahrscheinlich wollen, um einen Graphen zu betrachten. Der benutzerdefinierte Befehl tsgraph ist schlau über Tattendatensätze. Installiere es in einem up-to-date Stata 7 von ssc inst tsgraph. Was ist mit der Abrechnung, wenn keines der obigen Beispiele von Einschränkungen Gebrauch macht. Tatsächlich wird es nicht möglich sein, Gelegentlich Menschen wollen, wenn bei der Berechnung der gleitenden Durchschnitte zu verwenden, aber seine Verwendung ist ein wenig komplizierter als es in der Regel ist. Was würden Sie von einem gleitenden Durchschnitt erwarten, mit dem berechnet. Lassen Sie uns zwei Möglichkeiten identifizieren: Schwache Interpretation: Ich möchte keine Ergebnisse für die ausgeschlossenen Beobachtungen sehen. Starke Interpretation: Ich möchte gar nicht, dass du die Werte für die ausgeschlossenen Beobachtungen nimmst. Hier ist ein konkretes Beispiel. Angenommen, als Folge von einigen, wenn Bedingung, sind Beobachtungen 1-42 enthalten, aber nicht Beobachtungen 43 auf. Aber der gleitende Durchschnitt für 42 hängt unter anderem von dem Wert für die Beobachtung ab, wenn der Durchschnitt sich rückwärts und vorwärts erstreckt und mindestens 3 beträgt, und es wird in einigen Fällen auch von einigen der Beobachtungen abhängen. Unsere Vermutung ist, dass die meisten Leute für die schwache Interpretation gehen würden, aber ob das richtig ist, egen, filter () nicht, wenn entweder. Sie können immer ignorieren, was Sie donrsquot wollen oder sogar unerwünschte Werte festlegen, um danach zu fehlen, indem Sie ersetzen. Ein Hinweis auf fehlende Ergebnisse an den Enden der Serie Weil gleitende Mittelwerte Funktionen von Verzögerungen und Leads sind, erzeugt egen, ma () fehlt, wo die Verzögerungen und Leads nicht existieren, am Anfang und am Ende der Serie. Eine Option nomiss zwingt die Berechnung von kürzeren, nicht beeinträchtigten gleitenden Durchschnitten für die Schwänze. Im Gegensatz dazu weder generieren noch egen, filter () tut, oder erlaubt, etwas Besonderes, um fehlende Ergebnisse zu vermeiden. Wenn einer der für die Berechnung benötigten Werte fehlt, fehlt dieses Ergebnis. Es liegt an den Anwendern, zu entscheiden, ob und welche Korrekturchirurgie für solche Beobachtungen erforderlich ist, vermutlich nach dem Betrachten des Datensatzes und unter Berücksichtigung einer zugrunde liegenden Wissenschaft, die zum Tragen gebracht werden kann. MOVAVG: Stata-Modul mit Mata zu generieren Moving Averages Wenn Sie eine Korrektur anfordern , Bitte erwähnen diese Artikel Handle: RePEc: boc: bocode: s457476. Siehe allgemeine Informationen zur Korrektur von Material in RePEc. Für technische Fragen zu diesem Artikel, oder um seine Autoren, Titel, Abstract, bibliographischen oder Download-Informationen zu korrigieren, wenden Sie sich an: (Christopher F Baum) Wenn Sie diesen Artikel verfasst haben und noch nicht bei RePEc registriert sind, empfehlen wir Ihnen, dies zu tun . Dies ermöglicht es, Ihr Profil mit diesem Element zu verknüpfen. Es erlaubt Ihnen auch, potenzielle Zitate zu diesem Artikel zu akzeptieren, dass wir unsicher sind. Wenn Referenzen ganz fehlen, können Sie sie mit diesem Formular hinzufügen. Wenn die vollständigen Referenzen ein Element auflisten, das in RePEc vorhanden ist, aber das System nicht mit ihm verknüpft ist, können Sie mit diesem Formular helfen. Wenn Sie von fehlenden Gegenständen wissen, die dieses zitieren, können Sie uns helfen, diese Links zu erstellen, indem wir die relevanten Referenzen in der gleichen Weise wie oben für jedes verweisende Element hinzufügen. Wenn Sie ein registrierter Autor dieses Artikels sind, können Sie auch die Registerkarte Zitate in Ihrem Profil überprüfen, da es einige Zitate gibt, die auf Bestätigung warten. Bitte beachten Sie, dass Korrekturen einige Wochen dauern können, um durch die verschiedenen RePEc-Dienste zu filtern. Weitere Dienstleistungen Folge-Serie, Zeitschriften, Autoren amp mehr Neue Papiere per E-Mail Abonnieren Sie neue Ergänzungen zu RePEc Autorenregistrierung Öffentliche Profile für Wirtschaftsforscher Verschiedene Rankings der Forschung in der Wirtschaft amp verwandte Felder Wer war ein Student von wem, mit RePEc RePEc Biblio Kuratierte Artikel amp Papiere zu verschiedenen ökonomischen Themen Hochladen Sie Ihr Papier auf RePEc aufgeführt werden und IDEAS EconAcademics Blog Aggregator für Wirtschaftsforschung Plagiate Fälle von Plagiaten in Wirtschaftswissenschaften Job Market Papers RePEc Arbeitspapier Serie gewidmet, um den Job-Markt Fantasy League Vortäuschen Sie sind an der Spitze einer Wirtschaft Abteilung Dienstleistungen von der StL Fed Daten, Forschung, apps amp mehr von der St. Louis FedSmoothing: Lowess Wir arbeiten mit Daten aus der Kolumbien WFS Haushalt Umfrage, durchgeführt 1975-76. Ich habe die Altersverteilung aller Haushaltsmitglieder tabelliert und in einer Ascci-Datei gespeichert, die wir jetzt lesen und zeichnen: Wie Sie sehen können, sieht die Verteilung etwas weniger glatt aus als die Daten aus den Philippinen, die wir früher studiert haben. Können Sie den Myers-Index für diese Verteilung berechnen Running Means and Lines Der einfachste Weg, um ein Scatterplot zu glätten, ist, einen gleitenden Durchschnitt zu verwenden. Auch als Laufmittel bekannt. Der häufigste Ansatz ist, ein Fenster von 2k 1 Beobachtungen, k nach links und k rechts von jeder Beobachtung zu verwenden. Der Wert von k ist ein Kompromiss zwischen Glätte der Güte der Passform. Bei den Extremen des Sortiments ist besondere Vorsicht geboten. Stata kann die laufenden Mittel über die Niedrigheit mit den Optionen Mittel und mittlerweile berechnen. Ein häufiges Problem bei laufenden Mitteln ist Bias. Eine Lösung besteht darin, Gewichte zu verwenden, die den nächsten Nachbarn mehr Bedeutung beigemessen und weniger denen, die weiter entfernt sind. Eine beliebte Gewichtsfunktion ist Tukeys Tri-Cube, definiert als w (d) (1-d 3) 3 für d lt 1 und 0 ansonsten, wobei d der Abstand zum Zielpunkt ist, der als Bruchteil der Bandbreite ausgedrückt wird. Stata kann diese Berechnung durch Niedrigheit mit der Option bedeuten, wenn Sie jetzt weglassen. Eine noch bessere Lösung ist, laufende Linien zu benutzen. Wir definieren wieder eine Nachbarschaft für jeden Punkt, typischerweise die k nächsten Nachbarn auf jeder Seite, passen eine Regressionslinie zu den Punkten in der Nachbarschaft und verwenden sie dann, um einen glatteren Wert für die Indexbeobachtung vorherzusagen. Das klingt wie eine Menge Arbeit, aber die Berechnungen können effizient mit Regressionsaktualisierungsformeln durchgeführt werden. Stata kann eine laufende Linie über die Niedrigheit berechnen, wenn du den Mittelpunkt weisst Besser ist es, gewichtete Lauflinien zu verwenden. Was den engsten Beobachtungen mehr Gewicht verleiht, was das ist, was die Niedrigheit macht. Eine Variante folgt dieser Schätzung mit einigen Iterationen, um eine robustere Linie zu erhalten. Dies ist eindeutig die beste Technik in der Familie. Statas lowess nutzt eine gewichtete Laufzeile, wenn Sie Mittelwert und mittlerweile R auslösen, implementiert die Niedrigheit durch die Funktionen lowess () und die neuere Loess (), die eine Formel-Schnittstelle mit einem oder mehreren Prädiktoren und etwas unterschiedlichen Vorgaben verwendet. Der Parametergrad steuert den Grad des lokalen Polynoms, der Standard ist 2 für quadratisch, Alternativen sind 1 für linear und 0 für laufende Mittel. Beide Implementierungen können einen robusten Schätzer verwenden, wobei die Anzahl der Iterationen durch einen Parameter iter oder Iterationen gesteuert wird. Geben Sie Loess und Lowess in der R-Konsole für weitere Informationen. In ggplot () kannst du eine Niedrigheit glatter durch Aufruf von geomsmooth () Die Abbildung unten zeigt die kolumbianischen Daten und eine lowess glatter mit einer Spanne oder Bandbreite gleich 25 der Daten. Vielleicht möchten Sie verschiedene Badwidths ausprobieren, um zu sehen, wie sich die Ergebnisse ändern Digit Preference Revisited Glättung der Altersverteilung bietet eine bessere Möglichkeit, Ziffer Vorzug als Myers Blending zu beurteilen. Lassen Sie uns die letzte Ziffer des Alters berechnen und tabellieren sie über den gesamten Bereich der Daten mit den beobachteten Frequenzen und einer geringfügig glatteren. Die rohen Frequenzen zeigen Beweise für die Vorliebe für Altersgruppen, die in 0 und 5 enden, was sehr häufig ist, und wahrscheinlich auch 2. Wir verwenden jetzt das Glatte als Gewicht Die geglätteten Frequenzen zeigen, dass wir weniger Menschen an höheren Ziffern erwarten, auch in einer reibungslosen Verteilung, mit mehr Endung in 0 als 9. Wir sind nun bereit, einen Index der Ziffernpräferenz zu berechnen, definiert als die Hälfte der Summe der absoluten Unterschiede zwischen beobachteten und glatten Frequenzen: Wir sehen, dass wir 5.5 der Beobachtungen umstellen müssen, um die Ziffernpräferenz zu eliminieren. Vielleicht möchten Sie dieses Ergebnis mit dem Myers-Index vergleichen. Kopie 2017 Germaacuten Rodriacuteguez, Princeton Universität

No comments:

Post a Comment