Full text
Transcription
Full text
Algebraische Zerlegung der Gaußschen Summe der Abweichungsquadrate für den Unterricht an Hochschule und Gymnasium von Helmut Maier März 2011 Werkstatthefte aus Statistik und Ökonometrie ISSN 1439-3956 Leontief-Institut für Wirtschaftsanalyse Berlin Maier, Helmut: Algebraische Zerlegung der Gaußschen Summe der Abweichungsquadrate für den Unterricht an Hochschule und Gymnasium Berlin: Leontief-Institut für Wirtschaftsanalyse (Werkstatthefte aus Statistik und Ökonometrie, Reihe Wissenstransfer) ISSN 1439-3956 2011 Helmut Maier Anschrift des Verfassers: Professor Dr. rer. pol. Helmut Maier Leontief-Institut für Wirtschaftsanalyse Berlin Grainauer Straße 19, D-10777 Berlin Tel.: +49 (0) 211 1765, Email: oekonom@fhw-berlin.de Algebraische Zerlegung der Gaußschen Summe der Abweichungsquadrate für den Unterricht an Hochschule und Gymnasium von Helmut Maier, oekonom@fhw-berlin.de Vorbemerkungen Die Lösung des linearen Regressionsproblems mit Hilfe der Differentialrechnung ist klassischer Bestandteil von statistischen Grundkursen an Universitäten und Fachhochschulen. Sie geht auf Carl Friedrich Gauß (1777-1855) zurück, der dieses Problem der Linearen Algebra mit Hilfe der Differentialrechnung in heutiger Sprechweise "transdisziplinär" analysiert hat. Offensichtlich hat fast 200 Jahre kein Bedarf zur Beantwortung der Frage bestanden, ob es auch eine direkte algebraische Lösung und damit „disziplinäre“ Lösung gibt. Diese Situation hat sich zumindest seit den 1990er Jahren geändert. Infolge der zu beobachtenden Zurückdrängung mathematischer Ausbildungsinhalte ist die Situation, dass Hörer statistischer Grundkurse Kenntnisse der Differentialrechnung (partielle Ableitungen) rudimentär oder nicht mitbringen, offensichtlich Realität geworden (Maier 1999a und Anhang). Diese Situation ist im Zuge der EU-weiten Vereinheitlichung der Studiengänge gemäß der politischen Vereinbarung von Bologna aus 1998 (URL: http://de.wikipedia.org/wiki/Bologna-Prozess) und damit gewollten Verkürzung von Studienzeiten (in Deutschland) im Rahmen von Bachelor- und Masterstudiengängen nicht besser geworden (Maier 2006). Am Fachgebiet Statistik und Ökonometrie der ehemaligen Fachhochschule für Wirtschaft Berlin (und heutigen Hochschule für Wirtschaft und Recht Berlin) ist schon in den 1980er Jahren eine algebraische Zerlegungsformel für die sogenannte Residualvarianz, die dem Mittelwert der Gaußschen Abweichungsquadrate entspricht, gesucht worden, um Studierenden das Verstehen der Lösung des linearen Regressionsproblems auch ohne Kenntnis partieller Ableitungen zu ermöglichen. Die Formel ist im November und Dezember 1988 gefunden worden, zunächst in der einfachen Form zur Regression einer Variablen Y bezüglich nur einer zweiten Variablen X, dann in verallgemeinerter Form zur Regression von Y bezüglich den m Variablen X1, X2, .., Xm. In der einfachen Form ist sie ab da auch im Statistikunterricht dieses Fachgebietes benutzt worden, ebenfalls von Kollegen. Parallel hierzu ist die Fachliteratur nach dieser Formel durchsucht worden, allerdings ohne Erfolg. Unter dem Titel „A direct solution of the problem of linear regression by analysis of variance” ist diese algebraische Zerlegungsformel im August 1997 auf der “Third International Conference on Statistical Data based on the L1 - Norm and related methods” in Neuchatel/Schweiz einer wissenschaftlichen Öffentlichkeit vorgestellt worden (Maier 1997a, 1997b). Einwendungen eines Vertreters aus den USA, die Formel sei bereits bekannt, konnten bei einer Überprüfung nicht erhärtet werden. Unter dem Titel „How to teach the solution of the problem of linear regression, a direct approach in a closed form“ ist sie im Juni 1998 bei der „Fifth International Conference of Teaching Statistics ICOTS-5“ des Internationalen Statistischen Institutes an der Nanyang Technology University in Singapur Fachvertretern für die Ausbildung in Statistik vorgestellt worden (Maier 1998a), schließlich unter dem Titel „Die algebraische Lösung des linearen Regressionsproblems“ auch bei der Statistischen Woche der Deutschen Statistischen Gesellschaft in Hannover im Oktober 1999 (Maier 1999b). Publikationen erfolgten im Februar 1997 und Juli 1997 (in erweiterter Fassung) in der Reihe Werkstatthefte aus Statistik und Ökonometrie (Maier 1997a, 1997b), ebenfalls in der Zeitschrift Student in der Schweiz (Maier 1997c), in 1998 in den Proceedings of the Fifth International Conference of Teaching Statistics ICOTS-5 des Internationalen Statistischen Instituts (Maier 1998b) und in 2000 in der Zeitschrift Ekonometria in Polen (Maier 2000). In 2000 ist sie (in ihrer einfachsten Form) in das Taschenbuch für Statistik (Voß et al. 2000, S. 189) aufgenommen worden. Hierbei ist auf ihre Bedeutung als Alternative zur Gaußschen Lösung des linearen Regressionsproblems, die ohne Hilfe der Differentialrechnung auskommt, hingewiesen worden (Voß et al. 2000, S.178). Im Semesterjournal der Fachhochschule für Wirtschaft ist in Heft 1/1999 darüber berichtet worden (Maier 1999c). In Lehrbüchern und anderen Formelsammlungen für die Statistikausbildung, auch für die Oberstufe an Schulen, wird sie nach Kenntnis des Autors bislang nicht genannt. Neben schlichter Unkenntnis hängt dieser Umstand auch damit zusammen, dass der Einsatz von Software im Statistikunterricht die Ablei- tung und damit das Verstehen elementarer begrifflicher Zusammenhänge aus Lehre und Unterricht mehr und mehr verdrängt. Irrtümlich wird dadurch Lernenden suggeriert, dass das Verstehen dieser Begriffe und Zusammenhänge nachrangig oder sogar unnötig ist. Für eine nachhaltige Bildung und Ausbildung, egal ob auf Schule oder Hochschule, ist dieses Verständnis jedoch unverzichtbar, ohne dieses ist lebenslange und effektive Fortbildung nicht denkbar. Die gefundene Zerlegungsformel besticht durch ihre Einfachheit, weil sie eine Summe von beliebig vielen Quadraten durch Umordnung auf nur zwei Quadrate und eine dritte nicht negative Größe zurückführt. Es ist erstaunlich, dass Carl Gauß, dessen Funde in der CRC Concise Encyclopedia of Mathematics über 20 von insgesamt 1969 Seiten einnehmen (Weisstein 1999, S.700-721), sie nicht gesucht und notiert hat, allerdings hatte er keine Veranlassung, nach einer weiteren Lösung zu suchen. Und vielleicht hat der gleiche Umstand ja andere Fachwissenschaftler davon abgehalten sie zu suchen. Gegenstand und Ziel Dieses Werkstattheft ist an akademische Lehrer und Studierende in Bachelor-Studiengängen in Wirtschafts- und Sozialwissenschaften, aber auch an Mathematiklehrer in der Oberstufe von Gymnasien und Schüler mit Leistungsfach Mathematik adressiert. Es befasst sich mit der Gaußschen Summe der Abweichungsquadrate lediglich im einfachsten Fall der linearen Regression, wo zwei zufällige Variable X und Y gegeben sind, für die n Datenpaare (xi , yi) , i = 1,2,…,n als Beobachtungen vorliegen und die Regression von Y bezüglich X vorgenommen wird. Dieser Fall ist Gegenstand sowohl im Statistikunterricht in Bachelor-Studiengängen an Hochschulen als auch im Leistungsfach Mathematik an der Oberstufe von Gymnasien. Grafisch sind die n Datenpaare vorstellbar als n Punkte in einem Koordinatensystem mit der Abszisse x und der Ordinate y. Das lineare Regressionsproblem besteht darin, eine Gerade zu finden, die diese n Punkte „möglichst gut erfasst“, sie heißt „Regressionsgerade“. Die Lösung kann man grafisch angenähert ermitteln, indem man das Augenmaß zugrundelegt und mit Hilfe eines Lineals diese Gerade aufsucht und durchzieht. Und sie wird nach Gauß mit Hilfe der Differentialrechnung analytisch als diejenige Gerade ermittelt, bei der die sogenannte „Summe der Abweichungsquadrate“ der n Punkte von allen denkbaren Geraden minimal ist. Die Summe der Abweichungsquadrate ist hierbei durch den Ausdruck ∑ (yi – y(xi) ) 2 definiert, wo y(x) = m x + b eine beliebige Gerade mit Steigung m = y'(x) = dy/dx und Ordinatenabschnitt b = y(0) ist; für jede Wahl von m und b erhält man eine andere Gerade. Für diese Gaußsche Summe von n Quadraten, die ein quantitatives Kriterium für den qualitativen Ausdruck „möglichst gut erfassen“ darstellt, wird in diesem Werkstattheft die algebraische Zerlegung in nur zwei Quadrate und einen weiteren nicht negativen Anteil explizit nachgewiesen. Und zwar so, dass er für Leser mit Schulkenntnissen über das Summenzeichen ∑ und die Quadratbildung einschließlich quadratischer Ergänzung nachvollziehbar ist. Die elf Rechenschritte (Zeilen) dieses Nachweises sowie einige Nebenrechnungen sind notiert. Natürlich ist dieser Nachweis – in wesentlich allgemeinerer und damit komplizierterer Form – bereits in der Literatur enthalten, jedoch benötigt ein Leser dort vertiefte Kenntnisse über Vektoren und Matrizen, die hier ausgeblendet sind. Anschließend wird erläutert, wie man mit Hilfe dieser Zerlegungsformel das Minimum der Gaußschen Summe der Abweichungsquadrate verblüffend einfach bestimmt und hierbei die Regressionsgerade gewinnt. Definitionen und Bezeichnungen = (1/n) ∑ xi Mittelwert der Variablen X = (xi), i = 1,2,..,n; = (1/n) ∑ yi Mittelwert der Variablen Y = (yi), i = 1,2,…,n; sx2 = (1/n) ∑ ( xi – ) 2 Varianz von X, positive Wurzel daraus die Standardabweichung sx von X; sy2 = (1/n) ∑ ( yi – ) 2 Varianz von Y, positive Wurzel daraus die Standardabweichung sy von Y; r = (1/n) ∑ ( xi – ) ( yi – ) / ( sx sx ) Korrelationskoeffizient zwischen den Variablen X und Y; y(x) = m x + b Beliebige Gerade mit Steigung m = dy/dx und Ordinatenabschnitt b = y(0); ∑( yi – y(xi) )2 Gaußsche Summe der Abweichungsquadrate = Summe der quadrierten Abweichungen der Punkte (xi , yi) von den senkrecht darunter bzw. darüber liegenden Punkten der Gerade y(x); s 2res = (1/n) ∑( yi – y(xi) )2 Residualvarianz gleich Varianz von Y in Bezug auf die Gerade y(x) und gleich dem Mittelwert der Gaußschen Abweichungsquadrate. Der Laufbereich von Index i beim Summenzeichen ∑ lautet jeweils i = 1,2,…,n, und er ist nicht extra ausgewiesen. Die Standardabweichungen sx und sy sind jeweils größer als Null, da zufällige Variable vorliegen. Algebraische Zerlegung Die Zerlegung der Gaußschen Summe der Abweichungsquadrate lautet: ∑( yi – y(xi) )2 = n [ ( m sx – r sy ) 2 + ( m + b – ) 2 + (1 – r2 ) sy2 ] Durch Division mit n entsteht daraus eine Zerlegung für die Residualvarianz s 2res : s 2res = (1/n) ∑( yi – y(xi) )2 = ( m sx – r sy ) 2 + ( m + b – ) 2 + (1 – r2 ) sy2 Sind die Punkte (xi, yi) für i = 1,2,…,n fest vorgegeben, so liegen die Datenparameter sx , sy und r ebenfalls fest und sind konstant. Variabel sind jedoch die Geradenparameter m und b, sie sind so zu bestimmen, dass die Gaußsche Summe der Abweichungsquadrate oder die bis den Faktor (1/n) gleiche Residualvarianz minimal ist. Für das Aufsuchen des Minimums spielt dieser feste Faktor keine Rolle. Nachweis der Zerlegung s 2res = Mittelwert der Gaußschen Abweichungsquadrate = (1/n) ∑ (yi – y(xi) ) 2 = (1/n) ∑ (yi – (m xi + b) ) 2 = (1/n) ∑ (yi2 + (m xi + b ) 2 – 2 ( m xi + b ) yi ) = (1/n) ∑ (yi2 + (m xi)2 + b2 + 2 m xi b – 2 m xi yi – 2 b yi ) = (1/n) ∑ yi2 + (1/n)∑ (m xi)2 + (1/n)∑ b2 + (1/n)∑ (2 m xi b) – (1/n)∑ (2 m xi yi) – (1/n)∑ (2 b yi) = (1/n) ∑ yi2 + m2 (1/n) ∑ xi2 + b2 (1/n) ∑1 + 2 m b (1/n) ∑ xi – 2 m (1/n) ∑xi yi – 2 b (1/n)∑ yi = ( sy2 + 2 ) –2b sy2 + 2 = ) + m2 (sx2 + 2 + m2 sx2 + m2 ) + b2 2 + b2 = (m2 sx2 – 2 m r sx sy + r2 sy2) – r2 sy2 + = ( m sx – r sy ) 2 = ( m sx – r sy ) 2 + +2mb – 2 m ( r sx s y + +2mb – 2 m r sx sy – 2 m 2 + (b2 + m2 2 + (m 2 +2mb ) –2m + b ) 2 – 2 (m +(m +b – )2 + b) –2b –2b + sy2 + sy2 – r2 sy2 + (1 – r2 ) sy2 Durch Multiplikation mit n folgt die Zerlegung der Gaußschen Summe der Abweichungsquadrate. Benutzte Relationen beim Nachweis (1/n) ∑ 1 = 1 (1/n) ∑ xi2 = sx2 + (1/n)∑ yi2 = sy2 + (1/n) ∑xi yi = r sx sy + 2 2 Nachweis dieser Relationen (1/n) ∑ 1 = (1/n) ( 1 + 1 + 1 + … + 1) = (1/n) n = 1 sx2 + = (1/n) ∑ ( xi – 2 )2 + = (1/n) ∑ ( xi2 – 2 xi 2 2 + 2 ) + = (1/n) ∑ xi2 – (1/n) ∑ 2 xi + (1/n) ∑ 2 + 2 = (1/n) ∑ xi2 – 2 (1/n) ∑ xi + 2 (1/n) ∑ 1 + 2 = (1/n) ∑ xi2 – 2 2 2 + 2 + = (1/n) ∑ xi2 Durch Ersetzen von x durch y erhält man sy2 + r sx sy + = (1/n) ∑ ( xi – ) ( yi – = (1/n) ∑ ( xi yi – xi 2 = (1/n)∑ yi2 . ) + – = (1/n) ∑ xi yi – (1/n) ∑ xi yi + ) + – (1/n) ∑ yi + + = (1/n) ∑ xi yi – (1/n) ∑ xi – (1/n) ∑ yi + + = (1/n) ∑ xi yi – – + + = (1/n) ∑ xi yi Benutzte Rechenregeln für das Summenzeichen: ∑ (ai + bi) = ∑ ai + ∑ bi und c ∑ ai = ∑ (c ai) . Nachweis dieser Rechenregeln für Zahlen ai , bi , i = 1,2,…,n und c: ∑ (ai + bi) = (a1+b1) + (a2+b2) +…+ (an + bn) = (a1+ a2+…+ an) + (b1+b2+…+ bn) = ∑ ai + ∑ bi c ∑ ai = c (a1 + a2 +…+ an) = (c a1) + (c a2) +…+ (c an) = ∑ (c ai) Lösung des linearen Regressionsproblems Wie erwähnt, besteht diese darin, eine Gerade zu finden, die vorgegebene n Datenpaare (xi, yi) optimal erfasst in dem Sinne, dass die Residualvarianz s2res bzw. die bis auf den Faktor (1/n) identische Gaußsche Summe der Abweichungsquadrate ∑( yi – y(xi) )2 minimal ist: s 2res = (1/n) ∑( yi – y(xi) )2 = ( m sx – r sy )2 + ( m + b – )2 + (1 – r2 ) sy2 soll minimal sein Bei der geometrischen Bestimmung mit Hilfe des Augenmaßes zeichnen wir die n Datenpaare (x i, yi) als n Punkte in ein rechtwinkligen x/y-Diagramm ein. Wir drehen und verschieben dann ein Lineal so lange im zentralen Daten- bzw. Punktefeld, bis wir optisch den Eindruck haben, diese optimale Gerade gefunden zu haben, und wir ziehen entlang dieses Lineals einen Strich durch dieses Diagramm. Die analytische Lösung mit Hilfe dieser Formel entspricht dieser Vorgehensweise: Wenn wir das Lineal auf dem Diagramm drehen, verändern wir die Richtung dieser Geraden und damit den Parameter m in dieser Zerlegungsformel, der ihre Steigung misst. Wenn wir das Lineal parallel nach oben bzw. unten verschieben, ändern wir den Ordinatenabschnitt dieser Geraden und damit den Parameter b in dieser Formel, der diesen Ordinatenabschnitt am Koordinatenursprung misst. Die Parameter m und b in dieser Formel stehen uns also zur Ansteuerung der gesuchten minimalen Lösung zur Verfügung. Wir versuchen, m und b analytisch so zu steuern, dass die Residualvarianz minimal wird: In einem ersten Schritt steuern wir m so, dass das erste Quadrat (m sx – r sy )2 = 0 wird (einen kleineren Wert als 0 gibt es für ein Quadrat nicht), und wir erhalten die Steigung m = r sy / sx . Nun können wir noch über b verfügen. Dieses steuern wir in einem zweiten Schritt so, dass das zweite Quadrat (m + b – )2 = 0 wird (einen kleineren Wert als 0 gibt es nicht). Wegen y ( m + b = besagt diese Nullsetzung, dass die gesuchte Gerade – unbeschadet der Festlegung von m und b – durch den Punkt ( , ) gehen muss. Aus beiden Nullsetzungen erhalten wir somit die Punkt/Steigungsform einer Geraden: ( y(x) – ) / (x – ) = r s y / sx Diese ist die Regressionsgerade, weil der dritte Ausdruck (1 – r2) sy2 in dieser Zerlegung durch Steuerung von m und b nicht verändert werden kann, letzterer stellt also die Residualvarianz der Regressionsgeraden dar. Anmerkung: Man kann auch aus der Nullsetzung des zweiten Quadrates b = – m = – (r sy / sx) bestimmen und daraus die Geradengleichung gewinnen y(x) = m x + b = (r sy / sx) x + – (r sy / sx) = (r sy / sx) (x – )+ und erhält dasselbe Ergebnis. Die Regressionsgerade hat also die Steigung r sy / sx und geht durch den Punkt ( , ), dessen Koordinaten die Mittelwerte von X und Y sind. Das Vorzeichen der Steigung wird durch das Vorzeichen des Korrelationskoeffizienten r bestimmt; sie steigt also für wachsende xWerte nach rechts an, wenn r positiv ist, umgekehrt fällt sie für wachsende x-Werte nach rechts, wenn r negativ ist. Darüber hinaus beziffert diese Formel die Größe dieser Restvarianz mit (1 – r2 ) sy2, letztere ist genau dann gleich Null, wenn der Korrelationskoeffizient +1 oder –1 ist, dann liegen alle Punkte auf der Regressionsgeraden. Bei dieser Kenntnis lässt sich die Zerlegung auch so formulieren: s 2res = (1/n) ∑( yi – y(xi) )2 = sx2 ( y'(x) – r sy / sx )2 + ( y( )– )2 + (1 – r2 ) sy2 Nachtrag In dieser Darstellung sind für die Datenparameter sx , sy und r durchweg lateinische Buchstaben gewählt worden. Dieser liegt die Vorstellung zugrunde, dass die vorgegebenen n Datenpaare (x i , yi) , i = 1,2,…,n lediglich einen Teil der Grundgesamtheit umfassen, oder eine Stichprobe daraus ist. Zu beachten ist dann, dass die zugrundegelegte Formeln für diese Parameter Schätzungen (bei sx und sy die sogenannten Maximum-Likelihood-Schätzungen) für die entsprechenden Parameter µx, µy, σx , σy und ρ der Grundgesamtheit sind, für die griechische Buchstaben üblich sind. Literatur Maier, H. (2006) Impact of Bologna Regulations on Education in Statistics, New Bachelor and Master Studies in Berlin and Germany. Poster and additional materials presented on occasion of the 7th International Conference on Teaching Statistics of the International Statistical Institute held from July 2-7, 2006 at the Othon Hotel in Bahia, Salvador, Brasil, June 2006, Werkstatthefte aus Statistik und Ökonometrie, Fachhochschule für Wirtschaft Berlin, June 2006. Voß, Werner et al. (Hrsg.) (2000): Taschenbuch der Statistik, Fachbuchverlag Leipzig im Carl Hanser Verlag München Wien, ISBN 3-446-211543 (Zerlegungsformel S.189 nebst Gewinnung der Regressionsgeraden aufgeführt, Hinweis darauf bei der Darstellung der Gaußschen Lösung S.178). Maier, H. (2000) A direct solution of the problem of linear regression by analysis of variance, Ekonometria 5, 2000, PL ISSN 0324-8445, PL ISSN 1507-3866, Wroclaw/Polen, S. 9-21. Maier, H.(1999c) Algebraische Lösung des linearen Regressionsproblems vorgestellt,Semesterjournal, Heft 2/1999, ISSN 0945-7933, Fachhochschule für Wirtschaft Berlin, Dezember 1999, S.9 (Anhang). Maier, H. (1999b) Die algebraische Lösung des linearen Regressionsproblems, Vortrag anlässlich der Statistischen Woche 1999 der Deutschen Statistischen Gesellschaft et al. am 5. Oktober 1999 in Hannover, Tagungsführer, S. 49. Maier, H. (1999a) Mathe-Kenntnisse – Studienanfänger an der FHW im bundesweiten Vergleich, Semesterjournal, Heft 1/1999, FHW, ISSN 0945-7933, Fachhochschule für Wirtschaft Berlin, Juli 1999, S. 32 (siehe Anhang). Weisstein, Eric W. (1999) CRC Concise Encyclopedia of Mathematics, CRC Press, ISBN 0-84939640-9, Boca Raton London New York Washington, D.C. Maier, H. (1998b) How to teach the solution of the problem of linear regression, a direct approach in a closed form, In: Pereira-Mendoza, L. et al.(Ed.), Proceedings of the Fifth Conference on Teaching Statistics, Volume 3, ISBN 9073592-14-3, ISI Permanent Office, AZ Voorburg/Netherlands,p.1243-1249. Maier, H. (1998a) How to teach the solution of the problem of linear regression, a direct approach in a closed form, Paper presented to The Fifth International Conference on Teaching Statistics ICOTS-5 at Nanyang Technology University in Singapore, June 21-26, 1998, Werkstatthefte aus Statistik und Ökonometrie, Fachhochschule für Wirtschaft Berlin, Februar 1998. Maier, H. (1997c) A Direct Solution of the Problem of Linear Regression by Analysis of Variance, In: Student, A Statistical Journal for Graduate Students,Volume 2, Number 2, Neuchatel, September 1997, S. 201-208. Maier, H. (1997b) A direct solution of the problem of linear regression by analysis of variance, Paper presented to the Third International Conference on Statistical Data based on the L1 - Norm and related methods, August 11-15, 1997, Neuchatel/Switzerland, Werkstatthefte aus Statistik und Ökonometrie, Fachhochschule für Wirtschaft Berlin, Erweiterte Fassung, Juli 1997. Maier, H. (1997a) A direct solution of the problem of linear regression by analysis of variance, Paper presented to the Third International Conference on Statistical Data based on the L1 - Norm and related methods, August 11-15, 1997, Neuchatel/Switzerland, Werkstatthefte aus Statistik und Ökonometrie, Fachhochschule für Wirtschaft Berlin, Februar 1997. Anhang Quelle: Semesterjournal, Heft 1/1999, ISSN 0945-7933, FHW Berlin, Juli 1999, S. 32 Quelle: Semesterjournal, Heft 2/1999, ISSN 0945-7933, FHW Berlin, Dezember 1999, S.9