14 Skalarprodukt — Abstände und Winkel

Transcription

14 Skalarprodukt — Abstände und Winkel
14 Skalarprodukt — Abstände und Winkel
Um Abstände und Winkel zu definieren benötigen wir einen neuen Begriff. Zunächst
untersuchen wir die Länge eines Vektors v . Wir schreiben dafür kvk und sprechen auch
von der Norm von v .
(14.1) Beispiele. 1.) v ∈ R2 : Mit dem Satz des Pythagoras gilt
p
2.) v ∈ R3 : Wir setzen w = (v1 , v2 , 0). Wie in 1.) bekommt man kwk = v12 + v22 . Das
Dreieck mit den Ecken 0, w und v hat einen rechten Winkel in w . Mit dem Satz
des Pythagoras folgt
..................................................................................
..................................................................................
..................................................................................
Diese Beobachtung kann man verallgemeinern und bekommt die
Definition. Für v ∈ Rn heißt die reelle Zahl
v
u n
q
uX
2
t
kvk :=
vi = v12 + · · · + vn2
i=1
die Norm oder die Länge von v .
Man kann kvk (genauer: kvk2 ) auch durch ein Produkt von Matrizen ausdrücken:
 
v1
 
2
2
2
kvk = v1 + · · · + vn = v1 . . . vn  ...  = v T v.
vn
Ab sofort werden Vektoren stets als Spaltenvektoren vorgestellt. Sie werden also als
Elemente von Rn×1 aufgefasst. Der zugehörige Zeilenvektor wird v T ∈ R1×n geschrieben.
Man spricht auch vom transponierten Vektor. Der Ausdruck v T v ist streng genommen
eine 1 × 1-Matrix, wird aber schlicht als Zahl behandelt.
Später werden wir auch Matrizen transponieren.
68
Beispiel. v =
1
2
!
=⇒
Es gilt
....................................................................................
....................................................................................
....................................................................................
Was ist die Transponierte eines Zeilenvektors?
Um den Abstand zweier Vektoren v, w zu bestimmen, ermittelt man kv − wk.
Machen Sie sich anhand einer Skizze klar, dass das sinnvoll ist! Unsere Beobachtungen
kombiniert mit dem Distributivgesetz für die Matrizenmultiplikation erlauben folgende
Rechnung.
kv − wk2 = (v − w)T (v − w) = (v T − wT )v − (v T − wT )w
= v T v − wT v − v T w + wT w
= kvk2 + kwk2 − (wT v + v T w).
Für den letzten Ausdruck findet man
....................................................................................
....................................................................................
....................................................................................
Wir extrahieren daraus den entscheidenden Begriff für diesen Abschnitt.
(14.2) Definition. Die Abbildung
· : Rn × Rn → R; (v, w) 7→ v · w := v T w =
n
X
vi wi = v1 w1 + · · · + vn wn
i=1
heißt Skalarprodukt (oder inneres Produkt) auf Rn .
Wir halten die wichtigsten Eigenschaften des Skalarprodukts fest.
69
(14.3) Das Skalarprodukt ist
bilinear, d. h. linear in beiden Argumenten;
symmetrisch, d. h. ∀v, w ∈ Rn : v · w = w · v ;
positiv definit, d. h. ∀v ∈ Rn : v · v ≥ 0 und v · v = 0 ⇐⇒ v = 0.
Beweis. (1) folgt direkt aus der Matrizendarstellung des Skalarprodukts v · w = v T w .
(2) haben wir oben schon gezeigt.
(3) ist klar.
(14.4) Bemerkung. 1.) In der Gleichung λ(v · w) = (λv) · w kommen drei verschiedene
Produkte vor! Welche?
√
2.) Für die Norm gilt kvk = v · v .
Mit dem neuen Begriff liest sich das Ergebnis von oben so:
kv − wk2 = kvk2 + kwk2 − 2(v · w).
Der Satz des Pythagoras und seine Umkehrung implizieren die Aussage „ v steht senkrecht auf w genau dann, wenn v · w = 0“. Erneut ist das Anlass zu einer
(14.5) Definition. Man sagt v, w ∈ Rn stehen senkrecht oder orthogonal, wenn
v · w = 0.
Allgemeiner definieren wir den (ungerichteten!) Winkel α = ^(v, w) zwischen v und
w durch
v·w
mit α ∈ [0, π].
cos α =
kvk kwk
Auch diese Definition kann man durch eine elementare, geometrische Überlegung
rechtfertigen. Wichtiger noch ist die Tatsache, dass diese Definition sinnvoll ist. Dies
ergibt sich aus folgendem sehr bedeutendem Satz.
(14.6) Ungleichung von Cauchy-Schwarz. Für alle v, w ∈ Rn gilt
|v · w| ≤ kvk kwk .
Dabei gilt Gleichheit genau dann, wenn v, w linear abhängig sind.
v·w
Eine Konsequenz dieses Satzes ist die Ungleichung −1 ≤ kvkkwk
≤ 1. Da das Intervall
[−1, 1] der Wertebereich der Cosinus-Funktion ist, existiert der Winkel α in obiger
Definition.
Nun führen wir den Beweis für die Cauchy-Schwarz’schen Ungleichung.
70
Beweis (der Ungleichung von Cauchy-Schwarz). Der Fall w = 0 führt auf die trivialerweise wahre Aussage v · w = 0 = kvk 0.
Wir können also w 6= 0 annehmen. Der Trick besteht darin, den folgenden Ausdruck
für λ ∈ R zu betrachten und dann λ geschickt zu wählen. Dabei wird (14.3) mehrfach
ohne Hinweis genutzt.
0 ≤ (v − λw) · (v − λw) = v · v − λ(v · w) − λ(w · v) + λ2 (w · w)
v·w
folgt
= kvk2 + λ2 kwk2 − 2λ(v · w)
mit λ =
kwk2
!2
v
·
w
v·w
(v · w)2
(v · w)2
2
2
0 ≤ kvk2 +
kwk
−
2
(v
·
w)
=
kvk
+
−
2
kwk2
kwk2
kwk2
kwk2
(v · w)2
= kvk −
mal kwk2 > 0
2
kwk
2
⇐⇒ 0 ≤ kvk kwk2 − (v · w)2
2
Wurzelziehen auf beiden Seiten ergibt die erste Behauptung.
Gilt Gleichheit, so ist v = λw mit dem oben gewählten λ, also sind v, w linear
abhängig (auch im Fall w = 0).
Sind v, w linear abhängig so gilt v = λw . Einsetzen zeigt, dass Gleichheit vorliegt. Wir formulieren die wichtigsten Eigenschaften der Norm. Manche davon sind uns schon
im Zusammenhang mit dem absoluten Betrag reeller sowie komplexer Zahlen begegnet.
(14.7) Für alle v, w ∈ Rn , λ ∈ R gilt
(1) kvk ≥ 0; kvk = 0 ⇐⇒ v = 0
(2) kλvk = |λ| kvk
(3) kv + wk ≤ kvk + kwk
(Dreiecksungleichung)
(4) kv − wk ≥ kvk − kwk.
Beweis. (1) istpgenau die Eigenschaft
„positiv
aus (14.3).
√ definit“
p
√
(2) kλvk = (λv) · (λv) = λ2 (v · v) = λ2 v · v = |λ| kvk.
(3) Wir betrachten die Quadrate der linken wie der rechten Seite der Ungleichung:
kv + wk2 = (v + w) · (v + w) = kvk2 + kwk2 + 2v · w
(kvk + kwk)2 = kvk2 + kwk2 + 2 kvk kwk .
Mit der Cauchy-Schwarz’schen Ungleichung (14.6) folgt v · w ≤ kvk kwk, also
kv + wk2 ≤ (kvk + kwk)2
Da beide Seiten positiv sind, kann man Wurzeln ziehen ohne die Ungleichung zu verändern (die Funktion x 7→ x2 ist monoton auf R≥0 ). Das ist die Behauptung.
(4) folgt aus (3) wie in (2.9.5).
71
(14.8) Bemerkung. 1.) Aus der Dreiecksungleichung für die Norm kann man nun die
Dreiecksungleichung für den Abstand herleiten.
2.) Mit (14.7.3) ist auch der Beweis von (9.8.4) erbracht.
3.) Man kann den Satz des Pythagoras mit dem Skalarprodukt beweisen. Das ist aber
im Grunde eine Mogelpackung, denn das Skalarprodukt ist so gemacht, dass er gilt!
Wir betrachten einige
Anwendungen
Physik: In der Schule haben Sie gelernt, Energie sei „Kraft × Weg“, also E = F s.
Dabei wird nur die Komponente der Kraft in Richtung des Weges berücksichtigt. Eine
Skizze zeigt: Die „richtige Formel“ lautet E = F~ · ~s . Die Energie ist das Skalarprodukt
der beiden Vektoren!
In der
Statistik wird oft die Frage gestellt, ob Messgrößen korreliert 10 sind. Der Korrelationskoefizient κ dient dazu, das zu messen. Wir betrachten ein Beispiel: Sind Schuhgröße und Gewicht von Menschen korreliert? Dazu betrachten wir eine Menge von n
Menschen und messen Schuhgröße si und Gewicht gi der i-ten Person. Die Ergebnisse
fassen wir zu zwei Vektoren s0 und g 0 in Rn zusammen. Nun wird von jeder Komponente von s0 bzw. g 0 jeweils der Mittelwert subtrahiert, sodass wir die Vektoren s und
g erhalten. Diese haben beide Mittelwert 0. Nun gilt
κ :=
s·g
ksk kgk
(= cos(Zwischenwinkel))
Dividieren durch die Norm stellt sicher, dass die Größe nicht vom verwendeten Maßstab
abhängt. Ist κ ≈ 1, so sind die Größen korreliert (die Vektoren s, g fast linear abhängig),
gilt κ ≈ −1 so sind sie indirekt korreliert (und auch fast linear abhängig; zeigen aber in
entgegengesetzte Richtungen). Im Fall κ ≈ 0 sind sie nicht korreliert (die Vektoren s, g
fast orthogonal).
Dazu können Sie ein Experiment machen: Zwei Personen würfeln n = 100 mal und
notieren die Ergebnisse. Dann subtrahieren Sie jeweils den Mittelwert (sollte ungefähr
3.5 sein!) und berechnen κ (hier brauche Sie einen Rechner). Wenn das Ergebnis nicht
nahe Null liegt, dann sind die beiden Personen „würfelkorreliert“!
Ausgleichsgerade: Gesucht ist die Steigung m einer Gerade durch Null mit
m · 2 = y1
m · 3 = y2
m · 4 = y3
10
Vorsicht, korreliert bedeutet nicht, dass die Größen wirklich voneinander abhängen.
72
Dieses lineare Gleichungssystem hat nur in Spezialfällen eine Lösung. Wenn die yi etwa
Messgrößen sind, wird das nicht so sein. Trotzdem brauchen wir eine Lösung! Dazu
versuchen wir den quadratischen Fehler zu minimieren:
!
E 2 := (2m − y1 )2 + (3m − y2 )2 + (4m − y3 )2 = min
Ableiten liefert die Bedingung 2 (2m − y1 )2 + (3m − y2 )3 + (4m − y3 )4 = 0. Auflösen
nach m führt auf eine Näherungslösung für unser Gleichungssystem.
 
2
2y1 + 3y2 + 4y3
1 T
 
m̄ =
a
y
mit
a
=
=
 3 .
22 + 32 + 42
aT a
4
Im Fall y = (1, 1, 2)T ergibt sich z. B. m̄ ≈ 0.45. Skizzieren Sie das Ergebnis!
Im Spaltenbild bedeutet die Aufgabe ein m zu finden mit m · a ≈ y . Es soll also m · a
möglichst nahe bei y sein. Bei obiger Wahl von m̄ ist m̄ · a die Projektion von y auf
die Gerade Ra.
Das oben beschriebene Verfahren kann weitreichend verallgemeinert werden, und heißt
dann Methode der kleinsten Quadrate.
Beispiel. Eine Schülerin hat in ihren Mathe-Arbeiten den Notenvektor v = (1, 2, 2, 3, 1)
erzielt. Sie möchte die Durchschnittsnote N berechnen und verfällt auf die Methode
der kleinsten Quadrate. Sie überlegt: Ich möchte meine Daten durch eine einzige Zahl
darstellen, die möglichst nahe an allen Noten liegt. Ich suche also N mit N (1, 1, 1, 1, 1) =
v . Sie verwendet die obige Formel und erhält:
5
1X
1
(1, 1, 1, 1, 1) · v =
vi = . . . .
N̄ =
(1, 1, 1, 1, 1) · (1, 1, 1, 1, 1)
5 i=1
Kommt der Lehrer auf dasselbe Ergebnis?
Orthogonale Projektion: Wir greifen das Thema Projektion auf Ra aus dem obigen
Abschnitt nochmal auf. Zu gegebenem x ∈ Rn suchen wir α ∈ R mit (x − αa) · a = 0.
Dann heißt der Vektor αa die (orthogonale) Projektion von x auf die Gerade Ra. Wir
rechnen
a·x
.
0 = (x − αa) · a = x · a − α(a · a) =⇒ α =
a·a
Beachten Sie, dass das genau dieselbe Formel ist wie für m̄ weiter oben. In Matrizenschreibweise sieht die Projektion so aus
x 7→
1
1
!
T
T
2 a(a x) =
2 (aa )x
kak
kak
Das ist nur deshalb möglich, weil die Matrizen zusammenpassen. Falsch wäre z. B.
(aT x)a = aT (xa), denn das Produkt xa ist nicht definiert! Hieraus erhält man die
Projektionsmatrix
1
T
n×n
,
P =
2 (aa ) ∈ R
kak
73
die die Abbildung darstellt.
Beispiel. Wir untersuchen den Fall n = 2 und a = (1, 1). Die Matrix ergibt sich zu
....................................................................................
....................................................................................
....................................................................................
Eine Skizze bestätigt, dass P die orthogonale Projektion auf die Gerade R(1, 1)T
beschreibt.
Die Hessesche Normalform
Der Koordinatenform einer Ebene im R3 liegt auch das Skalarprodukt zugrunde. Wir
betrachten ein
Beispiel. Die Gleichung x − 2y + z = 0, die eine Ebene E definiert, kann man auch so
schreiben
 
x
 
1 −2 1 y  = 0.
z
Das bedeutet, dass die Elemente von E genau diejenigen Vektoren sind, die auf w :=
(1, −2, 1)T senkrecht stehen. Um eine Parameterdarstellung für E zu finden, muss
man zwei zu w orthogonale, linear unabhängige Vektoren finden, etwa (2, 1, 0)T und
(0, 1, 2)T . Es gilt dann
 
 
2
0
 
 
E = R  1  + R  1  = Kern 1 −2 1 .
0
2
Nun betrachten wir F : x − 2y + z = 2. Auch F ist eine Ebene, die aber nicht durch 0
verläuft. Eine einfache Rechnung zeigt
 
 
   
2
2
0
2
 
 
   
F =  0  + R  1  + R  1  =  0  + Kern 1 −2 1 .
0
0
2
0
Man erkennt, dass auch F senkrecht zur Geraden Rw steht. Das zeigt, dass die Ebenen
E und F parallel liegen.
74
Hieraus ergibt sich eine Methode um aus einer Parameterdarstellung eine Koordinatendarstellung zu finden. Gegeben ist eine Ebene F = t + Rr + Rs in R3 . Gesucht sind
ein Vektor v ∈ R3 und eine Zahl c ∈ R mit F : v · x = c.
Um v zu bestimmen muss das lineare Gleichungssystem rT v = 0 und sT v = 0 gelöst
werden. Etwas ausführlicher


! v
!
r1 r2 r2  1 
0
.
 v2  =
s1 s2 s2
0
v3
Tatsächlich genügt ein Lösungsvektor v 6= 0. Es gilt dann c = v · t.
(14.9) Bemerkung. 1.) Diese Überlegungen gelten auch im R2 und können auf den
Rn übertragen werden.
2.) Wer das Vektorprodukt (http://de.wikipedia.org/wiki/Kreuzprodukt) oder Kreuzprodukt kennt, kann im R3 (n = 3, sonst geht das nicht!) auch v = r × s rechnen.
3.) Ist t ein Punkt auf F , so gilt auch F : v · (x − t) = 0.
(14.10) Beispiele. 1.) Bestimme eine Koordinatendarstellung der Geraden
!
!
1
2
g=
+R
in R2 .
−1
3
Finde v ⊥
2
3
!
, etwa v =
3
−2
!
. Setze c =
3
−2
!
·
1
−1
!
= 5.
Es gilt g : 3x − 2y = 5.
2.) Bestimme eine Koordinatendarstellung der Ebene




 
1
2
0




 
E =  1  + R 1  + R 1 
−2
−1
1
in R3 .
Finde eine Lösung des linearen Gleichungssystems
!
2 1 −1
v = 0 etwa
0 1 1
..................................................................................
75
..................................................................................
..................................................................................
Wir fragen nach dem Abstand d(y, E) des Punktes y ∈ R3 von der Ebene E .
Definition. Sei A ⊆ Rn eine nichtleere Teilmenge und y ∈ Rn .
d(y, A) := inf ky − ak ; a ∈ A
heißt Abstand des Punktes y ∈ R3 von der Menge A.
Bemerkung. Die Menge ky − ak ; a ∈ A ist nichtleer und nach unten beschränkt
(Schranke?). Wegen der Vollständigkeit der reellen Zahlen existiert das Infimum in obiger
Definition, also auch der Abstand.
Wir betrachten die Ebene F : v ·(x−t) = 0 in Koordinatendarstellung und den Punkt
y ∈ R3 . Anschaulich erwarten wir, dass die orthogonale Projektion ȳ ∈ F derjenige
Punkt in F ist, der von y den kleinsten Abstand besitzt.
Wir bestimmen zunächst ȳ : Dazu subtrahieren wir ein noch unbekanntes α-faches
von v von y so, dass ȳ = y − αv ∈ F . Es gilt dann
0 = v · (ȳ − t) = v · (y − αv − t) = v · (y − t) − α(v · v)
Daraus erhält man
v
1 1
· (y − t) .
α=
2 v · (y − t) =⇒ ky − ȳk = kαvk =
2 v · (y − t) kvk = kvk
kvk
kvk
Der folgende Satz zeigt, dass unsere anschauliche Betrachtung richtig war.
v
· (y − t) .
(14.11) d(y, F ) = ky − ȳk = kvk
Beweis. Sei x ∈ F \ {ȳ} beliebig. Wir
müssen zeigen,dass ky − ȳk < ky − xk, dann ist
ky − ȳk sogar Minimum der Menge ky − ak ; a ∈ F , und unsere Behauptung gezeigt.
Anschaulich ist klar, dass v senkrecht auf ȳ − x steht. Wir rechnen das nach:
v · (x − ȳ) = v · (x − t − (ȳ − t)) = v · (x − t) − v · (ȳ − t) = 0 + 0 = 0.
Damit gilt
2 ky − xk2 = y − ȳ − (x − ȳ) = (y − ȳ) − (x − ȳ) · (y − ȳ) − (x − ȳ)
= (y − ȳ) · (y − ȳ) + (x − ȳ) · (x − ȳ) − 2(y − ȳ) · (x − ȳ)
= ky − ȳk2 + kx − ȳk2 − 2αv · (x − ȳ)
= ky − ȳk2 + kx − ȳk2 .
Wegen x 6= ȳ gilt kx − ȳk2 > 0 und somit ky − ȳk < ky − xk.
76
(14.12) Definition. Gegeben sei ein Vektor v ∈ Rn \ {0} und d ∈ R. Die Menge
H = {x ∈ Rn ; v · x = d} heißt Hyperebene in Rn .
Die Darstellung H : v · x = d heißt Hessesche Normalform von H , wenn gilt
kvk = 1 und d ≥ 0.
(14.13) Bemerkung. 1.) Im R2 sind Hyperebenen genau die Geraden, im R3 sind es
die Ebenen.
2.) Die Hessesche Normalform ist einfach eine spezielle Koordinatendarstellung von H .
3.) Nach unserer Definition von Hyperebenen existiert immer eine Hessesche Normalform. Nämlich
!
±d
±1
v ·x=
so dass ± d ≥ 0.
H:
kvk
kvk
4.) Man sagt auch
1
kvk
v ist der Einheitsvektor in Richtung v . Er hat die Norm 1.
5.) Unsere Vorüberlegungen einschließlich (14.11) gelten für alle Hyperebenen.
Mit Hilfe der Hesseschen Normelform kann man den Abstand eines Punkte von einer
Hyperebenen einfach berechnen.
(14.14) Satz. Sei H : v · x = d eine Hyperebene in Hessescher Normalform.
(1) Im Fall d = 0 ist H ein Untervektorraum der Dimension n − 1.
(2) Bis auf den Fall d = 0 und H : (−v) · x = 0 ist die Hessesche Normalform von H
eindeutig bestimmt.
(3) Für y ∈ Rn gilt d(y, H) = |v · y − d|.



falls
1
(4) Sei ε das Vorzeichen von v · y − d, d. h. ε = −1 falls


0
falls
v·y−d>0
v ·y −d < 0.
v·y−d=0
Im Fall d = 0 bedeutet ε = 1, dass y und v auf derselben Seite von H liegen;
ε = −1, dass sie auf verschiedenen Seiten liegen.
Im Fall d 6= 0 bedeutet ε = −1, dass y und 0 auf derselben Seite von H liegen;
ε = 1, dass sie auf verschiedenen Seiten liegen.
Natürlich bedeutet ε = 0 in beiden Fällen y ∈ H .
Beweis. (1) H = Kern(v T ) ist ein Untervektorraum von Rn . Es hat Bild(v T ) = R1×1
die Dimension 1. Die Dimensionsformel (13.6) zeigt die Behauptung.
(2) ohne Beweis.
(3) folgt aus den Vorbetrachtungen mit (14.11). Man beachte, dass wir kvk = 1
vorausgesetzt haben.
77
(4) Wir greifen auf die Darstellung der orthogonalen Projektion ȳ vor (14.11) zurück:
y = ȳ + αv mit α = v · (y − t) = v · y − d mit einem beliebiges t ∈ F .
Im Fall d = 0 sind y und v auf derselben Seite von H genau dann, wenn α > 0.
Im Fall d 6= 0 gilt α = −d < 0 falls y = 0. Den Rest macht man sich an Hand einer
Skizze klar.
√
(14.15) Beispiele. 1.) Für g : 3x − 2y = 5 gilt (3, 2) = 13, also ist die Hesse
3
2
5
Normalform g : √ x − √ y = √ . Es gilt z. B.
13
13
13
3
5
2
5 1 1
d (0, 0), g = √
und d (2, 1), g = √ 2 − √ − √ = − √ = √ .
13
13
13
13 13 13
Es liegen 0 und (2, 1) auf der selben Seite.
2.) E : x1 − x2 + x3 = −2. Man findet v =
√1 (−1, 1, −1)
3
und d = 2, also
−1
1
−1
2
E : √ x1 + √ x2 + √ x3 = √
3
3
3
3
78