Verstehen und Verarbeiten von Bildern - Goethe
Transcription
Verstehen und Verarbeiten von Bildern - Goethe
Verstehen und Verarbeiten von Bildern J. Baumeister∗ 2. Mai 2000 Zusammenfassung: Mit der Zunahme der Rechnerleistung moderner Computer gewinnt die digitale Verarbeitung von Bildern eine überragende Bedeutung; sie ist Kerntechnologie“ unserer Informa” tionsgesellschaft. Auch komplexe Bildverarbeitungsverfahren können inzwischen an einem normalen PC realisiert werden. Zielrichtung der (digitalen) Bildverarbeitung ist es, Bilder zu speichern und zu transportieren, aus Bildern wieder Bilder zu erstellen und Bilder automatisch zu erkennen. Wir skizzieren die wesentlichen Bausteine einer Theorie:1 Bildverstehen, Bildcodierung, Bildkompression, Bildrekonstruktion, Bildverbeserung, Mustererkennung. Zwei Anwendungsbeispiele sollen aufzeigen, in welchen mathematischen Forschungsfeldern mit Berührungspunkten zur Bildverarbeitung aktuell gearbeitet wird. Die zum Verständnis dafür nötigen Werkzeuge aus der Mathematik bzw. Informatik sind sehr elementar, die obigen Themen können daher ohne große Schwierigkeiten an der Schule behandelt werden; abschließend gehen wir konkret und abstrakt darauf ein.2 Abbildung 1: Der fraktale Farn ∗ Fachbereich Mathematik Johann Wolfgang Goethe – Universität, Robert Mayer Strasse 6 – 10, D 60054 Frankfurt/Main, e-mail: Baumeister@math.uni–frankfurt.de 1 Der Titel des Sammelbandes Radig, B. (Hrsg.), Verarbeiten und Verstehen von Bildern, Oldenbourg-Verlag, ” München, 1993“ stand Pate für den Titel des Manuskriptes. Es ist entstanden anlässlich eines Vortrags im Lehrerkolloquium des Fachbereichs am 3. Mai 2000. 2 Die nun folgende Figur ist ein Farn, codiert mit IFS und gerechnet mit Maple V; siehe Abschnitt 4.1. 1 INHALTSVERZEICHNIS Inhaltsverzeichnis 1 Einführung 1.1 Bilder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Was ist Sehen? Was ist Bildverstehen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Bilder als Datensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 3 4 4 2 Bilderfassung 2.1 Bilddigitalisierung . . . . . . 2.2 Darstellung von Bildern . . . 2.3 Bildaufnahmegeräte . . . . . 2.4 Eine Übersicht über Formate 2.5 Bildvorverarbeitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 7 7 8 3 Datenkompression und Datenreduktion 3.1 Die Bitreduzierung . . . . . . . . . . . . . . . 3.2 Berücksichtigung von Zeichenwiederholungen 3.3 Reduktion durch Differenzbildung . . . . . . 3.4 Die Huffmann–Kompression . . . . . . . . . . 3.5 GIF, JPEG und MPEG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 9 10 10 10 12 4 Fraktale Kompression 4.1 Das Vorwärtsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Das inverse Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 13 15 5 (Diskrete) Bildtransformationen 5.1 Fouriertransformation . . . . . . 5.2 Diskrete Fouriertransformation . 5.3 Diskrete Cosinus–Transformation 5.4 Wavelet–Transformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 17 18 20 21 6 Bildverbesserung und Klassifikation 6.1 Bildpunktverbesserungen . . . . . . 6.2 Segmentierung . . . . . . . . . . . . 6.3 Kanten . . . . . . . . . . . . . . . . . 6.4 Klassifizierung und Interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 25 25 26 27 7 Anwendungen: Bildgebende Verfahren 7.1 Computertomographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Impedanztomographie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 27 30 8 Was kann davon in den Schulunterricht eingehen? 8.1 Alphabete und Codes . . . . . . . . . . . . . . . . . 8.2 Graphen . . . . . . . . . . . . . . . . . . . . . . . . . 8.3 Algorithmen . . . . . . . . . . . . . . . . . . . . . . . 8.4 Koordinaten . . . . . . . . . . . . . . . . . . . . . . . 8.5 Gleichungssysteme . . . . . . . . . . . . . . . . . . . 8.6 Thesen . . . . . . . . . . . . . . . . . . . . . . . . . . 31 31 32 33 34 35 37 . . . . 9 Literatur Stand: 2. Mai 2000 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 2 c J. Baumeister 1 1 1.1 EINFÜHRUNG Einführung Bilder Was assoziieren wir mit Bild, Bildern? Höhlenmalerei Die Bilder in der Höhle von Lascaux, die 1940 entdeckt wurden, gehören zu den bedeutendsten ihrer Art. Sie wurden geschaffen zwischen 17 000 und 15 000 v.Chr. An den Wänden tummelt sich eine Schar von Tieren mit unverhältnismäßigen Proportionen, ihre Anordnung und ihre Umrahmung durch geometrische Zeichen sprechen dafür, dass es sich bei den Höhlen um eine Kultstätte handelte. Platons Höhlengleichnis Das Höhlengleichnis ist gedacht als Anleitung für die Ausbildung von Funktionsträgern des Staates. Eine seiner Kernthesen ist die Aussage, dass wir nur schattenhaft die Wirklichkeit wahrnehmen. Die Bilder an der Wand der Höhle, in die die Welt der Menschheit verlegt wird, lassen nur einen kleinen Ausschnitt der Wirklichkeit erkennen. Religiöse Bilder Wir verknüpfen damit Zeugnisse der religiösen Malerei, etwa der karolingischen Buchmalerei, z.B. das Godescalc–Evangelistar, geschaffen von einem Anonymus im Auftrag von Karl dem Großen (781–783); siehe [go]. Bilder als Stationen der Kunstgeschichte Graphiken von Albrecht Dürer, die ersten“ na” turwissenschaftlichen Zeichnungen von Leonardo da Vinci, die voluminösen Bilder von Rubens, die farblich so beeindruckenden (religiösen) Kompositionen von Marc Chagall, die irritierenden und provozierenden Kunstprodukte von Beuys. Bilder der Imagination Imagination bedeutet bildhafte Einbildungskraft, bildhaftes Denken: Hier sind Bilder gemeint, die wir uns von etwas machen. Das englische Wort image“ für ” Bild ist ein Wort, das in der Bildverarbeitung seinen Platz hat. In der Marktforschung hat das Wort Image“ als ein Begriff Einzug genommen, der ein Vorstellungsbild bezeichnet, ” das Erwartungen umfasst. Damit grenzt es sich ganz deutlich von dem englischen Wort picture“ ab, das für ein Bild“ in einer sehr distanzierten Weise steht. ” ” Fotographie Bilder, die wir von Szenen als Stützen für unsere Erinnerungen festhalten, sammeln wir in Alben. Sie sind, soweit sie noch der analogen Generation angehören, unveränderliche Abbilder einer Situation oder einer gestellten Wirklichkeit. Röntgenbilder Röntgenbilder sind die erste Klasse von (nicht ganz ungefährlichen) Diagnoseinstrumente der bildgebenden medizinischen Geräte. Damit sind verbunden Angst und Hoffnung, wenn sie nicht anonyme Bilder sind, sondern mit unserer Existenz zu tun haben. Ihre ungefährlichere Variante Ultraschalltechnik“, Computertomographie“ und NMR– ” ” ” Spektroskopie“ (nuclear magnetic resonance spectroscopy) sind schon Kombinationen von analoger und digitaler Technik. Satellitenbilder Die globale Erderkundung wird durch Satelliten möglich: Abtastergebnisse der Erdoberfläche durch Radarsignale lassen sich zu einer Landkarte“ der Erde von un” gewöhnlicher Genauigkeit aufbauen. Der Erkundung von Planeten und des Kosmos liegt ein vergleichbares Vorgehen zugrunde. Sonogramme Sonogramme sind Aufzeichnungen von Frequenzen, die beim Sprechen aufgezeichnet werden. Aus den rein physikalischen Aufzeichnungen lässt sich aber durchaus ein Bild“ von dem das Sonogramm Liefernden ableiten. ” Stand: 2. Mai 2000 3 c J. Baumeister 1.2 1.2 Was ist Sehen? Was ist Bildverstehen? Was ist Sehen? Was ist Bildverstehen? Sehen ist eine Leistung, die durch das Zusammenwirken optischer, biochemischer, nervlicher und psychologischer Prozesse zustande kommt. Als Ergebnis sehen wir ein Bild, ein Abbild einer Wirklichkeit in unserem Gesichtsfeld. Das Verstehen eines Bildes durch das visuelle System ist ein (zumindest) dreistufiger Prozess: Sehen Erkennen Entscheiden Durch unsere Beobachtung einer Bildszene stellen wir einen Zusammenhang mit schon (in unserem Bewusstsein) vorhandenen Modellen der Welt her. Beim Erkennen begreifen und erfahren wir ursächliche und intuitive Zusammenhänge. Mit der Entscheidung treffen wir die Auswahl der Modelle, die wir als in Übereinstimmung mit unserer Bobachtung erachten. Wenn wir beispielsweise die Straße lang fahren und am rechten Straßenrand ein Kind, am linken Straßenrand einen Ball wahrnehmen, sind wir geneigt, sofort einen Zusammenhang herzustellen, insbesondere dann, wenn wir noch Bewegung beim Kind feststellen. Wir wählen aus unserem Erkenntnisvorrat das Modell aus, das beide Beobachtungen zusammenfügt zum Bild: Kind will über die Straße laufen, um den Ball zu holen“. Ein Computer, der mit dieser Szene ” gefüttert“ wird, wird schwerlich die beiden Merkmale der Szene, Kind und Ball, zusammen ” fügen, selbst wenn er mit Software der Künstlichen Intelligenz“ ausgestattet ist. ” Was entspricht dem visuellen System in der digitalen Bildverarbeitung? Wie können wir ähnlich dem visuellen System aus digitalen Bildern die physikalische Welt (um uns herum wieder) herstellen? Dies ist zum Beispiel in der Robotik eine unerlässliche Aufgabe. • Wie ist es möglich Konturen zu definieren aus der Kenntnis von Variationen der Lichintensität? • Wie ist es möglich, Tiefe zu erfassen? • Wie ist es möglich, Bewegung zu erkennen? Wir nennen die wesentlichen Stufen maschinellen Sehens. Bilderfassung, Bildvorverarbeitung (Sehen) Merkmalsextraktion, Segmentierung (Erkennen) Klassifikation (Entscheiden) Sehen unterscheidet sich in den Disziplinen der Wissenschaften: Mathematik Physik Physiologie Nachrichtentechnik Biologie Informatik 1.3 Frequenzen, Übertragungsfunktion; Radiometrie (Wärmestrahlung), Optik; Fotometrie (Lichtstärke, Leuchtdichte), Farben; Sensoren, Abtastung; Perzeptoren, Neuronen; Strukturen, Programme. Bilder als Datensatz Wenn wir die Liste aus 1.1 analysieren, erkennen wir sehr unterschiedliche Medien/Mechanismen ihrer Speicherung: Vorstellungskraft bzw. Bewusstsein, Gedächtnis, analoge Aufzeichnung, digitale Aufzeichnung. Wir wollen uns fast ausschließlich auf digitale Bilder beschränken, also solche, deren Informationsgehalt umgewandelt ist in ein Wort oder in Wörter über einem Alphabet; der Stand: 2. Mai 2000 4 c J. Baumeister 2 BILDERFASSUNG Vorgang ist Teil der Bildigitalisierung; siehe unten. Eine herkömmliche Bildbeschreibung wäre somit eine Beschreibung eines Bildes über dem Alphabet unserer Sprache. Wir haben aber eher das binäre Alphabet A im Auge: A := {0, 1}. Die Wörter über diesem Alphabet sind also Zeichenfolgen bestehend aus den Buchstaben 0, 1; ein Buchstabe hat den Informationsgehalt eines Bits. Beispiele: • Morsealphabet A := {−, ·} . Worte, die mit den Buchstaben dieses Alphabets geschrieben werden, sind unterschiedlich lang; etwa S O S = ˆ · · · − − − · · · ; siehe [sm]. • Binäralphabet“ A := {Loch, kein Loch} . ” Worte dieses Lochstreifencodes sind Wörter der Länge 5, angeordnet in senkrechten Reihen auf dem Lochstreifen. Es gibt also 25 = 32 Worte (und ein leeres Wort). Damit können die 26 Buchstaben, Sonderzeichen und Ziffern, 0, . . . , 9 dargestellt werden, da es gelingt, durch das Vorwegstellen eines Sonderzeichens mehr als 32 Zeichen zu verwirklichen. • Binäralphabet A := {0, 1} . Es gibt 28 = 256 Worte der Länge 8 (und ein leeres Wort). Darin findet man den ASCII– Code der Buchstaben, Ziffern und Sonderzeichen. Etwa steht das Byte 00100001 für A . Nun sind ja Bilder keine eindimensionalen“ Gebilde, sondern zweidimensional (Höhe, Brei” te) und möglicherweise mehrdimensional“ in der Tiefe“ (Grauwerte, Helligkeit, Farben). Der ” ” Zeichensatz, der ein solches Bild beschreiben kann, ist also im allgemeinen eine Liste von Vektoren, bestehend aus Wörtern über einem Alphabet. In dieser Hinsicht können wir dann für eine grundsätzliche Betrachtung der Verarbeitung von solchen Datensätzen ganz darauf verzichten, nur Bilder im Auge zu haben, sondern allgemein • Audio—Musik und Sprache • Video—Bilder, Television • Daten—Zahlen, Texte, Graphiken betrachten. Bildverarbeitung ist also Datenverarbeitung, wobei Datenverarbeitung“ nicht im ” alten verstaubten Sinne verstanden werden darf. Das größte Problem, das heutzutage bei der Verarbeitung von Bildern herrscht, ist das Komplexitätsproblem: Welcher Platzaufwand ist für die Speicherung nötig, welcher Zeitaufwand ist für eine Übertragung erforderlich, wie schnell lassen sich Bilder in digitale Datensätze und sicher daraus zurückverwandeln. Beispielsweise findet die Suchmaschine http://www.altavista.de unter dem Stichwort art“ im gesamten Netz 129 327 Bilder (März 2000). ” Damit sind nun die Grundbegriffe, mit denen wir uns beschäftigen wollen, angesprochen: Bilderfassung, Bildverbeserung, Bildcodierung, Bildtransformation, Datenkompression, Datenreduktion. 2 2.1 Bilderfassung Bilddigitalisierung Die bildgebenden Geräte liefern entweder direkt einen Datensatz, bestehend aus Wörtern über dem binären Alphabet, oder können durch die Zwischenschaltung eines Analog/Digital–Wandlers Stand: 2. Mai 2000 5 c J. Baumeister 2.2 Darstellung von Bildern (A/D–Wandlers) dazu gebracht werden. Fotos können etwa über eine eine digitale Fotokamera oder über einen Scanner in den Computer eingebracht werden; siehe unten. Digitalisierung/Rasterung Das Bild wird gerastert. Dabei wird das Bild mit einem Gitter überzogen, das es in (im allgemeinen) quadratische Bildzellen, so genannte Pixel (picture elements) einteilt; etwa bedeutet eine Rasterung von 512 × 512, dass Breite“ und Höhe“ in 512 äquidistante ” ” Abschnitte zerlegt werden und so 512 · 512 Pixel entstehen. Bei der digitalen Camera und bei einem Scanner kann man im allgemeinen die Qualität der Rasterung wählen. Hat man ein Musikbild“ zur Rasterung, so spricht man auch von Sampling. Die Abtastfrequenz ” gibt an, wie oft etwa pro Sekunde eine Rasterung der Töne im Frequenzraum (siehe unten) vorgenommen wird. Bei bildgebenden Verfahren (siehe 7) muß das digitalisierte Bild meist erst noch errechnet werden. Digitalisierung/Quantisierung Einem Bildpixel wird bei Schwarz/Weiss–Aufnahmen ein Grauwert und bei Farbaufnahmen ein Farbwert, bestehend aus Anteilen R (rot), G (grün), B (blau) und eventuell ein Helligkeitswert I (Luminanz) zugeordnet; siehe unten. Z.B. sind 28 = 256 (8 Bits) Graustufen schon eine recht ausreichende Quantisierung; der Mensch kann höchstens 200 Graustufen unterscheiden. Die Auflösung (resolution) eines Bildes wird beschrieben durch sie die Anzahl der Pixel und die Feinheit der Quantisierung. Nimmt man 28 = 256 Farbstufen an bei einem Farbbild, dann wird deutlich, mit welchem Speichervolumen und mit welchem Datendurchsatz bei der Bildverarbeitung zu rechnen ist, insbesondere dann, wenn Bildfolgen (Filme, Videos) etwa mit einem Bildtakt von 25 Bildern pro Sekunde beherrscht werden sollen; Reduktion der Daten von 1 : 50 ist erreichbar (siehe unten). 2.2 Darstellung von Bildern Grauwertbilder lassen sich gut mit Bildmatrizen beschreiben: x = 0, . . ., m − 1 y = 0, . . . , n − 1 (x, y) s(x, y) ∈ G G S = (s(x, y))x=0,...,m−1,y=0,...,n−1 Bildzeilen Bildspalten Ortskoordinaten des Bildpunktes Grauwert in (x, y) Grauwertmenge Bildmatrix des Grauwertbildes Üblicherweise verwendet man als Grauwertmenge G = {0, . . ., 255} . Ein binäres Bild, also ein schwarz/weiss Bild, ist dadurch formal erfasst, indem man nur die Werte 0 und 255 zulässt. Mehrkanalige Bilder können als dreidimensionale Matrizen“ beschrieben werden: ” x = 0, . . ., m − 1 Bildzeilen y = 0, . . . , n − 1 Bildspalten k = 0, . . ., K − 1 Kanalzähler (x, y, k) Koordinaten des Bildpunktes s(x, y, k) ∈ G Bildwert in (x, y) auf dem Kanal k G Bildwertmenge S = (s(x, y, k))x=0,...,m−1,y=0,...,n−1,k=0,...,K−1 Bildmatrix des Bildes Stand: 2. Mai 2000 6 c J. Baumeister 2.3 Bildaufnahmegeräte Der derzeitige Standard sind Darstellungen mit drei Kanälen (Rot, Grün, Blau) und Grauwertmenge G = {0, . . ., 255} . Mit einer geeigneten Displaystation können 16 777 216 = 224 Farben dargestellt werden. Überträgt man Bildfolgen, so hat man die (diskrete) Zeitkoordinate t = 0, . . ., T − 1 hinzuzufügen: Der Bildwert ist dann eine Funktion der Variablen (x, y) (Ortskoordinaten), k (Kanal), t (Zeit); also s : {0, . . ., m − 1} × {0, . . ., n − 1} × {0, . . ., K − 1} × {0, . . ., T − 1} −→ G . Einfache Maßzahlen zur Charakterisierung etwa von Grauwertbildern sind der Mittelwert der Bildwerte und die zugehörige quadratische Abweichung, definiert wie in der Statistik der Stichproben. 2.3 Bildaufnahmegeräte Eine sehr direkte Art, ein Bild zu erfassen, ist über eine digitale Camera. Sie hat einen Halbleiterchip (CCD) und ein Speichermedium (memory card) für die Aufzeichnung des digitalen Bildes. Der Chip ist in der Lage Licht in elektrische Signale umzuwandeln. Mit einem Kabel kann das aufgezeichnete Bild von der Camera auf den Computer übertragen werden. (Flachbett–)Scanner verwandeln eine Vorlage in einen digitalen Datensatz auf folgende Weise: Weisses Licht wird auf das eingelegte Objekt gestrahlt und das reflekte Licht wird in Intensität und Farbe aufgezeichnet, gewöhnlich Zeile für Zeile; das Ergebnis wird pixelweise im Computer abgelegt. Moderne Scanner zeichnen Farbbilder in einem Durchlauf auf. Die Auflösung kann man bei beiden Aufnahmegeräten wählen. 2.4 Eine Übersicht über Formate Mit Format wird eine Methode für die Abspeicherung von Bildern (und Musik) umschrieben, das Resultat ist dann ein Bild–File. Für Bilder und Graphiken sind folgende Basisformate bekannt: Bitmap–Files Bei Bitmap–Files (auch Raster–Files genannt) wird ein Bild als Matrix (Reihen, Spalten) der Pixel, jedes versehen mit Grau– oder Farbwerten, abgespeichert. Wohlbekannte Formate sind GIF (Graphics Interchange Format von Compuserve, Filetyp .gif“), ” TIFF (Tagged Image File Format), JPEG (Joint Photographic Expert Group, Filetyp .jpg“, sprich jaypeg“), BMP (Windows BitMaP), PCX (PC Paintbrush). ” ” Vektor–Files Das Bild ist aufgebaut aus geometrischen Objekten wie Linien, Polygonen, Bögen, und die Daten dazu sind beschrieben durch einfache mathematische Operationen ( starte ” in x und ziehe eine Linie bis y“). Solche Files sind typisch für CAD–Informationen. Ein Format dieser Klasse ist DFX (Data eXchange Format). Meta–Files Solche Files können sowohl Raster– als auch Vektor–Daten enthalten. Beispiele sind CGM (Computer Graphics Meta–file), EPS (Encapsulated PostScript, Filetyp .eps“), PDF (Portable Document File, Filetyp .pdf“), PICT (MacIntosh PICTure file). ” ” Einige der obigen Files sind strikt an Systeme gebunden, andere in keinster Weise. Z.B. ist das Format WMF (Microsoft Windows Metafile) an Windows gebunden, PICT an MacIntosh, EPS–Files sind ein perfektes Beispiel für systemunabhängige graphische Files. Stand: 2. Mai 2000 7 c J. Baumeister 2.5 Bildvorverarbeitung Die unterschiedlichen Formate sind entworfen für unterschiedliche Aufgaben: BMP, um Files in Windows sichtbar“ zu machen, Drucken ist eine ungeeignete Anwendung; EPS und ” TIFF sind gut geeignet für hoch auflösende Drucker, GIF und JPEG sind gut geeignet für Bildübertragungen in einer kompakten Weise. Im Internet werden hauptsächlich die Formate GIF und JPEG benutzt; ein Format der Zukunft ist PNG (Portable Network Graphics, sprich ping“). ” 2.5 Bildvorverarbeitung Bildvorverarbeitung vermittelt“ zwischen der Hardware des Bildaufnahmesystems und der ei” gentlichen Bildverarbeitung. Man kann unterscheiden: Bildrestauration, Bildverbesserung. Bildrestauration versucht, die Veränderungen, die durch Aufnahme- und Transportsysteme der Bilddaten hervorgerufen werden, rückgängig zu machen. Hierzu gehören die Aufgaben Ent” fernung von Rauschen“, Beseitigung von perspektivischen Verzerrungen, Wehnahme der Verwaschung aufgrund von Bewegungen des Objekts, Wiederherstellen von ausgefallenen Pixeln. Bildverbesserung hat zum Ziel, die Informationen in den Daten zu betonen, die für die gezielte Wortverarbeitung erforderlich sind, und irrelevante oder gar störende zu entfernen. Die Aufgaben der Bildrestauration und Bildverbesserung lassen sich nicht strikt trennen. Eine Bemerkung zum Begriff Rauschen“, weisses Rauschen“. Mit Rauschen“ wurde ur” ” ” sprünglich der durch Schwankungen der Luftdrucks hervorgerufene Schalleindruck bezeichnet. Heute ist es seine Bezeichnung für zufällige/stochastische Störungen von Signalen der informationsverarbeitenden elektronischen Anlagen. Die Bezeichnung weiss“ ist in Anlehnung an ” das weisse Licht gewählt. Ebenso wie weisses Licht ein breites Gemisch von unterschiedlichen Wellenlängen/Frequenzen ist – zumindest rotes, grünes und baues Licht ist enthalten – enthält weisses Rauschen ein breites Frequenzspektrum; siehe unten. Mit g(x, y) = (Hs)(x, y) + ω(x, y) ist eine mathematische Formulierung gefunden, die für die Betrachtung von Graubildern meist ausreicht, wenn wir aufschreiben wollen, welchen Veränderungen Bildaufnahmen unterworfen sind. Dabei ist s die aufgenommene Bildfunktion, die durch den Operator“ H transformiert ” (verzerrt, . . . ) wird, mit ω(x, y) wird dann die transformierte Bildfunktion überlagert“, die ” resultierende Bildfunktion, die im Computer ankommt, ist dann g. Bildrestauration bedeutet dann, mit Hilfe von g und dem Wissen über den Transformationsprozess H (qualitativ, quantitativ) die Bildfunktion s zu rekonstruieren. Dabei hat man über ω meist nur sehr eingeschränkte stochastische Information zur Verfügung. In der analogen und digitalen Informationstechnologie ist die Grösse signal–to–noise–ratio (SNR) ein Maß für die Stärke eines Signals relativ zum Hintergrundrauschen. SNR wird gewöhnlich in Dezibel (dB) gemessen. Ist das eingehende Singal (Vs) und das Rauschsignal (Vn) in Mikrovolt gemessen, dann ist SNR = 20 log10 ( Vs ). Vn Es ist klar, ein großer positiver Wert von SNR bei der Signalübertragung ist wünschenswert. Die Korrektur geometrischer Verzerrungen kann mitunter schon mit ganz einfachen Abbildungen erfolgen, zum Beispiel schon mit affinen Abbildungen: x0 = a0 + a1 x + a2 y , y 0 = b0 + b1 x + b2y. Sie enthalten schon Stand: 2. Mai 2000 8 c J. Baumeister 3 Drehungen: Skalierung: Skewing: Translation: x0 x0 x0 x0 DATENKOMPRESSION UND DATENREDUKTION = x cos ϑ + sin ϑ , y 0 = −x sin ϑ + y cos ϑ = ax , y 0 = by = x + y tan ϑ , y 0 = y = a + x , y0 = b + y Bei Aufnahmen von Wettersatelliten ist die Aufgabe, geometrische Korrekturen vornehmen zu müssen, ganz augenscheinlich (Drehbewegungen der Erde, perspektivische Verzerrung am Bildrand). Sind neue oder fehlene Bildpunkte zu ermitteln, dann kann man die Methoden der Bildverbesserung durch Nachbarschaftsoperationen heranziehen. Rauschunterdrückung erfolgt üblicherweise durch Filtertechnik. Ein Filter ist eine Vorrichtung, die unerwünschte Daten zurückhält, erwünschte/korrekte durchlässt. Sie sind mathematisch sauber und einsichtig darzustellen nur bei Verwendung des Spektrumbegriffs. Diesen wollen wir später einführen. Jedoch reicht oft schon eine einfache Mittelung der Bildwerte über benachbarte Pixel, um eine wesentliche Verbesserung zu erreichen. 3 Datenkompression und Datenreduktion Ein Bild mit 24 Bits Farbtiefe und 256 × 256 Pixel benötigt 0.2 MByte Speicherplatz. Das FBI hat in seiner Datenbank etwa 30 Millionen Fingerabdrücke gespeichert; Zuwachs pro Tag etwa 30 000 Abdrücke. Für einen einzigen Abdruck benötigt man ca. 0.6 MByte Speicherplatz. Damit wird die Notwendigkeit, Daten zu komprimieren und zu reduzieren wohl eindringlich klar; man rechne den Preis für das Speichermedium aus! Unter Datenkompression (Datenverdichtung) verstehen wir die Transformation eines Datensatzes/einer Nachricht in einer vorkodierten Form in eine andere vorkodierte Form, die mit weniger Zeichen des gewählten Darstellungsalphabets dieselbe Nachricht darzustellen vermag. Wenn wir ein binäres Alphabet verwenden, bedeutet dies, eine Bitfolge in eine andere Bitfolge umzusetzen, so dass die Information wieder vollständig hergestellt werden kann, jedoch die transformierte Folge von Bits eine (wesentlich) geringere Länge hat. Davon zu unterscheiden ist die Datenreduktion. Hier wird ebenfalls – in binärer Betrachtungsweise – eine Bitfolge auf eine kürzere Bitfolge transformiert, aber es ist anschließend nicht mehr möglich, die gesamte Information wiederherzustellen; meist geht mehr oder minder redundante Information verloren. Datenkompression und Datenreduktion kann in der Praxis nicht strikt getrennt werden. 3.1 Die Bitreduzierung Der normale ASCII–Zeichensatz besteht aus 256 Zeichen. Alle Buchstaben, Sonderzeichen und Umlaute sind in den ersten 128 Zeichen enthalten. Für viele Texte müssen also die Zeichen 129 – 256 nicht berücksichtigt werden. Für die ersten 128 Zeichen sind also nur 7 Bits nötig. Man kann solche Textdateien daher auf 78 ihrer ursprünglichen Größe reduzieren: vorher: nachher: A 00100001 0100001 B 00100010 0100010 Beispielsweise sind HTML–Dateien3 reine ASCII–Dateien, die nur ASCII–Zeichen bis zur Nummer 127 enthalten. 3 HTML (HyperText Markup Language) ist eine Sprache, die es gestattet, Texte mit Querverweisen (Links) zu verfassen. Web–Seiten machen davon ausgiebig Gebrauch. Stand: 2. Mai 2000 9 c J. Baumeister 3.2 3.2 Berücksichtigung von Zeichenwiederholungen Berücksichtigung von Zeichenwiederholungen Viele Daten weisen eine große Wiederholungsfrequenz einzelner Zeichen auf. Bei Binärbildern ist dies besonders häufig der Fall. Dies macht man sich beim RLE–Algorithmus (Run length Encoding–Algorithmus) zunutze, in dem sich (oft) wiederholende Zeichen durch deren Anzahl ersetzt werden. Um anzuzeigen, dass eine Zeichenwiederholung folgt, wird ein Zeichen als Markierung verwendet. Darauf folgt das Zeichen, das wiederholt wird und dessen Anzahl. Taucht das Markierungszeichen in der ursprünglichen Datei auf, wird es durch Zeichenwiederholung mit einem Zeichen ersetzt. Im folgenden Beispiel wird x“ als Markierung verwendet: ” vorher : AAAAbbx1AAxxx nachher : xA4xb2xx1xA2xx3 Statistische Aussagen zu Zeichenwiederholungen nutzt man in einem etwas anderen Sinne beim Brechen von Codes. 3.3 Reduktion durch Differenzbildung Graphiken (und Texte) weisen oft nur geringe Differenzen zwischen zwei nebeneinanderliegenden Zeichen auf. Zur Speicherung dieser Differenzen werden meist weniger Bits benötigt, als zur Speicherung des ganzen folgenden Zeichens. Die Differenzenmethode geht nun so: Es wird eine bestimmte Anzahl n von Bits festgelegt, welche die Differenz höchstens haben darf. Die Codierung beginnt mit dem ersten Zeichen. Dann wird die Differenz zum nächsten Zeichen berechnet; werden nicht mehr als n Bits für die Differenz benötigt, so wird die Differenz gespeichert, würden mehr als n Bits benötigt, dann notiert man als Markierung die maximale Abweichung und dann das nächste Zeichen. Hier ist ein Beispiel mit n=4 in nicht codierter Schreibweise: Text: Codierung: 3.4 DIFFERENZ D+7I-3+0-1+7R+7E+7N+7Z Die Huffmann–Kompression Der ASCII-Code codiert jedes Zeichen mit 8 Bits. Bei dem nun zu besprechenden Huffmann-Verfahren (1952) dagegen werden häufig vorkommende Zeichen mit wenig Bits, selten vorkommende Zeichen mit mehr Bits codiert. Zur Festlegung, welches Zeichen mit wieviel Bits codiert werden soll, müssen also Informationen über die Zeichenhäufigkeit vorhanden sein, wofür drei Möglichkeiten in Erwägung gezogen werden können: s e w i Statisch: Die Zeichenhäufigkeit wird vorher festgelegten Tabellen entnommen. Dynamisch: Die Daten werden einmal ganz gelesen, um die vorkommenden Häufigkeiten zu bestimmen. k a Abbildung 2: Symbolbaum Adaptierend: Es wird mit festen Vorgaben begonnen, diese werden im Laufe der Codierung den Gegebenheiten angepasst. Stand: 2. Mai 2000 10 c J. Baumeister 3.4 Die Huffmann–Kompression Nach solchen Häufigkeitstabellen ist etwa das Morse–Alphabet zusammengestellt. Da die Übertragung eines dash/–“ dreimal solange dauert wie ein dot/·“, war es naheliegend häufige ” ” Buchstaben mit kurzen Ketten, in denen viele dots“ vorkommen, zu codieren. Beispielsweise ” haben wir: e= · , z = −−·· . Betrachten wir etwa die Codierung von weisse Kasse in der dynamischen Variante. Die Häufigkeiten sind: 4 × s, 3 × e, 1 × w, 1 × i, 1 × k, 1 × a Zur Codierung bauen wir einen Symbolbaum auf; das Leerzeichen übergehen wir. Dazu beginnen wir mit zwei seltensten“ Zeichen (hier nicht eindeutig !) und codieren zunächst k mit 0 ” und a mit 1. Nun fassen wir k und a zusammen und suchen das nächst seltene Zeichen, also i. Wir codieren neu: i : 0 , k : 01 , a : 11 . Nun setzen wir entsprechend fort. Wir schreiben die Schritte in Tabelle 3 vollständig auf. Wir haben nach der Codierung also das Wort s e w i k a 11010111000001011101111110010 1. Schritt 0 1 2. Schritt 0 10 11 erhalten, seine Länge ist 29 Bits. Bei 3. Schritt 0 10 110 111 der herkömmlichen ASCII–Codierung 4. Schritt 0 10 110 1110 1111 benötigen wir 88 Bits. Selbst wenn wir 5. Schritt 0 10 110 1110 11110 11111 berücksichtigen, dass es nur 6 verschiedene Zeichen sind und wir daher mit Abbildung 3: weisse kasse“ codiert ” Worten der Länge drei Bits auskommen, benötigen wir 32 Bits. Die Konstruktion der obigen Tabelle können wir auch in einem Binärbaum festhalten (siehe Abbildung 2): Ein Schritt nach links bedeutet 0, eine Schritt nach rechts bedeutet 1. Wird ein Datensatz nun so codiert, so ist für den Decodierer der Symbolbaum an den Datensatz anzuhängen. Zur Decodierung lesen wir den codierten Text Bit für Bit und wandern dabei jeweils durch den Binärbaum: wenn wir ein Zeichen, das ein Blatt im Binärbaum ist, gefunden haben, ist dieses decodiert. Die nun beschriebene Idee der Huffmann–Kompression ist noch nicht die endgültige praktikable Form, denn der Symbolbaum kann noch effizienter organisiert werden; wir verzichten auf die Erläuterung. Eine adaptive Variante ist, beim Start einen Baum zu verwenden, in dem alle Zeichen die gleiche Wahrscheinlichkeit des Auftretens haben. Während der Kompression wird der Baum ja nach Häufigkeit der komprimierten Zeichen modifiziert. Da bei der Datenkompression auf beiden Seiten (Codierer, Decodierer) die gleichen Modifikationen stattfinden, entsteht auf beiden Seiten der gleiche Baum. Allerdings ist dieses Vorgehen ineffizient, wenn das Alphabet sehr groß ist. Dann ist bei jeder Modifkation der komplette Baum neu zu konstruieren. Aber auch dafür gibt es eine praktikable Lösung. Stand: 2. Mai 2000 11 c J. Baumeister 3.5 3.5 GIF, JPEG und MPEG GIF, JPEG und MPEG GIF (Graphics Interchange Format) ist ein Graphikstandard, dessen Vorteil es ist, dass er praktisch von allen Web–Browsern unterstützt wird. Er erlaubt transparenten Hintergrund, was wichtig ist, da der Hintergrund bei Web–Browsern auch Farbe hat, schwach aufgelösten Preview (interlacing), und kann wie ein Link behandelt werden. Der Nachteil von GIF–Darstellungen ist, dass nur wenige Farben verwendet werden können (maximal 256) und dass sie in der Regel nicht für Fotographien geeignet sind. Im allgemeinen ist GIF für Bilder mit scharfen Kanten und starken Farbänderungen geeignet. Die Kompressionsrate bei GIF ist etwa 1 : 5 (wesentlich auf Kosten der Farben). JPEG (Joint Photographers Experts Group) ist ein Graphikstandard, der vorteilhaft für die Wiedergabe von Farben (praktisch keine Einschränkung der Farbpalette, jedenfalls 24 Bits Farbtiefe) und Details in Fotographien. Ein weiterer Vorteil ist, dass ein breites Spektrum von Kompressionsoptionen gegeben ist (siehe unten). Der Nachteil ist, dass JPEG–Bilder nur schlecht auf Monitoren mit wenig Farben wiederzugeben sind. Ein Standardbild bei CCIR (International Radio Consultative Committee) sieht 720 × 576 Pixel mit 16 Farbinformationen pro Pixel vor, also 828 KByte. Über eine 64 Kbit/Sec–Leitung können in 10 Sekunden 640 Kbit übertragen werden. Will man also ein solches Bild in 10 Sekunden über diese Leitung übertragen, ist eine Datenkompression von 1 : 10 zu erreichen. Eine Idee, die einer Datenkompression im JPEG–Standard zu Grunde liegt, ist die, statt Farbinformation pro Pixel nicht R (rot), G (grün), B (blau) anzusehen, sondern als Information die Werte Y, U, V (3 Bytes) zu übertragen: Y steht für Luminance (Helligkeit), U steht für einen Farbwert und V für einen Sättigungsgrad. Die mathematische Umrechnung geschieht durch eine einfache Formel. Der Vorteil besteht nun darin, dass nur in zwei Bytes (U, V ) Farbinformation steckt, die besser komprimiert werden darf, da das menschliche Auge empfindlicher auf Qualitätsverluste in der Helligkeit reagiert als auf solche bei den Farben. Die Farbkompression geschieht nun durch Zusammenfassung von benachbarten Pixeln, also einer Vergrößerung der Rasterung bezüglich der Farben, eine Reduktion auf 23 bis 14 der Daten ist erreichbar. Der nächste Kompressionsschritt besteht darin, nun 8 × 8 Pixel–Blöcke zu betrachten; diese Einteilung ist mitunter in rekonstruierten Bildern als sogenannte Blockartefakte zu erkennen. In diesen Blöcken werden nun mit der diskreten Cosinus–Transformation (DCT, siehe Abschnitt 5.3) und einer Quantisierung die Änderungen in Helligkeit und Farben identifiziert und gerundet. Anschließend können die Daten verlustfrei nach einer gängigen Methode (siehe Abschnitte 3.1, 3.2, 3.4) komprimiert werden. Faktoren, die die Qualität von JPEG–Bildern bei der Wiedergabe beeinflussen, sind: • Datenreduktionsfaktoren während der Mittelung von Farbwerten über benachbarte Pixel (Subsampling–Phase). • Quantisierung auf den 8 × 8 Blöcken. • Einschränkung bei der Rückrechnung zur Wiedergabe (Inversion der diskreten Cosinus– Transformation) zugunsten von Schnelligkeit. • Farbpalette des Wiedergabegeräts. Die Kompressionsalgorithmen im JPEG–Standard sind: lossless compression mode Kompressionsrate 1 : 2 (Röntgenbilder sind so zu übertragen) lossy compression mode Kompressionsraten 1 : 10 bis 1 : 20 . Stand: 2. Mai 2000 12 c J. Baumeister 4 FRAKTALE KOMPRESSION progressive mode Das Bild wird in mehreren Schichten übertragen. Mit jeder weiteren Schicht verbessert sich die Qualität des empfangenen Bildes. (Dies ist aber keine interlacing– ” Technik“.) hierarchical mode Das Bild wird in verschiedenen Auflösungen gespeichert. Das kleinste Bild (im Sinne der Pixelanzahl) wird im lossy mode“ komprimiert – man kann es verwenden für ” Inhalts–/Katalogverzeichnisse – , von den größeren Bildern werden nur die Unterschiede zum nächstkleineren komprimiert. Bei einer Kompressionsrate von 1 : 10 bis 1 : 20 werden also die durchschnittlichen Bits pro Pixel im JPEG–Standard von 24 auf 1 bis 2 reduziert. 1 : 30 ist eine typische Kompressionsrate mit guten Ergebnissen. Im MPEG–Standard ist ein Standard für digitales Video und digitales Audio festgelegt. Die der Audiokompression beruht darauf, dass die Teile des Tons, die das menschliche Ohr nicht hören kann, weggelassen werden. Die Grundlage für die Video–Kompression ist der JPEG– Standard für unbewegte Bilder. Aus der Realisierung MPEG–1 Audio Layer 3 hat sich das MP3–Format entwickelt, das von der Frauenhofer Gesellschaft patentiert wurde. Es erreicht die Kompressionsrate 1 : 10 . 4 Fraktale Kompression Die Methode, die wir nun besprechen wollen, geht weit darüber hinaus, eine Kompressionsmethode zu sein; sie ist auch eine Methode, Bilder von verblüffender Formenvielfalt zu erzeugen, die sogenannten Fraktale; Mandelbrot– und Juliamengen gehören dazu. Der Sturm“, der die ” letzten 20 Jahre Chaos–Mathematik durch die Literatur gefegt hat, hat diese Bilder mitgebracht. Sie unterscheiden sich als Figuren wesentlich von den klassischen geometrischen Figuren: Flächen– und Längenberechnungen in solchen Bildern sind schwierig, die übliche Darstellung durch einfache Funktionen ist nicht möglich. Das Wort fraktal“ bedeutet ja gerade zerbrech” ” lich“, der Bruchrand eines Körpers ist mitunter nicht unähnlich dem Rand von Fraktalen. 4.1 Das Vorwärtsproblem Betrachten wir zunächst eine hinführende Analogie. Sie bezieht sich nur auch schwarz/weiss Bilder; o.E. sei das Bild in K := [0, 1] × [0, 1] enthalten. Eine Kopiermaschine“ mit drei ” Linsensystemen habe zwei Fähigkeiten: • Herstellen einer verkleinerten Kopie • Anordnung der verkleinerten Kopie im Bildausschnitt Bei jedem Kopiervorgang entstehen dann im Bildausschnitt drei verkleinerte Kopien des ursprünglichen Bildes. Nun stecken wir dieses erzeugte Bild wieder in die Kopiermaschine und so weiter. Als Beispiel betrachten wir eine Kopiermaschine, die so konstruiert ist, dass sie auf 25% verkleinert und so anordnet: Stand: 2. Mai 2000 Abbildung 4: Die Kopiermaschine für Quadrate“ ” 13 c J. Baumeister 4.1 Das Vorwärtsproblem links unten, links oben, rechts unten Solche Anordnungen kann man in der (euklidischen) Ebene durch affine Abbildungen beschreiben. Da Kontraktion wesentlich ist, schreiben wir eine solche Abbildung so auf: T : R2 3 x 7−→ sAx + b ∈ R2 Dabei ist s der Kontraktionsparameter, b ∈ R2 ein Verschiebungsvektor und A eine Matrix in R2,2. Es ist naheliegend, A als eine Drehung zu wählen: cos ϕ sin ϕ A= (ϕ Drehwinkel) − sin ϕ cos ϕ Allerdings wollen wir etwas flexibler sein und dies nicht allgemein verlangen. Jedenfalls wird eine Abbildung T der obigen Form durch sechs Parameter beschrieben: 4 Einträge in der Matrix, 2 Einträge im Verschiebungsvektor. Die obige Kopiermaschine wird durch drei affine Abbildungen realisiert: 0 1 1 0 , b1 = T1 : A1 = ,s= 0 1 0 2 1 1 1 0 , b2 = 2 , s = T2 : A2 = 0 1 2 0 1 0 1 0 T3 : A3 = , b3 = 1 , s = 0 1 2 2 In den Abbildungen 4, 5 sehen wir vier bzw. drei iterierte Figuren. Die Überraschung ist die – sie ist aus den Abbildungen schon zu erahnen – , dass das Ergebnis des unendlich oft“ wiederholten Kopiervor” ganges unabhängig von der Ausgangsfigur ist, nämlich das so genannte SierpinskiDreieck; siehe [wu]. Wie ist dies zu versteAbbildung 5: Die Kopiermaschine für Kreise“ ” hen? Mit den drei Abbildungen T1 , T2 , T3 ist die so genannte Bildabbildung W für Figuren in Kgemäß W (A) := T1(A) ∪ T2(A) ∪ T3(A) , A ⊂ K, verbunden. Der Banachsche Fixpunktsatz, angewendet auf geeignete Figuren in K, liefert die Aussage, dass die Folge der Bilder W (A), W (W (A)), W (W (W (A))), . . . gegen einen so genannten Attraktor A† konvergiert. Wesentlich ist natürlich die Eigenschaft der Kontraktion von T1, T2, T3, die sich dann in einer Kontraktionseigenschaft der Bildabbildung W wiederspiegelt (, wenn wir einen Abstandsbegriff für Figuren einführen). Allgemein spricht man bei einer Familie T1 , . . ., TN von affinen Kontraktionen von einem iterierten Funktionensystem (IFS) und bei der entsprechend definierten Abbildung W := WT1 ,...,TN von der zugehörigen Bildabbildung. Das erzeugte Sierpinski–Dreieck sieht sicherlich ziemlich komplex aus. Die wesentliche Eigenschaft, die zu entdecken ist, ist die, dass in einem Aussschnitt des Attraktors wieder das ganze Bild auf kleiner Skala zu sehen ist, eine Eigenschaft, die man Selbstähnlichkeit nennt. Diese Selbstähnlichkeit beobachtet man (mit gewissen Abstrichen) auch anderswo: Selbstähnlichkeit Stand: 2. Mai 2000 14 c J. Baumeister 4.2 Das inverse Problem von Haufenwolken, Blättern, Küstenlinien, Fraktalen (in der Dynamik). Das bekannteste Beispiel ist wohl der Farn (siehe [wu]). Diesen Farn kann man mit einem IFS erzeugen, nämlich mit 4 affinen Kontraktionen; siehe unten. Zur Verschickung dieses Bildes benötigt man also 24 Parameter. Übergibt man einen Parameter mit 32 Bits, so benötigt man 768 Bits. Speichert man das Bild mit 256 × 256 schwarz/weiss Werten, benötigt man 65 536 Bits; die fraktale Codierung des Bildes ergibt also eine Einsparungsrate von 1 : 85 . Iterierte Funktionensysteme lassen noch eine interessante Erweiterung zu, nämlich die Steuerung der Auswahl der einzelnen Abbildungen. Die Überraschung ist die, dass man für jede Abbildung eine Wahrscheinlichkeit vorgeben kann, mit der sie zur Bilderzeugung heranzuziehen ist, und trotzdem wieder der Attraktor approximiert wird. Dazu nehmen wir eine Abänderung der Erzeugung des Attraktors vor; in Algorithmenschreibweise: Algorithmus 1 Erzeugung (fraktaler) schwarz/weiss Bilder EIN: Affine Kontraktionen T1, . . . , TN ; Wahrscheinlichkeiten p1 > 0, . . ., pN > 0 mit N P pi = 1 ; i=1 Startpunkt x0 . SCHRITT 1: Wähle eine Abbildung Ti gemäß Wahrscheinlichkeit pi aus ( Würfeln“). ” n n−1 SCHRITT 2: Berechne x := Ti(x ) ; setze n := n + 1 und gehe zu Schritt 1. AUS: Folge {x0 , x1, x2, . . . } . Man macht nun die Beobachtung, dass – bis auf ein Anfangsstück {x0, . . . , xM −1} – die Punkt” wolke“ {xM , xM +1, . . . } eine Figur A† approximiert, die Attraktor der Bildabbildung ist. Beispielsweise wird der Farn durch die folgenden affinen Kontraktionen Ti , 1 ≤ i ≤ 4, erzeugt (siehe [os]): 0.85 0.04 0.0 85 , , b1 = , p1 = 100 T1 : A1 = −0.04 0.85 10.6 0.20 −0.26 0.0 7 , T2 : A2 = , b2 = , p2 = 100 0.23 0.22 10.6 −0.15 0.28 0.0 7 , T3 : A3 = , b3 = , p3 = 100 0.26 0.24 4.4 0.00 0.00 0.0 1 . T4 : A4 = , b4 = , p4 = 100 0.00 0.16 0.0 Man benötigt also nun noch weitere 128 Bits für die Bildcodierung. Siehe Seite 1. Bisher haben wir nur über schwarz/weiss Bilder geredet. Die obigen Ideen lassen sich aber auf mehrkanalige Bilder ausdehnen. Die Kontraktionsabbildungen sind dann auf Vektoren auszudehnen, die noch eine weitere Koordinate enthalten; siehe [Fi]. 4.2 Das inverse Problem Bisher haben wir nur über Bilder geredet, die entstehen, wenn wir ein IFS vorgeben. Barnsley hat 1986 die Frage andersherum gestellt: Lässt sich zu einem Bild (das in K enthalten ist), ein IFS finden, das dieses Bild erzeugt. (Barnsley hat nun mehrere Patente für die Umsetzung Stand: 2. Mai 2000 15 c J. Baumeister 5 (DISKRETE) BILDTRANSFORMATIONEN dieser Idee der Datenkompression mit z.T. überraschenden Kompressionsraten.) Einen Hinweis, wie man das anzustellen hat, liefert das so genannte Collage–Theorem: Man suche unter einer Familie von affinen Kontraktionen diejenigen endlich vielen heraus, die als Bild unter der zugehörigen Bildabbildung W (nun wieder zunächst ohne Wahrscheinlichkeiten) den Abstand dist(A, W (A))4 vom gewünschten Bild A zum Bild W (A) klein/minimal machen. Klar, eine Bildabbildung in der Nähe der Identität ist ein Kandidat dafür, aber eine solche Bildabbildung hat eine Kontraktionskonstante L, die nahe 1 sein muss. Da der Abstand dist(A†, A) des Attraktors A† eines solchen IFS von dem gegebenen Bild A wie folgt dist(A† , A) ≤ 1 · dist(A, W (A)) 1−L abgeschätzt werden kann – dies ist eine leichte Übungsaufgabe – , wobei L die Kontraktionskonstante der Bildabbildung ist, wäre keine Aussage über die Güte des resultierenden Attraktors 1 sehr gross wäre. gewonnen, da ja 1−L Bisher sind keine allgemeingültigen Vorgehensweisen für die Konstruktion eines IFS bekannt, aber sehr gute Ansätze. Große Bedeutung fällt dabei der Frage zu, wie misst man Abstände zu realistischen Bildern. Eine Verallgemeinerung auf Wahrscheinlichkeiten und Bilder mit Grauwerten ja sogar Farben ist möglich. Die bisherige Diskussion vermittelt den Eindruck, dass wohl nur Bilder, die Selbstähnlichkeit zeigen, so komprimiert werden können. Dem ist nicht so! Die so genannten PIFS (partioned iterated function systems), bei denen die Idee der IFS nicht auf das gesamte Bild, sondern nur auf einen Ausschnitt angewendet wird, macht es möglich, dieses Kompressionsprinzip auf nahezu beliebige Bilder auszudehnen, da jedes Bild in ausreichend wenige Bildausschnitte zerlegt werden kann, so dass für jeden Ausschnitt eine passende Bildabbildung gefunden werden kann. Diese Kompression besteht also darin, das Bild in möglichst große Bereiche zu unterteilen und für jeden Bereich die Bildabbildung zu finden. Zur Rekonstruktion müssen die einzelnen Bereiche und für jeden Bereich die ausgewählte Bildabbildung gespeichert/übermittelt werden. In [th] ist das berühmte Portait der immer jungen Lena (stets verwendet als Benchmark–Bild) zu sehen, bei dem man nun wirklich keine Selbstähnlichkeit vermuten würde. Es gibt dazu eine sehr gute fraktale Codierung mittels PIFS. Im Abschnitt 5.4 gehen wir skizzenhaft auf einen Vergleich der dann besprochenen Kompressionsverfahren ein; siehe [th]. Ein überragender Vorteil der fraktalen Kompression gegenüber anderen Verfahren (JPEG, wavelets (siehe unten)) ist zweifellos der, dass das komprimierte Bild unabhängig von der Auflösung des Ursprungsbildes ist: man kann das Bild immer weiter vergrößern und erhält immer mehr Details, die ab einem gewissen Grad natürlich nicht mehr dem Original entsprechen (zoomen). Bei der fraktalen Kompression besteht ein grosser Aufwandsunterschied bei der Kodierung und Dekodierung: Selbst mit Spezialhardware dauert die Kodierung einige Minuten, die Dekodierung dagegen ist sehr schnell, einige Iterationen der Bildabbildung reichen aus. 5 (Diskrete) Bildtransformationen Transformationen werden auf Signale, Bilder – wir bezeichnen sie hier als Rohsignale – angewendet, um weieter Informationen zu gewinnen, die nicht aus dem gegebenen Signal, Bild 4 dist(x, B) := inf{|x − b||b ∈ B} mit dem euklidischen Abstand | · | . Stand: 2. Mai 2000 16 c J. Baumeister 5.1 Fouriertransformation abzulesen sind. Ein irgendwie transformiertes Rohsignal nennen wir ein verarbeitetes Signal. Meist legt ein Rohsignal im Zeitraum vor, d.h. als Funktion der Zeit. Die wesentlichen Transformationen versuchen Informationen aufzuspüren, die im Frequenz–Spektrum verborgen sind. Was sind Frequenzen? Wenn eine Grösse sich sehr schnell ändert, sprechen wir von hoher Frequenz; etwa: die Erscheinungsfrequenz eines Wochenmagazins ist geringer als die einer tageszeitung. Frequenzen werden gemessen in Zyklen pro Sekunde; diese Dimension wird auch als Hertz (Hz) bezeichnet. Zum Beispiel ist die Frequenz unseres Hausstroms 50 Hz, die Taktfrequenz derzeitiger PCs liegt in der Spitze schon bei 800 MHz. Wie finden wir nun den Frequenzinhalt in einem Rohsignal? Mit der Fouriertransformation! 5.1 Fouriertransformation Gegeben sei ein Signal S : R −→ C . Die Fouriertransformierte Ŝ von S ist gegeben durch Z∞ 1 S(t)e−iωt dt , ω ∈ R . Ŝ(ω) := √ 2π −∞ Wir sagen, dass die Frequenz ω mit der Amplitude |Ŝ(ω)| im Signal vorhanden ist. Die Umkehrformel ist Z∞ 1 S(t) = √ Ŝ(ω)eiωtdω , t ∈ R . 2π −∞ Wann gelten diese Formeln? Jedenfalls dann, wenn das Signal in L2 (R) liegt, d.h. wenn Z∞ |S(t)|2dt < ∞ −∞ gilt. (Richtig bei geeigneter Interpretation der uneigentlichen Integrale.) Ist Ŝ(ω) = 0 für |ω| > Ω , so spricht man bei S von einem Signal mit Bandbreite Ω . Das Abtasttheorem von Shannon besagt, dass ein Signal mit Bandbreite Ω (unter schwachen Bedingungen an S) folgendermaßen dargestellt werden kann: S(t) = ∞ X S(kT ) sinc(Ω(t − kT )) , t ∈ R ; (1) k=−∞ π und dabei ist T = Ω ( sinc(x) := sin(x) x 1 , falls x 6= 0 . , falls x = 0 Die Grösse T −1 = Ω π heisst Nyquist–Abtastrate; sie ist die Anzahl der Abfragen pro Zeiteinheit. Ein wichtiger Sachverhalt ist die Unschärferelation. Sie besagt: ∞ 1 ∞ 1 2 2 Z Z Z∞ 1 2 2 |tS(t)| dt · |ω Ŝ(ω)| dω ≥ |S(t)|2dt . 2 −∞ −∞ −∞ | {z } | {z } O Stand: 2. Mai 2000 I 17 c J. Baumeister 5.2 Diskrete Fouriertransformation In der Quantenmechanik ist das Signal die Wellenfunktion eines Teilchens und die dann nach Heisenberg benannte Ungleichung besagt, dass Ort und Impuls gleichzeitig nicht beliebig genau gemessen werden können, da sie nicht gleichzeitig eine ausgeprägte Spitze haben können; oben steht das Integral O für die Ortsverteilung, I für die Impulsverteilung. In (1) liegt die Darstellung eines Band–beschränkten Signals durch eine abzählbare Familie von einfachen Signalen. Dies ist ebenso der Fall bei Signalen, die auf einem beschränkten Zeitintervall definiert sind. Hier arbeitet man mit Fourierreihen. Betrachte ein Signal S über einem endlichen Definitionsbereich (Zeitbereich), so kann man es als eine in ganz R definierte periodische Funktion auffassen, indem man es unendlich oft aneinandersetzt; ohne Einschränkungen nehmen wir an, dass die Periode 2π ist. Fourier begann 1807 die Erfolgsgeschichte Fourierreihen“, die folgende Gestalt haben: ” ∞ X S(t) = ck e−ikt , t ∈ R . (2) k=−∞ Wir wissen nun, und noch viel mehr, dass sich jedes f ∈ L2 [0, 2π] durch eine Fourierreihe der Form (3) darstellen lässt;5 die Koeffizienten ck berechnen sich durch 1 ck := ck (f ) := fˆk := 2π Z2π f (t)e−ikt dt , k ∈ Z . (3) 0 Was darstellen“ heisst, ist zu hinterfragen, ist aber gut geklärt. Ein f durch ” ∞ X fˆk eikt , t ∈ R , f (t) = (4) k=−∞ darstellen, heisst Analyse von f, ein Signal S durch (3) mit gegebenen Koeffizienten ck hinzuschreiben, heisst Synthese. Die Basisfunktionen eikt , k ∈ Z , bilden in L2 [0, 2π] ein Orthonormalsystem.6 Es ist so, dass für die Konvergenz einer Fourierreihe ja sicher die Tatsache, dass lim|k|→∞ |fˆk | = 0 notwendig ist. Je glatter f ist, desto schneller tritt diese Konvergenz ein. Es ist nun so, dass das Frequenzspektrum“ (Ŝk )k∈Z eine globale Information über S ist; daraus ablesen, wann ” eine bestimmte Frequenz im Signal S auftritt, kann man nicht. Eine wichtige Entscheidung ist in konkreten Anwendungen, welches periodische Zeitsignal S bei gegebener Aufzeichnung f : [a, b] −→ R man annehmen soll; d.h. wie soll f so zu einer – etwa nach Zeitskalierung – 2π–periodischen Funktion fortgesetzt werden. So macht es einen Unterschied, ob man nur den Anteil der Aufzeichnung mit Werten ungleich Null betrachtet und damit die nachfolgende Analyse macht oder ob man einen bestimmten sinnvollen Bereich [ã, b̃] ⊃ [a, b] als den Bereich einer Periode auszeichnet. Die Entscheidung hat der Anwender zu treffen. 5.2 Diskrete Fouriertransformation Hat man Signalwerte s0 , . . . , sN −1 ∈ R L2 (R) ist der Hilbertraum der quadratintegrierbaren Funktionen in R mit Werten in R bzw. C . R 2π Das Skalarprodukt h·, ·i ist definiert durch hf, gi := 0 f (t)g(t)dt . Dabei bezeichnet z die komplex– konjugierte Zahl der Zahl z ∈ C . 5 6 Stand: 2. Mai 2000 18 c J. Baumeister 5.2 Diskrete Fouriertransformation gegeben, so sind dazu die Frequenzwerte f0 , . . . , fN −1 ∈ C gegeben durch fl := N −1 X sj exp(−2πi j=0 lj ), 0 ≤ l ≤ N − 1 . N Der grandiose Vorteil ist nun der, dass, ausgehend von der Werten f0 , . . . , fN −1, die Signalwerte s0 , . . . , sN −1 wieder durch sj = N −1 1 X jl fl exp(2πi ) , 0 ≤ l ≤ N − 1 N N l=0 zurückgewonnen werden können. Beachte, dass die Berechnung von f0 , . . . , fN −1 aus s0 , . . . , sN −1 völlig analog zur Berechnung von s0 , . . . , sN −1 aus f0 , . . . , fN −1 ist. Zählt man die Rechenoperationen, die zur Berechnung der N Größen f0 , . . ., fN −1 aus s0 , . . . , sN −1 auf herkömmliche Weise anfallen – wir sprechen von der allgemeinen Umsetzung der diskreten Fouriermethode (FT) – , so kommt man auf N 2 Operationen. Es gibt ein schnelles Verfahren, es ist die schnelle Fouriertransformation (FFT). Es nutzt aus, dass sich die komplexen Zahlen exp(±2πi lj ) , 0 ≤ l, j ≤ N − 1, N geschickt gruppieren lassen und die Summen in den Formeln aufspalten in gerade und ungerade Summanden. Dann setzt die rekursive Idee an: Wiederhole diese Aufspaltung. Man nennt so ein Vorgehen die Methode spalte und herrsche“ divide and conquer“ divide et impera“ ” ” ” Die Anzahl der Rechenoperationen läßt sich so von N 2 auf N log2 N drücken, ein für große N enormer Rechenvorteil, wie die Tabelle 6 zeigt. Codes für die schnelle Fouriertransformation liegen bei nahezu allen mathematischen Softwarepaketen vor. N 2 16 256 1024 Faltung (Convolution) ist eine zweistel- FT 4 256 65536 1048576 lige Operation auf Funktionen. Da wir hier FFT 2 64 2048 10240 mit Bildfunktionen arbeiten wollen, und die- Einsparung 50 % 75 % 97 % 99 % se im allgmeinen nur diskret vorliegen, wollen Abbildung 6: Schnelligkeitsvergleich wir uns auf die diskrete Faltung beschränken. Wir nehmen an, dass zwei Funktionen x : {0, . . ., N − 1} −→ R , y : {0, . . ., N − 1} −→ R , vorliegen. Dabei denken wir uns die Signale x, y periodisch fortgesetzt, d.h. xk+N = xn , yk+N = yn , n ∈ Z . Ihre Faltung ist durch (x ∗ y)l := N −1 X xk yl−k , l ∈ Z , k=0 Stand: 2. Mai 2000 19 c J. Baumeister 5.3 Diskrete Cosinus–Transformation erklärt. Wir können x die Bedeutung einer Bildfunktion und y die eines Filters zuweisen. Die Filtereigenschaft wird deutlich, wenn wir eine diskrete Fouriertransformation auf gefaltete Signale anwenden: x [ ∗ yj = x̂j ŷj , j ∈ Z . Das Faltungsprodukt wird durch die diskrete Fouriertransformation in ein Produkt im Frequenzraum überführt. Damit lassen sich nun leicht Filter bauen, die gewisse Frequenzen im Signal x ausblenden; man hat ja y nur so zu konstruieren, dass gewisse ŷj verschwinden. Es gibt einen vergleichbaren Faltungssatz für die kontinuierliche Fouriertransformation und für Fourierreihen. Beliebt sind Filter y, die wie die Dichte der Normalverteilung N (µ, σ) aussehen. Die Streuung σ gibt dann die Breite des Fensters“ um µ an, das herausgefiltert wird. ” Hier ist noch zu klären, wie wir die diskrete Fouriertransformation im Zusammenhang mit Bildfunktion verwenden. Mit einer Bildfunktion s : {0, . . ., m − 1} × {0, . . ., n − 1} sind m Spaltensignale s(x, ·) : {0, . . ., n − 1} −→ R , x ∈ {0, . . . , m − 1} und n Zeilensignale s(·, y) : {0, . . ., m − 1} −→ R , y ∈ {0, . . ., n − 1} , verknüpft. Auf jedes dieser Spalten– und Zeilensignale können wir die diskrete Fouriertransformation anwenden. Das Bild liegt dann in n · m Frequenzwerten vor. Dabei korrespondieren betragsmäßig große Frequenzen mit großen Veränderungen der Bildfunktion; niedrige Frequenzen deuten auf verwaschene Strukturen hin. 5.3 Diskrete Cosinus–Transformation Gegeben sei ein Vektor x = (x0 , . . ., xN −1) ∈ RN ; er steht für die Bildwerte. Den transformierten Vektor X = (X0, . . . , XN −1) ∈ RN im Frequenzraum erhält man gemäß r Xj = 1 N −1 πj(k + ) 2 X 2 . xk vj cos N N k=0 Dabei sind die Konstanten vj gemäß ( vj = √1 , j = 0 2 1 , sonst zu wählen. Wir wollen nicht auf die algorithmisch schnelle Berechnung eingehen. Es gibt schnelle Algorithmen, insbesondere kann man den Algorithmus jeweils für einen Spezialfall der Größe N optimieren. Dies kann geschehen beim Erstellen eines digitalen Bildes nach dem JPEG– Standard, denn da ist ja N = 64 feststehend; siehe nachfolgende Erläuterungen. Liegt das Bild als Pixelbild vor mit Farbwertabbildungen (eventuell auch nur als Grauwertbild), so wird das Bild im JPEG–Format in 8×8 Blöcke eingeteilt und jeder Block mit der Farbabbildung getrennt behandelt. Aus den 64 Farbwerten des Blocks, die zunächst um 0 zentriert werden (Verschiebung von 0, . . . ,255 nach –128, . . . ,127), wird ein Vektor x = (x0, . . . , x63) ∈ R64 gebildet; zur Anordnung siehe unten. Die diskrete Cosinus–Transformation des Bildvektors sei Stand: 2. Mai 2000 20 c J. Baumeister 5.4 Wavelet–Transformation X = (X0, . . . , X63). Die Komponenten dieses Vektors werden nun skaliert mit je nach Wunsch unterschiedlichen Skalierungsfaktoren qj ≥ 1 : ej := 1 Xj , 0 ≤ j ≤ 63. X qj e nun kleinere Werte annehmen ej von X Die Skalierung hat den Vorteil, dass die Komponenten X und daher weniger Bits darstellbar sind. Dieser Skalierungsvektor q := (q0, . . . , q63) ist dem Bild bei Übertragung anzufügen, wenn er e liegt nun ein Vektor vor, der die Farbwerte nicht von vornherein verabredet ist. Im Vektor X des 8 × 8–Blocks darstellt. Er kann nun nach einem Kompressionsverfahren (ohne Verlust !) behandelt werden und damit auf Speicherung bzw. Übertragung vorbereitet werden. Da benachbarte Pixel im allgemeinen nicht sehr unterschiedliche Farbwerte aufweisen, und da man dies bei der Kompression nach der Differenzenmethode ausnutzen kann, sollten die Werte der Farbabbildung so abgespeichert werden, dass benachbarte Pixel auch im Vektor benachbart sind. Man macht dies in folgender Weise (i, j) ((i, j) Pixelkoordinaten, Zeilenindex i, Spaltenindex j): (0, 0), (0, 1), (1, 0), (1, 1), (0, 2), (0, 3), (1, 2), (2, 1), . . . . 5.4 Wavelet–Transformation 1 1 1 1 -1 (a) Haar–Wavelet (b) Mexikanerhut 3 (c) Eine Skalierungsfunktion Abbildung 7: Wavelets Wavelets (kleine Wellen(päckchen)) werden implizit erstmals erwähnt bei A. Haar (1909). Die Wavelet–Transformation hat ihre Wurzeln dann in Vorgehensweisen der angewandten Mathematik und Physik am Anfang des 20. Jahrhunderts. Die entscheidenden Erkenntnisfortschritte kamen in den 30er Jahren, als man herausfand, dass die Dartstellung von Funktionen durch Skalen–variierte Basisfunktionen grosse Einsichten vermitteln kann. Ein Physiker (P. Levy) war es, der bei der Untersuchung der Brownschen Bewegung feststellte, dass die Haar– Basisfunktionen den trigonometrischen Basisfunktionen überlegen sind. Große Dynamik in die Entwicklung kam Anfang der achtziger Jahre durch die Arbeiten von Morlet und Grossmann, Meyer, Mallat (siehe [Ma]) und Daubechies. Die Literatur wächst explosionsartig; siehe [Bl], [Hu], [ga]. Dies hat damit zu tun, dass dank der Rechenleistung heutiger Computer größerer Rechenaufwand verkraftet werden kann, und damit der Vorzug der Wavelet–Transformation gegenüber der Fouriertransformation ausgeschöpft werden kann. Der Vorzug besteht darin (siehe unten), dass sie sowohl im Ausgangsbereich als auch im Bildbereich ( Frequenzraum“) gut lo” kalisiert. Wir hatten ja gesehen, dass die Fouriertransformation dies nicht leisten kann. Wie Stand: 2. Mai 2000 21 c J. Baumeister 5.4 Wavelet–Transformation neu die Entwicklung der Wavelets ist, kann man daran sehen, dass der HDTV–Standard (high definition television), obwohl noch nicht in Aktion, noch auf der Fouriertransformation basiert. Was sind Wavelets? Die Grundidee ist einfach: Man definiert einen Wavelet–Prototyp w , eine Funktion auf R. Meist ist sie nur in einem eng begrenzten Bereich nicht verschwindend; man sagt, w hat lokalen Träger. Aus diesem Basis–Wavelet w generiert man durch zwei Operationen nämlich Dehnen/Stauchen und Verschieben eine Familie von Wavelet–Funktionen. Zerlegt man nun eine gegebene Funktion in eine Reihe derartiger WaveletFunktionen, so lassen sich an jeder Stelle AussaAbbildung 8: Skalierung gen über deren Frequenzspektrum machen. Im Gegensatz zu traditionellen Fourier–Techniken, die eine Zerlegung in reine, zeitlich unbegrenzte Sinus– und Cosinus-Funktionen ermöglichen, sind Wavelet–Techniken geradezu prädestiniert, realitätsnahe Funktionen auf ihre lokalen Eigenschaften, wie nicht–periodische Phänomene, markante Sprünge und Spitzen, . . . , zu untersuchen. Während sich die Fourier–Transformation nur auf dem Prototyp Sinus/Cosinus” Funktion“ stützt, ist man bei der Wahl der Basis–Wavelets weitgehenst frei, so dass man Wavelets entwickeln kann, die optimal für die jeweilige Anwendungen ausgelegt sind. Wavelets werden mitunter als mathematisches Mikroskop bezeichnet, da man das Signal mit unterschiedlicher Optik (Mutter–Wavelet) und unterschiedlicher Vergrösserung anschauen kann; wann wurde der Ton hohes c“ gespielt? Diese Information ist nicht nötig bei stationären Signalen, d.h. solchen ” Signalen, deren Frequenzinhalt sich in der Zeit nicht ändert. Etwa ist f (t) := cos(2πt) + 3 cos(20πt) , t ∈ R , ein stationäres Signal; zu jedem Zeitpunkt sind die Frequenzen 1 und 10 vorhanden. Die Wavelet–Transformation kann auch über den Frequenzinhalt instationärer Signale Aufschluss geben. Werden wir etwas genauer. Sei das sogenannte Mutter–Wavelet ψ : R −→ C gewählt7. In Abbildung 7 finden wir zwei solche Funktionen: in a) ist das Haar–Wavelet, in b) das sogenannte Mexikanerhut–Wavelet8. Gemeinsam ist diesen Bildern, dass ψ konzentriert um einen Punkt ist. Es ist eine Art Fenster (Abfragefenster), das damit definiert wird. Mit diesen Mutter–Wavelets konstruieren wir die Familie t−b 1 )∈R ψa,b : R 3 t 7−→ ψa,b(t) := √ ψ( a a mit a 6=, b ∈ R . a heisst Skalenparameter, b Verschiebungsparameter. Der Vorfaktor √1 ist nicht entscheidend und dient nur dazu, eine erwünschte Normierungseigenschaft zur a Verfügung zu haben. Die Breite des Abfragefensters wächst proportional zu a und in diesem Fenster ist wieder eine vollständige Kopie von ψ sichtbar; siehe Abbildung 8. Also halten wir fest: 7 8 Meist ist ψ : R −→ R . 1 t2 ψ(t) = √2 π− 4 (1 − t2 )e− 2 3 Stand: 2. Mai 2000 22 c J. Baumeister 5.4 Wavelet–Transformation Skalenwerte a mit a >> 1 liefern ein breites Abfragefenster und dienen zur Erfassung von langsam sich ändernden Vorgängen bzw. glatten Details in einem Signal. Skalenwerte a mit 0 < a << 1 liefern ein schmales Abfragefenster und dienen zum präzisen lokalen Nachweis von hochfrequenten und/oder kurzlebigen Phänomenen. Die Wavelettransformatierte Wψ f ist nun gegeben durch 1 Wψ f (a, b) := √ a Z∞ f (t) ψ( ∞ t−b )dt = hf, ψa,bi2 a mit dem Skalarprodukt h·, ·i2 in L2(R) . Dazu gibt es wieder – unter schwachen Annahmen, die für die bisher betrachteten Beispiele erfüllt sind – eine Umkehrformel, auf deren Angabe aber wir hier verzichten, da man nicht ganz triviale Überlegungen zur Integration auf R\{0} × R benötigt. Bei der Wahl des analysierenden Mutter–Wavelets hat man, im Gegensatz zur Fouriertransformation grosse Freiheit: Im wesentlichen genügt es dafür Sorge zu tragen, dass Z∞ Z∞ |ψ(t)|dt < ∞ , ∞ Z∞ |ψ(t)| dt < ∞ , 2 ∞ ψ(t)dt = 0 ∞ gilt. Man kann es u.a. so einrichten, dass • ψ kompakten Träger hat, • die Waveletfamilie ψr,k := 2− 2 ψ( t − rk2 ) , r, k ∈ Z , in L2(R) orthonormiert ist, 2 r r • ψ glatt ist. Für die theoretisch durchsichtige Absicherung und numerische Ausgestaltung findet man die Mutter–Wavelets etwas indirekt; wir skizzieren dies. Man wählt eine Skalierungsfunktion ϕ ∈ L2(R) ∩ L1(R) . Sie ist das A und O der sogenannten Multiskalen–Analysis, einen Begriff, den wir hier nicht näher erklären können. Wir fordern nun die entscheidende Identität, die sogenannte Skalierungsgleichung: √ X ϕ(t) = 2 hk ϕ(2t − k) , t ∈ R , (5) k∈Z mit hk ∈ C , k ∈ Z , X |hk |2 < ∞ . (6) k∈Z Die Skalierungsgleichung beschreibt die Tatsache, dass ϕ durch gezoomte Kopien von ϕ dargestellt werden kann. Hat ϕ kompakten Träger, dann sind nur endlich viele hk von Null verschieden. Wendet man die Fouriertransformation auf die Skalierungsgleichung an, so ergibt sich nach einem Faltungssatz ω ω ϕ̂(ω) = H( )ϕ̂( ) 2 2 Stand: 2. Mai 2000 23 (7) c J. Baumeister 5.4 mit 1 X hk e−ikω , ω ∈ R . H(ω) = √ 2 k∈Z Wavelet–Transformation (8) Daraus konstruiert man nun ein Mutter–Wavelet ψ durch Angabe von ψ̂ im Fourierraum: ω ω −i ω (9) ψ̂(ω) = e 2 H( + π) φ̂( ) , ω ∈ R . 2 2 Damit wird nun (ψj,k )k∈Z,j∈Z eine Orthonormalbasis in L2(R) und Funktionen können damit dargestellt werden. Für das Haar–Wavelet geht man von der Skalierungsfunktion ( 1 , falls t ∈ [0, 1] ϕ(t) := 0 , sonst aus und hat 1 ϕ(t) = ϕ(2t) + ϕ(2t − 1) , also h0 = h1 = √ . 2 In Abbildung 7 c) ist die Skalierungsfunktion zu einem Daubechies–Wavelet skizziert, die klar selbstähnliche Details aufweist; das resultierende Mutter–Wavelet – es gehört einer Klasse an, die ab 1988 von Daubechies entdeckt(?)/konstruiert wurden – zeigt diese Selbstähnlichkeit auch. Es ist daher besonders gut geeignet fraktale Eigenschaften“ abzubilden. Man benötigt ” zur Konstruktion des zugehörigen Mutter–Wavelets 6 Koeffizienten h0 , . . . , h5 . Die Folge (hk )k∈Z – endlich in der Praxis! – ist nun alles, was man für die Wavelet–Numerik benötigt. Bei der diskreten Analyse von Signalen wählt man üblicherweise die Skalenwerte bzw. Verschiebungsparameter als ar = σ r , br,k = kσ r , r ∈ Z, k ∈ Z . Damit kann man die Waveletkoeffizienten cr,k := Wψ f (ar , br,k ) = hf, ψr,k i2 , r ∈ Z, k ∈ Z , hinschreiben. Die Bestimmung der Koeffizienten cr,k heisst Waveletanalyse, eine Darstellung eines Signals, das diese Koeffizienten hat, heisst Waveletsynthese. Es ist nun der grosse Vorteil, dass sich die Berechnung der Koeffizienten cr,k sehr schnell, da rekursiv, organisieren lässt; das Resultat ist die schnelle Wavelettransformation (FWT). Der Schlüssel dazu ist die obige Skalierungsgleichung. Diese Identität führt zu solchen Identitäten für die Koeffizienten hf, ψn,k i2 und hf, ψn+1,k i2 in einer Approximation von f, sodass dies Koeffizienten nicht auf jeder Zoomstufe neu berechnet werden müssen. Auf die exakte Beschreibung der Formeln wollen wir hier nicht eingehen; siehe [Bl] und [Ka] . Klar, die Wavelettransformation in einer diskreten Version kann wieder als Hilfsmittel zur Datenkompression eingesetzt werden, man hat sie z.B. nur an die Stelle der diskreten Cosinustransformation zu setzen. Aber natürlich kann sie bestens verwendet werden, Bilder zu komprimieren, zu speichern. Weitere Anwendungen sind: Rauschunterdrücken, Datenarchivierung in der Medizin, Analyse von EKG’s und EEG’s, Aufdecken von Strukturen in der Astronomie, partielle Differentialgleichungen (Numerik), Turbulenzanalyse. Es wurden Vergleiche angestellt, welche Qualität verschiedene Verfahren bei der Bildkompression haben. Dabei hat sich herausgestellt, dass für niedere Kompressionsaraten (bis 1 : 5) Stand: 2. Mai 2000 24 c J. Baumeister 6 BILDVERBESSERUNG UND KLASSIFIKATION die Wavelettransformation die beste Qualität aufzuweisen hat. Fraktale Kompression ist vor allem bei höchsten Raten überlegen. 6 Bildverbesserung und Klassifikation 6.1 Bildpunktverbesserungen Wir besprechen die Methoden nur für ein Grauwertbild. Dieses möge also als Matrixbild s : {0, . . ., m − 1} × {0, . . ., n − 1} −→ R mit kontinuierlichen Grauwerten vorliegen. Bei Bildpunktoperationen werden die Verbesserungen jeweils Pixel für Pixel vorgenommen, wobei der Grauwert eines Pixels des Ausgangsbildes nur vom Wert des betreffenden Pixels des Eingangsbildes abhängt. Ein Bild einer solchen Verbesserung kann die Kontrastanreicherung sein. Die übliche Methode hierzu ist eine lineare Dehnung der Grauwerte. Hier wird das Ausgangsbild beschrieben durch s̃ : {0, . . ., m − 1} × {0, . . ., n − 1} −→ R wobei s̃ durch s̃(x, y) := Ao − Au (s(x, y) − Bmin ) + Au Bmax − Bmin definiert ist. Dabei ist [Au , Ao] der Grauwertbereich des Ausgangsbildes und [Bmin , Bmax] der Bereich, in dem die Grauwerte des Eingangsbildes liegen. Bei Bildpunktnachbarschaftsoperationen werden zur Verbesserung eines Pixels eines Bildes zur Operation auch Nachbarschaftspixel herangezogen. Etwa kann man die Werte des Ausgangsbildes s̃ : {0, . . ., m − 1} × {0, . . ., n − 1} −→ R definieren durch s̃(x, y) := 8s(x, y) − s(x − 2, y) − s(x, y − 2) − s(x, y + 2) − s(x + 2, y) . Der Wert eines Pixels des Ausgangsbildes kommt also als Überlagerung“ der Werte in der ” Nachbarschaft zustande; das zur Verbesserung anstehende Pixel (x, y) wird dabei stark hervorgehoben. Klar, am Rand des Bildes muss man abgeändert vorgehen. 6.2 Segmentierung Ziele der Segmentierung sind • Trennung von Objekten vom Hintergrund • Selektion einzelner Objekte aus einer Objektsammlung • Vereinzelung aneinander angelagerter Objekte Um diese Ziele ins Auge fassen zu können, hat man Objekte mit Hilfe von Merkmalen zu identifizieren. Es können diese etwa geometrische Merkmale sein, etwa: Umfang, Fläche, Formfaktoren (Verhältnis von Radien, . . . ). Ein weiteres Merkmal kann die Textur sein. Textur ist eine visuelle Oberflächeneigenschaft von Objekten. In unserer Beschreibung eines Bildes durch eine Funktion s der Grauwerte können wir Textur auffassen als flächenhafte Verteilung der Stand: 2. Mai 2000 25 c J. Baumeister 6.3 Kanten Grauwerte mit ihren Regelmäßigkeiten und gegenseitigen Abhängigkeiten innerhalb begrenzter Bildbereiche. Ein Wolkenhimmel oder die Skipiste an sonnigen und trüben Tagen vermittelt uns einen Eindruck davon. Die Aufteilung des Bildes in 8 × 8–Blöcken ist nicht zuletzt in der Annahme begründet, dass die Textur in 8 × 8–Blöcken nicht zu sehr variiert und daher der zugehörige Datenvektor nach der Differenzenmethode gut komprimiert werden kann. 6.3 Kanten Kantenextraktionsverfahren werden im weiten Feld der Computer–Bilder häufig eingesetzt; sie ist neben der Texturanalyse die Grundlage für eine erfolgreiche Segmentierung. Bei der Bewegungsanalyse reicht es unter Umständen aus, nur die Bewegung der in der Szene vorkommenden Kanten zu betrachten. In der Verarbeitung von Satellittenbildern kann Kantenextraktion zur Kartographierung von Wasser–/Landgrenzen herangezogen werden. Was ist eine Kante? Eine Kante korrespondiert in einem Bild mit einer Intensitäts–Diskontinuität in der im Bild gezeigten Szene. Wenn wir die Bildfunktion zunächst nur eindimensional betrachten, können wir drei Kantentypen ausmachen: Stufenkante, Linienkante, Dachkante (siehe Abbildung 9). (a) Stufenkante (b) Linienkante (c) Dachkante Abbildung 9: Kanten Kantenextraktionsverfahren extrahieren im allgemeinen keine zusammenhängenden Kanten, sondern nur kurze Abschnitte von Kanten, so genannte Edgels (edge elements). Solche Edgels haben jeweils eine Position, eine Richtung und eine Stärke. Die Stärke eines Edgels gibt den Kontrast im Bild an der betreffenden Stelle der Kante an. Die Verarbeitungsschritte jeden Kontraktionsverfahrens werden für jeden Bildpunkt ausgeführt. Dabei wird nie nur der jeweilige Bildpunkt alleine, sondern immer eine Umgebung um den Punkt, ein so genanntes Fenster“ betrachtet. Es wird dann an Hand eines Algorithmus entschieden, ob ” dieses Fenster ein Edgel enthält, wenn ja, wird dessen Position, Richtung und Stärke bestimmt. Es sind im wesentlichen zwei Verfahren der Kantenextraktion im Gebrauch: Extraktion durch Surface Fitting, auf Faltung basierende Verfahren. Faltung übergehen wir, hier skizzieren wir nur das Verfahren Surface Fitting“ (Oberflächen-Anpassung). Hierbei wird für jeden Kantentyp ” ein Flächentyp ausgesucht, der dem obigen Kantentyp entspricht. Diese Flächentypen werden nun über die Stelle der Bildfläche ((x, y, s(x, y)) gelegt. Es wird dann geprüft, inwieweit der Flächentyp an dieser Stelle passt“. Dazu sind dann Verfahren der Optimierungstheorie nötig, ” um den Fit herzustellen und schliesslich anhand von Indikatoren zu entscheiden, ob eine gute Übereinstimmung vorliegt. Zur Kantenextraktion kann auch die Wavelettransformation eingesetzt werden, ja sogar sehr gut, weil es dabei auf Variationen (in der Helligkeit, Farbe) auf kleiner Skala ankommt; siehe Stand: 2. Mai 2000 26 c J. Baumeister 6.4 Klassifizierung und Interpretation die Skizzierung in [ck]. 6.4 Klassifizierung und Interpretation Ist das Bild nun geeignet aufbereitet, gibt es die für den angestrebten Zweck relevante Information zu extrahieren, bzw. die erkannten Muster zu beurteilen. Hierzu sind natürlich ganz anwendungsbezogene Ansätze zu verfolgen, sehr allgemeine Ansätze sind (bisher) nicht erfolgreich; als allgemeines Stichwort ist hier Cluster–Analysis und Mustererkennung zu nennen. Insgesamt liegt aber sicher ein Optimierungsproblem vor: Es sollen ausgemachte Muster bestmöglich vorgegebenen Klassen zugeordnet werden. Dabei ist eine (vom Anwender vorzugebende) Kostenfunktion, die den Abweichungsfehler bestraft, zu minimieren. 7 Anwendungen: Bildgebende Verfahren Bildgebende Verfahrenbeherrschen inzwischen unsere technische Umwelt. Beispielsweise findet die Suchmaschine http://www.altavista.de unter dem Stichwort Bildgebende Verfahren“ im ” deutschsprachigen Netz 128 751 Bilder (April 2000). Wir greifen unten zwei Awendungsbereiche heraus, wo Verfahren der Bildgewinnung grossen Stellenwert besitzen. Hier listen wir ohne Anspruch auf Vollständigkeit einige Stichpunkte zu weiteren Verfahren auf: • Tumordiagnostik unter Ausnutzung der Koherenzeigenschaft von Licht. • Auswertung von Luft- und Satellitenbildern für kartographische Zwecke. • Untersuchung von Oberflächen zum Zwecke der Qualitätskontrolle. • Interpretation von Bildfolgen, die mit einer Kamera aufgenommen wurden. • Thermographie in der Biologie • Lokalisierung von Objekten in Bildern, z.B. zur Handhabung von Robotern. • Erkennung isoliert gesprochener Wörter und das Verstehen zusammenhängend gesprochener Sprache. • Klassifikation von Fingerabdrücken. • Auswertung von Ultraschallbildern. Gemeinsam ist all diesen Vorgehensweisen, dass sie mathematisch nicht ganz einfach zu behandeln sind, da sie im allgemeinen in die Klasse der schlechtgestellten Probleme fallen: Die stetige Abhängigkeit des realen Bildes (eigentlich des mathematischen Modells davon) von den Messungen ist ohne Vorsichtsmassnahmen nicht gegeben. Ihr grosser Vorteil ist, dass die erzeugten Bilder, wenn sie im Computer liegen, manipuliert werden können (Aufbau von Schichtaufnahmen zu räumlichen Bildern, geometrische Umformung der Bilder (Drehungen, Projektionen, . . . )) und so Informationen liefern können, die weit über die ursprünglichen Erfahrungen und Erkenntnisse hinausgehen. 7.1 Computertomographie Hinter dem Stichwort Computertomographie verbirgt sich der medizinische Vorgang einer Röntgenuntersuchung unter Zuhilfenahme eines Computers. Tomographie bedeutet Darstellung in Schichten oder Scheiben, in der Medizin Schichten des Körpers oder eines Körperabschnitts. (Eine uns hier nicht interessierende Anwendung ist die zerstörungsfreie Materialprüfung durch Computertomographie.) Stand: 2. Mai 2000 27 c J. Baumeister 7.1 Computertomographie Computertomographie ist eine diagnostische Methode, mit der Veränderungen im Körper sichtbar gemacht werden können. Wie bei der herkömmlichen Röntgenuntersuchung macht man sich dabei die unterschiedliche Druchlässigkeit verschiedener Körpergewebe für Röntgenstrahlen zunutze. Je dichter ein Gewebe ist, desto schlechter läßt es die Strahlen hindurch. So kann man z.B. Knochen, Luft (in der Lunge), Wasseransammlungen und Weichgewebe unterscheiden: Sie erscheinen in unterschiedlichen Grautönen. Die Schichttechnik hat gegenüber einer herkömmlichen Röntgenaufnahme den Vorteil, dass die Überlagerung im Gewebe aufgelöst wird. Eine CT–Aufnahme geht so vor sich: Ein Patient wird liegend in eine Röhre geschoben. Für Detektoren jede einzelne Aufnahme fährt die Liege den Patienten einige Millimeter weiter. Bei jeder Aufnahme senden punktförmige Röntgenquellen, die kreisförmig an der Wand der Röhre angebracht sind, Röntgenstrahlen durch den Körper des Patienten; auf der gegenüberliegenden Seite werden die ankommenden Intensitäten gemessen. Der Computer errechnet aus den Intensitätsverlusten ein Grauwertbild der Körperschicht, das auf dem Bildschirm x Ω sichtbar gemacht werden kann; die Grauwerte der Quelle 2 Pixel (ca 1.5 × 1.5 mm ) entsprechen den jeweiligen relativen Dichten des Gewebes. Die einzelnen Querschnittbilder können vom Bildschirm auf Filme oder Abbildung 10: Computertomographie Papier übertragen werden oder direkt auf Disketten oder Magnetbänder gespeichert werden. Wo steckt nun die Mathematik in dieser Diagnosetechnik? Sie kommt zweifach ins Spiel. Erstens, bei der Frage, ob es denn gelingt, aus Messungen von Intensitätsverlusten entlang einer (eindimensionalen) Geraden eine (zweidimensionale) Dichtefunktion der betreffenden Körperschicht aufzubaut . en. Zweitens bei der Frage, wie die Rückrechnung u ( ϕ) der Intensitätsverluste in eine Dichtefunktion effiziu(ϕ) ent und sicher erfolgen kann. Die Abbildung 10 zeigt einen etwas verschlankL t ,ϕ ten Versuchsaufbau. Sei I0 die Intensität des entlang L in das Medium Ω eindringenden Röntgenstrahles. Abbildung 11: Radiograph Ein Detektor misst die Intensität T des Strahls nach Verlassen des Mediums. (In der Praxis sprechen mehrere Detektoren an, da der Röntgenstrahl kegelförmig aus dem Medium austritt; dass der Öffnungswinkel klein ist, ist ein Markenzeichen“ der (harten) Röntgenstrahlung.) Wenn nun ” f : Ω −→ R die Dichtefunktion des Mediums ist ((f (ω) = 0, falls ω ∈ / Ω), dann sagt die Physik der Strahlung folgenden Zusammenhang voraus: Z I = I0 exp(− f (z)dz) ; L R also experimentelle Abschwächung. Hierbei ist L f (z)dz das Integral entlang des Strahls L. Dieses Integral nennt man eine Projektion entlang L. Wenn wir logarithmieren, kommen wir Stand: 2. Mai 2000 28 c J. Baumeister 7.1 Computertomographie Z zu ln I0 − ln I = f (z)dz . L Der Strahl L kann parametrisiert werden durch den Winkel ϕ und den Abstand t gemäß Abbildung 11: L = Lt,ϕ = {z ∈ R2|z = tu(ϕ) + su⊥ (ϕ), s ∈ R}, wobei π π t ∈ [0, ∞) , ϕ ∈ (− , ) , u(ϕ) = (cos ϕ, sin ϕ) , u⊥ (ϕ) = (− sin ϕ, cos ϕ). 2 2 Dann kann das Linienintegral umgeschrieben werden zu Z∞ Z f (z)dz = Rf (ϕ, t) := Lt,ϕ f (tu(ϕ) + su⊥ (ϕ))ds . −∞ R(f )(ϕ, t) heisst der Radiograph zum Winkel ϕ im Abstand t. Die Transformation f 7−→ R f heisst Radontransformation, denn J. Radon hat bereits 1917 die Aufgabe, aus Rf die Dichte f zurückzugewinnen (ohne die Motivation der hier beschriebenen Anwendung) gelöst, d.h. er hat die Inverse R−1 ausgerechnet“. Damit wäre also die Dichtebestimmung gelöst: Man messe ” alle Radiographen y(ϕ, t) := (Rf )(ϕ, t) und bestimme nach Radon f gemäß f := R−1 y . In der Praxis liegen allerdings nur endliche viele Radiographen yl = (Rf )(ϕl , tl ) , 1 ≤ l ≤ N , vor; meist verteilt man Winkel und Abstände äquidistant. Es liegt auf der Hand, dass eine solche endliche Anzahl von Radiographen nicht ausreicht, f vollständig zu rekonstruieren. Von G.N. Hounsfield und A.M. Cormack stammt aus den siebziger Jahren ein Verfahren, auch in dieser Situation vernünftige Ergebnisse zu erzielen. Sie erhielten 1979 den Nobelpreis für Medizin für ihre Entwicklung dieser Diagnosetechnik. Eine heikle Frage ist, welche wahren Details der Dichte sicher erkannt werden, und welche Details der ermittelten Dichte Artefakte sein könnten. In der praktischen Umsetzung der Methode hat man die Dichtefunktion zu diskretisieren. Man teilt dazu die Schicht Ω in Pixel ein und weist jedem Pixel einen Dichtewert (Grauwert) xij zu; diese Werte xij gilt es zu ermitteln. Von der Art, wie ein Strahl L = Lt,ϕ ein einzelnes Pixel durchquert, hängt ab, welcher Beitrag zum Intensitätsverlust das Pixel leistet. Die gemessene Intensität (eigentlich ein logarithmisches Intensitätsverhältnis) ist dann X yL = aL ij xij i,j wobei über alle Pixel summiert wird und aL ij ”geometrische“ von L abhängende Konstanten sind. L L Man kann nun aij , xij zu einem Vektor a bzw. x ∈ RN zusammenfassen und erhält damit haL , xi = yL , Stand: 2. Mai 2000 29 c J. Baumeister 7.2 Impedanztomographie wobei h·, ·i das euklidische Skalarprodukt in RN ist. Hat man nun m diskretisierte Radiographen zur Verfügung, so erhalten wir für den gesuchten Dichtevektor x das Gleichungssystem hal , xi = yl , 1 ≤ l ≤ m . (10) Die Aufgabe besteht nun darin, dieses im allgemeinen überbestimmte Gleichungssystem (m < N !) zu lösen. Dazu wurde schon sehr früh ein sehr einfach zu durchschauender Algorithmus angewendet, der sogenannte ART–Algorithmus (algebraic reconstruction technique). Er wurde schon 1939 von Kazcmarz ohne praktischen Hintergrund entwickelt. Dies geht so: Jede Gleichung hal , xi = yl entspricht einer Geraden gl in RN . Man will also den Schnittpunkt x∗ von m Geraden in RN bestimmen. Dies kann man durch sukzessive Projektion einer aktuellen Näherung für x∗ auf die gegebenen Geraden versuchen. Man beginnt dazu mit einer Startnäherung x0 ∈ Rn und ermittelt reihum Näherungen x1 , . . . , xm ∈ RN , indem xi gerade die Projektion von xi−1 auf die Gerade g i darstellt. Mit xm statt x0 kann man das Vorgehen erneut durchlaufen. Da bei der Projektion der Abstand vom angenommenen Schnittpunkt der Geraden x∗ nicht größer wird, – man kann mehr zeigen – kann man Konvergenz der erzeugten Näherungsfolge gegen x∗ erwarten. Es ist ein Vorteil dieses iterativen Vorgehens (Gaußsche Elimination wäre ein nicht sehr praktikables Vorgehen), schon während der Aufzeichnung der Daten mit der Auswertung, sprich Berechnung von x∗ , beginnen zu können. In der Praxis gibt es den Schnittpunkt x∗ auf Grund von Messungenauigkeiten nicht. Im Abschnitt 8.4 deuten wir dazu etwas an. 7.2 Impedanztomographie Elektrische Impedanztomographie (kurz EIT) ist eine neuartige Tomographiemethode aus der Medizin. Ziel ist die DarstelV Γ lung des Leitfähigkeitskoeffizienten im Inneren des Körpers anhand von Messungen auf der s+ Körperoberfläche. Der Versuchsaufbau ist wie Ω folgt; siehe Abbildung 12. Auf dem Rand Γ eines Schnitts Ω durch einen s Körper werden p Elektroden befestigt. In p einzelnen Versuchen wird reihum an jeweils zwei benachbarte Elektroden Strom in den Körper geschickt bzw. abgezapft. Dabei ergibt sich ein elektrisches Feld E bzw. ein Potential U (SpanAbbildung 12: Impedanztomographie nungsdifferenz), welches am Rand Γ an p−2 Elektroden abgegriffen werden kann. Auf diese Weise erhält man p Datensätze: einer für jeden Versuch mit jeweils p − 2 ( nicht ganz unabhängigen) Messwerten. Wie hängen diese Messwerte mit der Leitfähigkeit σ : Ω −→ R zusammen? Das physikalische Modell liefert das Ohmsche Gesetz, welches den Strom I und das elektrische Feld E durch die Gleichung I = σE (Ohmsches Gesetz) Stand: 2. Mai 2000 30 c J. Baumeister 8 WAS KANN DAVON IN DEN SCHULUNTERRICHT EINGEHEN? koppelt. Daraus erkennt man, dass der positive Leitfähigkeitskoeffizient als Kehrwert eines Widerstandes aufgefasst werden kann. Das elektrische Feld ist der negative Gradient des Potentials U : Ω −→ R, d.h. E = −grad U = −∇U . Nach dem Prinzip der geringsten Arbeit richtet sich das elektrische Feld so aus, dass die Gesamtarbeit (Elektronentransport) minimal ist. Dies führt nach Variationsprinzipien dazu, dass das Potential U folgender Randwertaufgabe genügt: div(σ grad U ) = 0 , Ω ∂U σ (·) − (δ(· − s+ ) − δ(· − s− )) = 0, auf Γ. ∂ν Hierbei ist div“ die Divergenz des Elektrischen Feldes, ∂U die Normalableitung auf dem Rand ∂ν ” Γ und δ(·) die so genannte Dirac–Distribution; (siehe Abbildung 12). Wir haben p Experimente zur Bestimmung von σ zur Verfügung, nämlich die Anregungen in 1 ≤ j ≤ p; jeweils messen wir das Potential U1j , . . ., Upj in den Messpunkten {s1 , . . . , sp}\{sj , sj+1 } . Die Aufgabe besteht nun darin, aus den Datensätzen j U1j , . . . , Up−2 , 1 ≤ j ≤ p, die Leitfähigkeitsfunktion σ : Σ −→ R zu bestimmen. Dazu ist nun die Randwertaufgabe zu diskretisieren. Dabei beschreibt man die Leitfähigkeitsfunktion σ wieder durch eine Pixelfunktion und versucht das entstehende nichtlineare Gleichungssystem zu lösen. Man kann die Idee des ART–Verfahrens auch hier anwenden, da die Nichtlinearität nicht beliebig ist, sondern in spezieller Form vorliegt. 8 Was kann davon in den Schulunterricht eingehen? Wir greifen zunächst einige Begriffe und Überlegungen auf, die im Verlauf der Darstellung eine Rolle spielten. Anschließend greifen wir etwas weiter aus und formulieren thesenhaft Probleme, die mit dem Mathematikunterricht zu tun haben. Möglicherweise wird dabei eine gewisse Nichtvertrautheit mit Details der Lehrpläne deutlich, in der Tendenz hoffen wir jedoch richtig zu liegen. 8.1 Alphabete und Codes In der Mengenlehre werden Mengen zunächst meist völlig ohne Struktur behandelt. Es werden mit speziellen Objekten Mengen gebildet, es werden Mengendiagramme untersucht. Diese zunächst zweifellos nötigen Ansätze sollten aber eine Fortsetzung finden, nämlich durch die Betrachtung von Mengen, in denen Strukturen zu finden sind, die sich lohnen zu betrachten. In unserem Zusammenhang können wir als Grundmenge etwa mit einem Alphabet beginnen. Ein Alphabet ist eine Menge A von Zeichen, mit denen wir durch Hintereinanderreihung Wörter bilden wollen; aus Wörtern können wir dann durch Hintereinanderreihung Sätze bilden, eine Sprache hat dafür Regeln. Mit einfachen Vorschriften kann man Wörter rekursiv definieren. Den so entstehenden Wortschatz einzugrenzen oder gar zu charakterisieren ist eine interessante Aufgabe, deren Zugang einfach ist. Es gibt genügend überzeugende Kontexte: Postleitzahlen, Morsezeichen, ISBN–Nummern. Etwas abgehobener ausgedrückt handelt es sich bei diesen Überlegungen um die Codierung von Daten. Anspruchsvoller ist das dazugehörende Thema der fehlerkorrigierenden Codes. Stand: 2. Mai 2000 31 c J. Baumeister 8.2 Graphen Es ist ein Kennzeichen unserer digitalisierten Welt, dass das Alphabet A := {0, 1}, das sogenannte binäre Alphabet eine überagende Rolle spielt. Damit lassen sich Wörter bilden, die dann Zeichenketten aus 0, 1 sind. Beispielsweise 01, 0000, 101010, . . . . Es ist wesentlich, dass diesen Zeichenketten eine Bedeutung als Zahldarstellung zukommt, nämlich der Dualdarstellung von natürlichen Zahlen: 2 = 10, 0 = 0000, 42 = 101010 = 32 + 8 + 2 , 425 = 11010101 . Durch einen Dezimalpunkt“ und ein Vorzeichen kommt man zu einer Darstellung von belie” bigen reellen Zahlen. Eine ähnliche Bedeutung kam in den Anfangszeiten der Computer dem Hexadezimalsystem zu, nun etwas in den Hintergrund gedrängt. Hier liegt das Alphabet A : = { 0, 1, . . . 9, A,B,C,D,E,F } vor. Etwa steht 1A9 für 1 · 162 + 10 · 16 + 9 · 160 = 425 . Es fällt auf, dass man mit kürzeren Zeichenketten für ein und dieselbe Zahl auskommt. Zeichenketten aus Nullen und Einsen, also Wörtern über dem binären Alphabet, kommt noch eine andere Bedeutung zu. Etwa kann man die n–fache Wiederholung eines Bernoulliexperiments durch ein binäres Wort der Länge n darstellen: 0 steht für Misserfolg, 1 steht für Erfolg. Daran schließen sich dann einfache kombinatorische Überlegungen zur Abzählung spezieller Ereignisse an. 8.2 Graphen Ein Graph G(E, K) besteht aus einer (endlichen) Eckenmenge E und einer Menge K von Paaren {a, b}, a 6= b von Kanten. Die Namen Ecken und Kanten deuten auf die bildliche Darstellung hin, mit der wir uns einen Graphen vorstellen. Ist etwa E = {1, 2, 3, 4, 5}, K = {{1, 2}, {1, 3}, {2, 5}, {4, 4}} , dann können wir den zugehörigen Graphen G = G(E, K) als Diagramm hinzeichnen; siehe rechtes Diagramm in Abbildung 14. Die große Bedeutung der Graphentheorie liegt nicht nur in der großen Anschaulichkeit der verwendeten Begriffe, sondern vor allem auch darin, dass sich Probleme verschiedenster Art graphentheoretisch formulieren lassen. Ihre Entwicklung begann 1736, als Euler, die nach ihm benannten Graphen untersuchte; das Königsberger Brückenproblem steht als richtungsweisendes Beispiel am Beginn der Entwicklung. In Abbildung 13 (a) ist die Landkarte“ von Königsberg ” mit den sieben Brücken und den vier Landstücken zu sehen. Die Frage, die Euler mit Nein beantwortete ist, ob es einen Rundweg gibt, der jede Brücke genau einmal benutzt. Der Graph in 13 (b) hebt das Problem auf eine sehr abstrakte Ebene, aus der die Lösung losgelöst von unnötigem Beiwerk abgelesen werden kann: Da es Knoten gibt, aus denen eine ungerade Anzahl von Kanten herauslaufen, kann es einen solchen Rundweg nicht geben. Mit Graphen lassen sich Probleme, in denen eine zweistellige Beziehung eine beschreibende Bedeutung hat, gut untersuchen • Spielplan für ein Tennisturnier • Teilbarkeitsgraphen • Nachbarschaftsbeziehungen (Färbung von Landkarten) • Matchingprobleme (Computerplatinen) Stand: 2. Mai 2000 32 c J. Baumeister 8.3 D D a a Algorithmen d e A g d g e A C C c b c B b f f B (b) Der zugehörige Graph (a) Skizze der Landkarte Abbildung 13: Das Königsberger Brückenproblem • Endliche Geometrien (Geraden verbinden zwei Punkte) • Rundreisegraphen (nach A wird B besucht) • Gewichtete Graphen und Straßenkarten Bäume sind spezielle Graphen, nämlich solche, in denen kein geschlossener Weg entlang von Kanten existiert; in Abbildung 14 liegt links ein Baum vor, rechts liegt kein Baum vor. Der Symbolbaum in der Hufmankompression ist auch ein Beispiel. In der (diskreten) Wahrscheinlichkeit bedient man sich der Bäume, um in einem Diagramm Wiederholungen eines Bernoulliexperiments festzuhalten; die Pfadregeln werden anhand solcher Diagramme formuliert. 8.3 1 5 2 4 3 Abbildung 14: Graphen Algorithmen Unter einem Algorithmus versteht man die eindeutige und vollständige Beschreibung des Weges, auf dem ein gewünschtes Resultat bei gegebenen Voraussetzungen durch eine endliche Anzahl von Verarbeitungsschritten erreicht werden soll. Unter einem Programm versteht man die Implementierung eines Algorithmus auf einem Computer. Es steuert den Ablauf eines Rechenprozesses, in dessen Verlauf das Resultat erarbeitet wird. Die Laufzeit eines Algorithmus ist die Zeit, die ein Rechenprozess benötigt, um bei gegeben Eingabedaten ein Resultat zu erzielen. Damit die Rechenleistung qualitativ keine Rolle spielt, übersetzt man Zeit in Anzahl von Rechenoperationen. Die Bestimmung der Laufzeit ist meist ein schwieriges Unterfangen, meist ist man mit Abschätzungen zufrieden. Bezieht man auch noch den Speicherbedarf, den der Rechenprozess erfordert, ein, spricht man auch von der Komplexität eines Algorithmus. Einfache Algorithmen, die in der Datenverarbeitung vordringlich benötigt werden, sind die Stand: 2. Mai 2000 33 c J. Baumeister 8.4 Koordinaten Such– und Sortieralgorithmen. Manche sind uns intuitiv vertraut, für manche bedarf es einigen Nachdenkens. Ein einfacher Sortieralgorithmus ist insertion–sort. Er funktioniert wie das Einsortieren von Spielkarten von einem Stapel in die Hand: man nimmt Karte für Karte vom Stapel und sortiert sie ein, indem man den Kartenwert mit allen schon in der Hand befindlichen Karten (etwa angeordnet von links nach rechts) vergleicht. Überträgt man diese Vorgehen auf ein Feld von ganzen Zahlen, so kann man so vorgehen: • Man wähle ein Element des Feldes aus. Alle Elemente links davon seien schon sortiert. • Man starte mit dem Element links von dem ausgewählten Element. Ist dieses grösser als das ausgewählte, wird es um eine Position nach rechts geschoben. • Man fahre mit dem nächsten links fort, bis man ein Element gefunden hat, das kleiner als das ausgewählte ist. • Nun füge man das ausgewählte Element an der freien Stelle ein. • Beim Start wählt man das 2. Element im Feld. Wie sieht die Laufzeit aus? Im günstigsten Fall ist das Feld sortiert. Im ungünstigsten Fall ist das Feld gerade umgekehrt sortiert. Dann muss jedes Feldelement mit allen vorhergehenden verglichen werden und man erhält als Anzahl der nötigen Vergleiche eine quadratische Funktion in der Anzahl der Felder. Weitere Sortierverfahren sind selection–sort, buble–sort, quick–sort. Im Mittel ist quick– sort das beste Verfahren. Sortierverfahren kann man auch mit Sortierbäumen veranschaulichen. 8.4 Koordinaten Koordinaten (der Ebene) werden in der Schule meist ausschliesslich oder zumindest über zu lange Zeit nur als Beschriftung von Achsen eingeführt, um Graphen von Funktionen mit Maßstäben zeichnen zu können. Es wäre wünschenswert, Koodinatisierung unseres uns umgebenden Raumes früh an sehr vielen Beispielen einzuführen: Euklidische Koordinaten des Raums, sphärische Koordinaten auf der Erde, Sternkoordinaten im Kosmos. Lineare Abbildungen (mit ihrer Matrizenbeschreibung) sind als dazu passende Abbildungen zu untersuchen. Die Korrektur von geometrischen Verzerrungen (siehe Abschnitt 2.5 ist eine interessante Anwendung von solchen Abbildungen in der elementaren Geometrie. Aber es scheint mir wichtig, nicht dabei stehen zu bleiben. Koordinatisierung/Vektorisierung hat eine viel umfassende Bedeutung. Farbwerte bei Bildabbildungen können dazu dienen, dies zu erkennen. In der RGB–Farbdarstellung können wir jedem Bildpunkt einen Bildvektor mit 3 Komponenten zuordnen. Das RGB–Modell ist ein additives Farbmodell, d.h. mischt man die drei Farben rot, grün, blau mit bestimmten Intensitäten zusammen, so ergibt sich die Farbe weiss. Beim RGB–Modell werden die darstellenden Farben als Punkte eines im Ursprung eines kartesischen Koordinatensystems liegenden Einheitswürfel beschrieben. Auf den positiven Achsen werden die drei Primärfarben R, G, B aufgetragen. Die Hauptdiagonale des Einheitswürfels enthält die Farben mit gleich grossem Anteil der Primärfarben; (0,0,0) entspricht schwarz, (1,1,1) entspricht weiss. Eine Farbe hat man dann durch die Anteile zu beschreiben, die zu schwarz zu addieren sind. Das CMY–Modell (Cyan, Magenta, Yellow) ist ein subtraktives Farbmodell. Die Mischung von C, M, Y ergibt schwarz. Nun liegt weiss im Ursprung des Koordinatensystems. Farben werden beschrieben durch die von der Farbe weiss abzuziehenden Anteile der Grundfarben. Die Grundfarben absorbieren Farben des RGB–Modells, also RGB = (1,1,1) – CMY“. Dieses ” Farbmodell wird bei Druckern benutzt. Stand: 2. Mai 2000 34 c J. Baumeister 8.5 Gleichungssysteme Die Umwandlung von RGB–Bildern in YUV–Bilder hin und zurück geschieht mit einer linearen Transformation: Y 0.2290 0.5870 0.1140 R U = −0, 1687 −0.3313 0.5000 G V 0.5000 −0.4187 −0.0813 B R 1.0000 0.0000 0.4020 Y G = 1.0000 −0.3441 −0.7141 U B 1.0000 1.7720 0.0000 V Der Eintrag 0.5870 in der Umwandlungsmatrix von RGB nach YUV trägt der hohen Empfindlichkeit des Auges für die Farbe grün Rechnung. Es ist das Resultat der Digitalisierung unserer Umwelt, dass aus mathematischer Sicht die Bedeutung von Analysis abgenommen hat und die Lineare Algebra grössere Bedeutung gewonnen hat: Funktionen werden durch Vektoren ersetzt, die Wahl von basen ist ein ganz wichtiges Thema geworden, da eine günstige Wahl schon eine Komprimierung von Daten mit sich bringt; die Wavelettransformation ist die Perfektion“ dieser Idee. Skizzieren wir ein kleines Beispiel. ” Haben wir es mit Vektoren x = (x1x2 , x3, x4) ∈ R4 zu tun, so denken wir sofort an die Standardbasis (1, 0, 0, 0) , (0, 1, 0, 0) , (0, 0, 1, 0) , (0, 0, 0, 1) zu ihrer Darstellung. Hat man es aber mit einem Vorgang zu tun, bei dem Vektoren der Form (c, c, c, c) ∈ R4 häufig vorkommen, so sollte man e = (1, 1, 1, 1) als Basisvektor verwenden: solche Vektoren sind dann mit einer Zahl, nämlich c zu übertragen. 8.5 Gleichungssysteme Allgemein wird zur Lösung eines linearen Gleichungssystems das Eliminationsverfahren von C.F. Gauß propagiert. Sie ist nicht immer die Methode der Wahl. Iterative Verfahren sind in gewissen Situationen vorzuziehen, da sie nach jedem Iterationsschritt schon eine Näherung für die Lösung bereitstellen, das Eliminationsverfahren aber immer erst bis zum Ende durchgerechnet werden muss, ehe eine Lösung ablesbar ist. Man sollte aber beachten, dass dann ein ganzes Stück mehr Information zur Verfügung steht. Hier ist ein iteratives Verfahren, das sogenannte ART–Verfahren, das anschaulich ist und Einblick in elementare Geometrie gibt. Wir beschreiben es im R2 ; die Idee wird damit hinreichend klar. Gegeben sei das Gleichungssystem (siehe (10)) 2 3 1 Abbildung 15: Sukzessive Projektion hal , xi = yl , 1 ≤ l ≤ m . (11) Jede Gleichung in (11) korrespondiert mit der Geraden gl : y = hal , xi . Das Gleichungssystem (11) lösen heisst also, den Schnittpunkt dieser Geraden zu finden. Dies kann man durch sukzessive Projektion der aktuellen Näherung auf diese Geraden erreichen; siehe Abbildung 15. Dabei sehen wir auch, dass wir die Gleichungen periodisch nutzen: al := al−m , yl := yl−m , l = m + 1, . . . . Stand: 2. Mai 2000 35 c J. Baumeister 8.5 Gleichungssysteme Wie sieht nun diese Projektion formelmässig aus? Wir können dazu o.E. annehmen, dass die Zeilenvektoren al schon normiert sind, d.h. dass hal , al i = 1 , l = 1, . . . , m gilt. Es lässt sich dann leicht verifizieren, dass xl := xl−1 + (yl − hal , xl−1i)al , l = 1, 2, . . . . (12) die zutreffende Vorschrift ist. Mit dem Satz von Pythagoras kann man sofort eine Konvergenzuntersuchung angehen. Hier ist nun die algorithmische Umsetzung: Algorithmus 2 Das ART–Verfahren EIN: Zeilenvektoren a1, . . . , am , am+1, . . . , Messdaten y1 , . . . , ym, ym+1 , . . . . Startpunkt x0 ∈ RN ; l := 1 . SCHRITT 1: xl := xl−1 + (yl − hal , xl−1i)al ; SCHRITT 2: Setze l := l + 1 und gehe zu Schritt 1. AUS: Folge {x0 , x1, x2, . . . } von Näherungen für die Lösung des Gleichungssystems (11). Klar, die Schleife muss terminiert werden; beachte die Endlichkeit von Algorithmen. Man hat dazu ein Abbrechkriterium etwa folgender Art zu implementieren: Ist max |yl − hal , xl i| ≤ ε , l=1,...,m dann beende; hierbei ist ε eine vorgegebene Fehlergenauigkeit. Was ist zu tun, wenn Messungenauigkeiten vorhanden sind? Dann ist auch nicht klar, was nun Lösung“ heissen soll, denn ein Schnittpunkt der Geraden wird nun nicht vorliegen. Ein ” schon auf C.F. Gauß zurückgehender Lösungsbegriff ist der der Fehlerquadratlösung. x∗ heisst Fehlerquadratlösung genau dann, wenn (m ) m X X |hal , x∗i − yl |2 = inf |hal , xi − yl |2|x ∈ R2 l=1 l=1 gilt. Lässt sich diese Lösung nach der obigen Vorgehensweise errechnen? Jedenfalls nicht, wenn wir das Vorgehen nicht abändern, denn es lässt sich leicht ein Beispiel konstruieren, bei dem das obige Vorgehen zyklisch wird, d.h. es eine Folge x1, . . . , xm , xm+1, . . . erzeugt mit xl+m = xl , l = 1, 2, . . . . Was ist abzuändern? Es ist eine Schrittweitensteuerung vorzusehen: xl := xl−1 + λl (yl − hal , xl−1i)al , l = 1, 2, . . . (13) mit λl ≥ 0 , l = 1, . . . , ∞ X λl = ∞ , l=1 ∞ X λ2l < ∞ . (14) l=1 Dann konvergiert die Folge (xlm )l∈N in der Tat gegen die Fehlerquadratlösung des Gleichungssystems. Im Zusammenhang mit der Computertomographie sind Verfahren interessant, die die Matrix (a1 | · · · |am ) in Blöcke betrachtet, die schon durch den Messvorgang nahegelegt werden. Dann wird blockweise iteriert, die Projektionsmethode wird auf Ebenen“ ausgedehnt. ” Stand: 2. Mai 2000 36 c J. Baumeister 8.6 8.6 Thesen Thesen Wir formulieren Thesen, die sich nach den vorhergehenden Anmerkungen zu interessanten Themen im Mathematikunterricht geradezu aufdrängen. Sie haben auch zu tun mit Erfahrungen und Einsichten, die der Autor in einer 4–semestrigen Vorlesung zur fachwissenschaftlichen Ausbildung von Grund–, Haupt– und Realschullehrern gewonnen hat. 1. These Mathematik, wie sie im heutigen Informations– und Kommunikationszeitalter von besonderem Interesse ist, wird an der Schule praktisch nicht unterrichtet. Ansätze, die etwa bei Gleichungssystemen, der elementaren Geometrie (Projektion und Perspektive), der Stochastik (Zufall und Irrfahrten) vorhanden wären, werden nicht aufgenommen. Hinterfragt man, was hinter der Entwicklung der Informations– und Kommunikationstechnologie steckt, stösst man sofort auf mathematische Theorien. Die Neugierde darauf zu lenken, ist Aufgabe eines lebendigen Unterrichts und Leitlinie für die Umgestaltung des Lehrstoffes. 2. These Allgemein ist im Mathematikunterricht das Gewicht der Analysis zu gross, und in der Physik, wo Analysis am ehesten geeignet ist, eine fruchtbare Symbiose einzugehen, wird keine vernünftige Brücke geschaffen. In der Analysis werden als Höhepunkte die allseits beliebten Steckbriefaufgaben angeboten: Gesucht ist eine Funktion, die in x = 0 eine Nullstelle, in . . . . Physik und Mathematik ließen sich in der Oberstufe durch eine engere Verzahnung sicher sehr beleben. Allerdings müsste damit eine stärkere Betonung der naturwissenschaftlichen Wahrnehmung unserer Umwelt verbunden sein. In unserem Kontext könnte dies bedeuten: Farb–Modelle, Frequenzen von Signalen, Satellitenerkundung, Diagnostik in der Medizin. 3. These Die Mathematik, die stärker betont und in die Curricula aufgenommen werden sollte, wird im wesentlichen durch den Oberbegriff Diskrete Mathematik“ zusammengefaßt. ” Diskrete Mathematik beschäftigt sich mit sehr einfach zugänglichen Problemen und Strukturen und ist gerade deshalb bestens geeignet, einen Wandel in der Mathematikausbildung und im Mathematikunterricht herbeizuführen; siehe [RF] (Quelle für Hinweise auf Originalarbeiten und computerorientierte Hilfen). Sie führt weg von routinemäßigem Anwenden von Formeln und Rezepten und leitet hin zu kreativem Arbeiten an Hand von leicht zu beschreibenden Anwendungen. Die obigen Objekte und Begriffe geben – im Rahmen der Bildverarbeitung – einen Geschmack davon. Reizvolle Probleme kann man etwa in [AZ] finden. 4. These Der algorithmische Standpunkt ist herauszuarbeiten und zu betonen. In der diskreten Mathematik tritt der algorithmische Standpunkt deutlich zu Tage, d.h. die Seite der Mathematik, die sich die Frage nach sicheren und effektiven Berechnungen von Objekten stellt. In der Mathematik an den Universitäten tritt dieser Aspekt immer mehr in den Vordergrund. Ein Schlüsselthema in der Mathematik taucht hier als Methode auf: Reduktion auf einen bereits behandelten Fall (Rekursion). In der Mathematik an den Universitäten tritt dieser Aspekt immer mehr in den Vordergrund; siehe [Fo]. Im übrigen gehört diese Art von Mathematik durchaus zu Euklids Erbe. 5. These Aktuelle Fortschritte lassen sich auch in der Mathematik in den Unterricht einbinden. Es ist nicht nötig, dass in der Schule nur jahrhundertalte Mathematik unterrichtet werden muss; 28 Beweisen zum Satz des Pythagoras einen 29. hinzuzufügen, kann nicht das Ziel sein. In Stand: 2. Mai 2000 37 c J. Baumeister 8.6 Thesen anderen Fächern bemüht man sich durchaus, sehr aktuelle Erkenntnisse auf einem elementaren Niveau in den Schulunterricht einzufügen; siehe etwa [dp]. Dies bedarf aber einer grossen Anstrengung. Auch in der Mathematik muss gelten: Der Köder muss (in erster Linie) dem Fisch schmecken und nicht (allein) dem Angler! 6. These Im Mathematikunterricht werden die Kernfähigkeiten geschult, die auch für die Informatik wesentlich sind: Im Speziellen Allgemeines zu erkennen, aus konkreten Aufgabenlösungen abstrakte Lösungswege herauszufinden. Es wäre an der Zeit, die gerade für die Schule so schmerzlich Trennung von Mathematik und (theoretischer) Informatik, aufzugeben und zu klaren Konzepten für einen gut abgestimmten Unterricht in Mathematik und Informatik zu kommen. 7. These Möglichkeiten der Computer werden am besten erfasst durch ein breites Verständnis algorithmischen Vorgehens. In der algorithmischen Betrachtunsweise wird das Arbeitsmuster mache dies, dann dies, wenn jenes gilt“ ” eingeübt, das nahezu einzige Prinzip der Programmierung von Computern. 8. These Nicht das Arbeiten am Computer muss gelernt werden, sondern die Strukturen sind zu erarbeiten, die Computer befähigen das zu leisten, was man von ihnen erwartet. Es ist doch eine allgemeine Erfahrung, dass Heranwachsende spielend einfach mit dem Computer umgehen; nur ältere Semester“ haben hier Versagensängste. ” Die Strukturen, die für die Leistungen der Computer massgeblich sind, sind bisher überwiegend mathematische Strukturen, neuerdings auch solche, die sich aus der Biologie ableiten: Wie wird Suchen organisiert, was sind redundante Informationen, wie lässt sich Vernetzung herstellen, was ist die Komplexität einer Struktur, eines Vorgehens? Die obigen skizzierten Ansätze zur Codierung und zu Graphen gaben einen Geschmack davon. Sie sind einfach zugänglich und von großer Aussagekraft. 9. These Schulen ans Netz“ ist bei der derzeitigen Lehrersituation eine Alibi–Veranstaltung! ” Sie wird viel Geld kosten, viel Computerschrott zurücklassen, für die bessere nachhaltige Vorbereitung der Schüler auf das Berufsleben nichts bringen, vom Nachdenken über Unterrichtsinhalte ablenken. Hat man in der Öffentlichkeit schon jemals etwas gehört, wie man sich Unterrichtseinheiten vorzustellen hat, bei dem das Netz genutzt wird? Glaubt man wirklich, dass man Klassen mit Klassenstärke 22 in einen Computerraum stecken kann und unter Aufsicht – dies ist juristisch geboten – nach Texten über ein Gedicht von Trakl suchen lassen kann? Aufteilung der Klassen in kleine Gruppen lässt ja wohl die Ausstattung der Schulen mit Lehrern nicht zu. Oder sollen die Computer im Lehrerzimmer verstauben? Wer soll eigentlich kompetent die Schüler beraten? Neben einigen engagierten Lehrern, die in der Freizeit sich weitergebildet haben, gibt es doch nur gleichgültiges Nichtwissen. Selbst Minister, die für plakative Statements zu diesem Thema immer gut sind, brüsten sich andererseits, Arbeit, die mit dem Computer zu tun haben, deligieren zu können. Sie sollten selbst Erfahrungen sammeln, alle Seiten“ des Netzes kennenlernen ” und nicht auf die Aussagen einiger Gurus angewiesen zu sein. Ohne eine Filterung, Aufbereitung und Durchdenkung der Faktensammlungen im Internet durch die Lehrenden kann kein Vorteil für die Lernenden herauskommen. Stand: 2. Mai 2000 38 c J. Baumeister 9 LITERATUR Kein Zweifel, Zugang zum Netz für viele, ja alle, auch für die Schulen zu schaffen, ist an der Zeit. Es wäre aber eine vordringliche Aufgabe der Politik, die Computerindustrie von dem Irrsin abzuhalten, PC–Ausstattungen immer zum selben Preis anzubieten mit immer grösseren Leistungen. Welcher Normalverbraucher benötigt einen Computer mit 800 MHz Taktfrequenz und 20 GB Festplattenspeicher? So wie nahezu jede Familie mindestens einen Fernseher besitzt, könnte erwartet werden, dass ein PC mit vernünftiger Ausstattung – ein Preis von 1 200.– DM wäre zur Zeit durchaus realistisch – in jedem Haushalt angeschafft wird; Anreize gibt es genug. Die Politik sollte nicht der Versuchung erliegen, die öffentlichen Kassen von der Computerindustrie plündern zu lassen. Die Gelder sollten vielmehr für die zeitgemäße Ausbildung der Lehrer und Einstellung junger(!) Lehrer eingesetzt werden. 10. These Eine wirkliche Neugestaltung des Mathematikunterrichts wird es nur geben, wenn die Lehrerbildung aus den bürokratischen Fängen der Landesminister befreit wird. Seit Jahren, seit Felix Kleins Zeiten um 1900 wird der schlechte Zustand der Lehrerbildung beklagt. Mehr als ein gelegentliches kurzes Aufflackern von geschäftiger Papiereschreiberei war bisher nicht zu vermelden. Es ist eine Chance, wenn Universitäten vor die Realität gestellt werden, wirklich über Lehrerbildung nachzudenken; ein Verstecken hinter bürokratischen Genehmigungsszenarien wäre vorbei. 9 Literatur Literatur [@@@@] Buchliteratur [Ab] Abmayr, W., Einführung in die digitale Bildverarbeitung, Teubner–Verlag, Stuttgart, 1994 [AZ] Aigner, M., Ziegler, G.M., Proofs from the BOOK, Springer–Verlag, Berlin, 1998 [Ba] Barnsley, M., Fractals Everywhere, Academic Press, Providence, 1988 [Bl] Blatter, M., Wavelets–Eine Einführung, Vieweg–Verlag, Braunschweig, 1998 [DF] Diaconis, P., Freedman, D., Iterated Random Functions, SIAM Review 41 (1999), 45 – 76 [Fi] Fischer, Y., Fractal Image Compression: Theory and Applications, Springer–Verlag, Berlin, 1995 [Fo] Forster, O., Algorithmische Zahlentheorie, Vieweg–Verlag, Braunschweig, 1996 [Ha] Haberäcker, P., Praxis der digitalen Bildverarbeitung und Mustererkennung, Carl– Hauser–Verlag, München, 1995 [Hu] Hubbard, B.B., Wavelets – Die Mathematik der kleinen Wellen, Birkhäuser–Verlag, Basel, 1997 [Ka] Kaiser, G., A friendly guide to Wavelets, Birkhäuser–Verlag, Basel, 1994 [Ja] Jähne, B., Digitale Bildverarbeitung, Springer–Verlag, Berlin, 1993 Stand: 2. Mai 2000 39 c J. Baumeister LITERATUR [Le] Lehmann, T., Bildverarbeitung für die Medizin, Springer–Verlag, Berlin, 1997 [Ma] Mallat, S. G., A wavelet tour of signal processing, Academic Press, San Diego–London, 1998 [RF] Rosenstein, J.G., Franzblau, D.S., Roberts, D.S. (eds.), Discrete Mathematics in the Schools, DIMACS, vol. 36, AMS, 1997. [St] Strang, G., Wavelet transforms versus Fourier transforms, Bull. Amer. Math. Soc. 28 (1993), 288–305. [@@@@] Internetliteratur [ck] http://cas.ensmp.fr/∼chaplais/Wavetour−presentation/ondelettes%20.../Edge−Detektion.htm [dp] http://didaktik.physik.uni-wuerzburg.de/∼pkrahmer/home/homep.html [ga] http://www.eee.metu.edu.tr/∼ngencer/amara.htm [go] http://www.uic.edu/classes/ah/ah110a/L33/l33-11b.html [ka] http://vs.informatik.uni-ulm.de/Mitarbeiter/Kassler/index.html [kg] http://www.muenster.org/kantgym/fach/f-info/f-info01.htm [os] http://www-lehre.informatik.uni-osnabrueck.de/∼mm/skript/5−5− Fraktale−Kompression.html [ri] http://www.dbg.rt.bw.schule.de/lehrer/ritters/info/kompr/kompr.htm [ro] http://www.ronnz.de/bildkompression/kompression.html [sm] http://www.wdr.maus.de/sndg/sags−morsen.html [th] http://ruvs.informatik.tu-chemnitz.de/Mitarbeiter/Thie-sub/vorlesung/compress/pictures.html [wu] http://www.matheprisma.uni-wuppertal.de/Module/Fraktal/Fraktale.htm Stand: 2. Mai 2000 40 c J. Baumeister