Diplomarbeit Studien zur Imitation von Interpretationen
Transcription
Diplomarbeit Studien zur Imitation von Interpretationen
Diplomarbeit in Informatik Studien zur Imitation von Interpretationen klassischer Klavier-Musik durch neuronale Netze Rainer Schmoll Technische Universität München Fakultät für Informatik Diplomarbeit in Informatik Studien zur Imitation von Interpretationen klassischer Klavier-Musik durch neuronale Netze Rainer Schmoll Aufgabensteller : Prof. Dr. Jürgen Schmidhuber Betreuer : Dipl.-Inf. Georg Fette Dipl.-Inf. Christian Osendorfer Abgabedatum: 03. April 2006 Erklärung Ich versichere, dass ich diese Diplomarbeit selbstständig verfasst und nur die angegebenen Quellen und Hilfsmittel verwendet habe. München, den 03. April 2006 Rainer Schmoll Vorwort Ich bin sehr froh darüber, eine Diplomarbeit gefunden zu haben, die mir von der Arbeitsweise und Thematik so gut auf den Leib geschnitten war. Bis zum letzten Versuch erwartete ich die Resultate immer wieder mit Spannung. Wenn auch etwas verspätet konnte ich während meiner studentischen Laufbahn eine gewisse Leidenschaft für künstliche neuronale Netze entwickeln. Mit dem Themenbezug zur Musik wurde zudem ein großer Teil meiner persönlichen Interessen und Leidenschaften abgedeckt, was mich auch in diesem Bereich viel dazu lernen ließ. Für Hilfestellungen aus musikalischer Sicht und das spontane Einspielen verschiedener Walzer möchte ich mich bei Klaus Ritzkowsky von der Musikhochschule München und bei Alex F. bedanken. Danke an Alex R. für das Bereitstellen eines Stagepianos. Großer Dank gebührt auch den Mühen des Pianisten Hans-Jörg Paliege. Der sehr teure Flügel mit geeigneter Abnahmetechnik wurde uns aufgrund seines Engagements vom Musikhaus Kronenberg in Kaufbeuren zur Verfügung gestellt. Für die, wie sich herausstellte nicht selbstverständliche Bereitschaft, Versuchsdaten zur Verfügung zu stellen möchte ich mich bei Rafael Ramirez von der Universität Pompeu Fabra bedanken. Vielen Dank meinen Betreuern Georg und Christian sowie meinem Themensteller Jürgen Schmidhuber für die vielen hilfsreichen Gespräche und das durchweg positive Arbeitsklima. Für Korrekturlesen und/oder interessante Fachgespräche danke ich besonders Franz, Mario, Ferdi und Tanja. Für die Unterstützung während meiner gesamten Studienlaufbahn möchte ich mich ganz herzlich bei meiner Familie bedanken. Vielen lieben Dank außerdem meiner langjährigen Freundin Sarina für ihr Verständnis und ihre Geduld. i Je mehr wir wissen, desto weniger scheinen wir weiter-zu-wissen.“ ” (Bernhard von Mutius) Inhaltsverzeichnis 1 Einleitung 1 2 Grundlagen zu künstlichen neuronalen Netzen 2.1 Das Neuronenmodell . . . . . . . . . . . . . . . 2.2 Vorwärtsgerichtete Netze . . . . . . . . . . . . . 2.3 Rückpropagierung . . . . . . . . . . . . . . . . . 2.4 Generalisierbarkeit . . . . . . . . . . . . . . . . 2.5 Rekurrente Netze . . . . . . . . . . . . . . . . . 2.6 LSTM . . . . . . . . . . . . . . . . . . . . . . . 2.7 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 8 9 12 12 14 18 . . . . 19 19 20 22 26 . . . . . . . . . . 28 28 29 30 31 32 34 36 37 39 40 5 Ergebnisse 5.1 Überanpassungstest mit einem Klavierstück . . . . . . . . . . . . 5.2 Erlernen kurzzeitiger Variationen . . . . . . . . . . . . . . . . . . 5.2.1 Einfache Modifikationen von Kindermelodien . . . . . . . . 43 44 47 47 . . . . . . . 3 Datenrepräsentation 3.1 Anforderungen . . . . . . . . . . . . . . . . . . . 3.2 Das MIDI-Dateiformat . . . . . . . . . . . . . . . 3.3 Entwicklung eines eigenen Ereignislisten-Formats 3.4 Grenzen des EVL-Formats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Datenbeschaffung 4.1 Von Hand erstellte Daten . . . . . . . . . . . . . . . . . 4.2 Klavieraufnahmen . . . . . . . . . . . . . . . . . . . . . . 4.2.1 Ansätze . . . . . . . . . . . . . . . . . . . . . . . 4.2.2 Voraussetzungen für eine gute MIDI-Aufzeichnung 4.2.3 Einspielen der Stücke . . . . . . . . . . . . . . . . 4.2.4 Musikalische Analyse . . . . . . . . . . . . . . . . 4.3 Brauchbare Daten für das Netztraining . . . . . . . . . . 4.3.1 Digitalisierung des Notentextes . . . . . . . . . . 4.3.2 Schwächen der Klavier-Aufnahmen . . . . . . . . 4.3.3 Rückwärtsrechnung des Notentextes . . . . . . . . iii . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 Spieltechnik eines Pianisten . . . . . . . . . . Wiederholungen lernen . . . . . . . . . . . . . . . . . 5.3.1 Vorausschau im Eingabestrom . . . . . . . . . 5.3.2 Erkennung einer unmittelbaren Wiederholung 5.3.3 Wiedererkennung von Eingabewerten . . . . . 5.3.4 Phrasenwiederholungen in einer EVL-Datei . . 5.4 Netztraining mit Klavierstücken . . . . . . . . . . . . 5.4.1 Gesamtstücke lernen . . . . . . . . . . . . . . 5.4.2 Instruktionen lernen . . . . . . . . . . . . . . 5.4.3 Phrasen lernen . . . . . . . . . . . . . . . . . 5.5 Gründe für Lernerfolge und Misserfolge . . . . . . . . 5.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 54 54 56 57 59 62 63 65 67 70 6 Schluss 73 Anhang A MIDI-Parameter . . . . . . . . . . . . . . . . . . . . B EVL-Visualisierung mit Gnuplot . . . . . . . . . . . . C Erlernen der kontextsensitiven Grammatik an bn cn . . D Kurzbeschreibung der verwendeten LSTM-Bibliothek 75 75 77 78 80 . . . . . . . . . . . . . . . . . . . . . . . . . . . . Glossar 85 Literaturverzeichnis und Verweise 88 iv Kapitel 1 Einleitung Gerade im Zeitalter der Elektronik geht vom Gedanken der künstlichen Intelligenz eine große Faszination aus. Dabei stellt sich auch immer die Frage, wie man dieses theoretische Konstrukt der Intelligenz überhaupt messen kann. Eine exakte allumfassende Definition ist praktisch nicht möglich, jedoch lassen sich verschiedene Aspekte abgrenzen, die ein intelligentes Wesen erfüllen muss. Erkenntnisse der letzten Jahrzehnte zeigten, dass logische elektronische Verschaltungen mathematisch klar eingrenzbare Aufgaben (z.B. Schach spielen) verblüffend schnell und gut lösen können. Was uns intelligente Menschen aber besonders ausmacht, sind neben Wissen und logischem Schlussfolgern auch die Fähigkeit zur Phantasie, Kreativität oder Intuition. Ob und wie man diese Charakteristik der Intelligenz künstlich erzeugen kann, ist eine sehr interessante Fragestellung. Problemstellungen, für dessen Lösung man eine gewisse Form von Intuition und Kreativität benötigt, finden sich zum Beispiel in der Kunst. Die hier präsentierte Arbeit lässt sich einem ehrgeizigen KI-Forschungsprojekt aus dem Bereich der Musik zuordnen. Mithilfe von künstlicher Intelligenz soll eine ausdrucksstarke musikalische Spielweise nachgeahmt werden. Diese Spielweise beinhaltet die verwendete Rhythmik (Tempo-Variationen) und Dynamik (Lautstärken-Variationen). Weshalb wir eine von Menschen gespielte Musik im Gegensatz zur computergenerierten meistens als interessanter empfinden, liegt daran, dass die auditiven Neuronen des menschlichen Gehirns eine sich nicht zu oft exakt wiederholende Musik als natürlicher und harmonischer empfinden. Gute Musiker alternieren beim Spielen bewusst und unbewusst das Tempo und die Dynamik oder ziehen manche Töne in die Länge. Nach welchen Gesetzmäßigkeiten dies geschieht ist schwer nachzuvollziehen und soll deshalb von einer vorher trainierten Maschine nachgeahmt werden. Das Verfahren ist praktisch immer gleich: man versucht, die Variationen in einem Musikstück zu messen und zu klassifizieren. Auf die daraus resultierenden Daten wendet man dann ein Verfahren des maschinellen Lernens an. 1 2 Der Lernerfolg wird normalerweise über dem mittleren quadratischen Fehler (MSE ) beim Vergleich mit einem nicht für das Lernen verwendeten Beispiel gemessen. Da es im Bereich der Musik zu einer Vorgabe viele verschiedene im musikalischen Sinne vernünftige Interpretationen gibt, macht vielleicht auch ein abgewandelter Turing-Test Sinn. Ein Proband mit musikalischem Grundverständnis bekommt dabei z.B. einen Notentext und zwei verschiedene Interpretationen vorgelegt. Die eine Interpretation stammt von einem Musiker und die andere von einer Maschine. Der Proband soll dann entscheiden, welche Version die des Musikers ist. Es könnten die Hörproben auch einfach vorgelegt und nach ihrem künstlerischen Wert beurteilt werden. Bezüglich der Wahl des Lernverfahrens und der Datenrepräsentation gibt es verschiedene Ansätze. In [22] und [23] verwendet man das Verfahren des so genannten instanzenbasierten Lernens. Alle zum Training benutzen Musikdaten und die Dynamik- und Rhythmik-Variationen werden mit logischen Regeln beschrieben und bilden somit eine Wissensbasis. Eine Anfrage mit einem Testdatensatz liefert dann die wahrscheinlichste Interpretation. Zur Beschreibung der Interpretation wurden die verwendeten Mozart-Sonaten vorweg von Hand in mehrere Abstraktionsebenen unterteilt. Der Lautstärken- und Tempo-Verlauf von Ausschnitten wird dann mit einem Polynom zweiten Grades angenähert. Der Ansatz erfordert also eine aufwändige musikalische Analyse aller eingespielten Musikdaten. Zum Training oder als Anfrage werden die Stücke als Ganzes verwendet. Der zeitliche Charakter wird dabei nur in Attributen übergeben und nicht durch einen Eingabestrom. Ob sich das verwendete stark regelbasierte Lernverfahren und die gewählte Datenrepräsentation besser eignen als andere Ansätze, ist fraglich. Der Ansatz in [19] und [14] untersucht monophone (einstimmige), von einem Saxophonisten in verschiedenen Tempi eingespielte Jazz-Interpretationen. Gelernt wird wieder induktiv1 mithilfe eines Logiksystems. Bei der Datenrepräsentation wird eine Note neben der jeweiligen Länge, Position und Lautstärke noch durch den Kontext bezüglich der vorhergehenden und nachfolgenden Note sowie der melodischen Zuteilung zu einer so genannten Narmour Gruppe beschrieben. Die notenweisen Variationen beschreiben die jeweiligen Änderungen von Lautstärke, Notenlänge und zeitlicher Verschiebung. Hierfür wurde eine sehr grobe Diskretisierung von neun Werten gewählt. Der Ansatz dieser Diplomarbeit ist viel uneingeschränkter als die beiden eben beschriebenen. Wir verwenden eine sehr feine Diskretisierung von 128 LautstärkenWerten. Längen und Positionen werden nicht durch Notenwerte, sondern zeitlich mit einer Genauigkeit von einer Millisekunde beschrieben. Auf eine aufwändige 1 Im Gegensatz zum deduktiven (erklärungsbasiertem) Lernen beschreibt das induktive Lernen das Lernen aus Beispielen. 3 vorangehende musikalische Analyse wie z.B. der Unterteilung in logische Abschnitte oder der Beschreibung des melodischen Kontextes wird verzichtet. Zum Lernen wird ein künstliches neuronales Netz verwendet. Dies erlaubt eine sequenzielle Eingabe der einzelnen Noten und damit eine klare Beschreibung des zeitlichen Ablaufs. Zur genaueren Beschreibung des Kontextes wird dem Netz eine Vorausschau im Eingabestrom ermöglicht (s. Abb. 1.1). Dies kann man in Bezug auf einen Pianisten mit einem Vorausschauen im Notentext vergleichen. Abbildung 1.1: Sichtfenster eines Pianisten. Analog wird auch dem neuronalen Netz als Eingabe ein Datenstrom von Noten geboten. Die Spielweise an der aktuellen Position (rote Noten) kann von bereits vergangenen Eingaben (bereits gespielt) und von einem beschränkten Ausschnitt der Folgenoten (Vorausschau-Fenster) beeinflusst werden. Da künstliche neuronale Netze typischerweise mit reellwertigen Ein- und Ausgaben arbeiten, wird auf eine grobe Diskretisierung oder Klassifizierung der Parameter verzichtet, was eine noch genauere Annäherung an eine gewünschte Interpretation ermöglicht. Bei der Musikauswahl legen wir uns auf klassische Musik aus der Romantik fest. Verwendet werden Walzer von Chopin. Diese besitzen eine relativ überschaubare Struktur und lassen besonders variantenreiche Interpretationen zu. Zur groben Methodik (s. auch Abb. 1.2): nach der gezielten Auswahl geeigneter Stücke werden diese von einem Pianisten mittels eines MIDI 2 -fähigen Klaviers eingespielt. Daraus resultiert eine so genannte MIDI-Datei. Auch vom Notentext wird eine MIDI-Datei erzeugt. Von den Stücken existieren somit jeweils zwei Versionen: einmal mit interpretativen Variationen und einmal ohne. Die MIDI-Datei des Notentextes soll also keine Lautstärken-Änderungen oder Temposchwankungen enthalten. Eine wichtige Grundvoraussetzung und damit aber auch größte Einschränkung des Ansatzes ist, dass die beiden Versionen im Ablauf der Notenfolge übereinstimmen müssen. Verzierungen, die nicht im Notentext stehen oder 2 etablierter Standard zur Beschreibung eines Musikstücks als Datenstrom 4 das Hinzufügen bzw. Weglassen einzelner Noten sind demnach bei der Interpretation nicht erlaubt. Um dies zu gewährleisten, müssen entsprechende Anpassungen gemacht werden. Abbildung 1.2: Grobe Methodik. Die beiden MIDI-Versionen von Notentext und Interpretation eines Musikstücks werden ohne Informationsverlust in ein für das Netztraining geeignetes Zwischenformat (EVL) konvertiert. Daraus lässt sich eine Sequenz mit Änderungsparametern für jede einzelne Note errechnen (EDL). Diese Sequenz beschreibt das Trainingsziel. Als Netzeingabe verwendet man die EVL-Datei des Notentextes. Trainiert wird mit einem rekurrenten mehrschichtigen neuronalen Netz. Aus den MIDI-Dateien errechnet man einen für das Netztraining geeigneten Datenstrom. Hierfür wurde das Datenformat EVL (eventlist) entwickelt. Da die beiden Versionen laut obiger Grundvoraussetzung den gleichen Notenablauf besitzen, lässt sich aus den dazugehörigen EVL-Dateien ein Datenstrom mit den für die Interpretation charakteristischen Änderungsparametern ermitteln. Diesen Datenstrom bezeichnen wir mit EDL (event differences list). Zum Netztraining soll ein rekurrentes mehrschichtiges neuronales Netz verwendet werden. Als besondere Netzarchitektur wählen wir ein von Jürgen Schmidhuber und Sepp Hochreiter vorgeschlagenes LSTM 3 -Netz. Dieses hat im Vergleich zu herkömmlichen neuronalen Netzen den Vorteil, beim Datenstrom uneingeschränkter in die Vergangenheit blicken“ zu können, das heißt, die jeweiligen ” Netzausgaben können auch von weit zurück liegenden Eingaben beeinflusst werden. Nach dem Training wird das Netz mit einer ungesehenen Eingabe getestet. Aus Eingabe und resultierender Ausgabe lässt sich dann die Interpretation als MIDIDatei berechnen. Bei einem Vergleich der tatsächlichen Netzausgabe mit der erwarteten können Aussagen über die Generalisierungsfähigkeit des Netzes getroffen werden. Damit ist die Fähigkeit gemeint, aus den zum Training verwendeten Informationen richtige Rückschlüsse zu ziehen und diese auf eine ungesehene Eingabe anzuwenden. 3 long short-term memory 5 Bei den Ergebnissen zeigte sich, dass sich Variationen im Kontext weniger Noten prinzipiell gut erlernen ließen. Die Längen-Beschreibung mit exakten Zeiten anstatt von Noten-Längen in Kombination mit dem Tempo stellte für die trainierten Netze auch kein Problem dar. Der Dynamik- und Rhythmik-Verlauf bezogen auf die komplette Eingabe war jedoch praktisch nicht generalisierbar. Der Aufbau der Diplomarbeit gliedert sich grob in vier Bereiche. Zunächst werden in Kapitel 2 die Grundlagen neuronaler Netze behandelt. Dabei wird auf die verschiedenen Netzarchitekturen und auf Verfahren des Netztrainings eingegangen. Kapitel 3 beschreibt die Besonderheiten des MIDI-Formats und des für das Netztraining entwickelten Datenformats. Wie man an geeignete Musik-Daten gelangen kann, wird in Kapitel 4 gezeigt. Neben dem Einspielen der Stücke und einer kurzen musikalischen Analyse behandelt das Kapitel auch die Notentexterkennung und eine spezielle Technik des Extrahierens von künstlerischen Variationen aus einer Aufnahme um somit den eigentlichen Notentext zu erhalten. Das umfangreichere Kapitel 5 präsentiert verschiedene Experimente und deren Ergebnisse. An die sehr komplizierte Problemstellung zum Interpretieren von Klavieraufnahmen wird sich mit einfacheren Teil-Versuchen sukzessive herangetastet. Zu guter Letzt soll im Schluss noch ein Ausblick über mögliche Weiterführungen und andere Ansätze gegeben werden. Beim Schreibstil wurde darauf geachtet, für einen Informatiker nicht unbedingt selbstverständliche Sachverhalte so anschaulich wie möglich darzustellen. Bei der Erarbeitung des Datenformats (Kapitel 3) oder in den Experimenten (Kapitel 5) wird der Leser hin und wieder mit einem wir“ mit einbezogen. Einzelne Kapitel ” dürfen durchaus getrennt voneinander gelesen werden. Der relativ umfangreiche Anhang wird hauptsächlich zur Beschreibung der verwendeten Software oder für Parameter-Auflistungen verwendet und soll daher auch als Stütze für diejenigen gelten, die sich mit den in der Diplomarbeit verwendeten Methoden genauer auseinandersetzen wollen. Das Glossar beinhaltet Kurzbeschreibungen von Fachbegriffen und Abkürzungen. Kapitel 2 Grundlagen zu künstlichen neuronalen Netzen In diesem Kapitel soll ein kurzer Überblick über Techniken des Problemlösens mit künstlichen neuronalen Netzen (KNN) gegeben werden. Zunächst werden Aufbau und Funktionsweise von vorwärtsgerichteten Netzen beschrieben. Danach wird das Lernverfahren der Rückpropagierung vorgestellt. Es bildet die Grundlage für praktisch alle auf dem Prinzip der Gewichtsanpassung basierenden Lernverfahren. Für die sehr komplexe Lernaufgabe dieser Arbeit wird eine höher entwickelte rekurrente Netzarchitektur mit LSTM -Zellen verwendet. Der vorletzte Abschnitt des Kapitels behandelt die besonderen Eigenschaften dieser Architektur. Eine detaillierte Beschreibung aktueller Lerntechniken und deren Algorithmen würde den Rahmen der Diplomarbeit sprengen, daher wird am Ende des Kapitels noch auf weiterführende Literatur verwiesen. 2.1 Das Neuronenmodell KNN sind ursprünglich biologisch motiviert. Sie versuchen mit einem mathematischen Modell die vernetzten Neuronen eines Gehirns nachzubilden. Abb. 2.1 zeigt ein einfaches mathematisches Modell für ein Neuron. 6 2.1. DAS NEURONENMODELL 7 Abbildung 2.1: Modell für ein Neuron i: Die mit ihren Gewichten wij multiplizierten eingehenden Aktivierungen aj werden summiert. Auf die Summe wird dann die Aktivierungsfunktion f angewendet und das Ergebnis ai ausgegeben. Neuronen stellen die Knoten des neuronalen Netzes dar. Sie sind durch gerichtete, gewichtete Kanten miteinander verbunden und können beliebig durchnummeriert werden. Ein Neuron i wird durch seine Übertragungsfunktion und seine Aktivierungsfunktion f beschrieben. Als Übertragungsfunktion verwendet man normalerweise die gewichtete Summe der Aktivierungen der k vorangehenden Neuronen. Das Ergebnis der Übertragungsfunktion ist neti . k X wij aj = neti (2.1) j=1 wij bezeichnet das Kantengewicht von einem Neuron j zu einem Neuron i. aj ist die Aktivierung vom j-ten Neuron. Auf die Summe neti wendet das Neuron dann die Aktivierungsfunktion f an und leitet das Ergebnis an seine Ausgabe ai weiter: ai = f (neti ) (2.2) Soll das Netz logische Schaltungen beschreiben, verwendet man als Aktivierungsfunktion oft die Schwellwertfunktion (Abb. 2.2 a): 1 falls x > 0 f (x) = (2.3) 0 sonst Ansonsten bietet sich die logistische Funktion (auch Sigmoid-Funktion genannt) f (x) = 1 1 + e−x (2.4) an (Abb. 2.2 b). Sie ist quasi-linear um 0 und genauso wie die Schwellwertfunktion begrenzt auf einen Wertebereich zwischen 0 und 1, hat jedoch den Vorteil, differenzierbar zu sein. 2.2. VORWÄRTSGERICHTETE NETZE (a) 8 (b) Abbildung 2.2: Beispiele für Aktivierungsfunktionen: (a) Schwellwert-Funktion, (b) Sigmoid-Funktion 2.2 Vorwärtsgerichtete Netze Vorwärtsgerichtete Netze, in der Literatur auch Feed-Forward-Netze genannt, können durch zusammenhängende azyklische Graphen mit den oben beschriebenen Neuronen als Knoten dargestellt werden. Die Knoten des Netzes lassen sich dabei in Schichten anordnen. In der ersten Schicht1 befinden sich Knoten für die Netzeingabe, in der letzten Schicht die Netzausgabe-Knoten. Schon Netze mit drei Schichten können (mit genügend Knoten in der mittleren Schicht) Polynome beliebigen Grades berechnen. Das Netz berechnet also aus den Eingaben das richtige Ergebnis des Polynoms und gibt es aus. Schichten zwischen Ein- und Ausgabe werden als verborgene Schichten bezeichnet (engl. hidden layers). Abb. 2.3 zeigt ein typisches dreischichtiges Feed-Forward-Netz mit drei Eingabe-Knoten, fünf verborgenen Knoten und zwei Knoten der Ausgabeschicht. Abbildung 2.3: Dreischichtiges, vollständig verknüpftes Feed-Forward-Netz 1 Diese Schicht wird oft auch als Schicht 0 bezeichnet, da die Knoten eigentlich keine vollwertigen Neuronen sind, sondern nur die jeweiligen Netzeingaben in das Netz propagieren. 2.3. RÜCKPROPAGIERUNG 9 Wieviele Neuronen in der verborgenen Schicht zur Lösung eines Problems benötigt werden, ist manchmal schwer abzuschätzen und noch nicht wirklich ver” standen“ ([30], S. 905). Bei zu wenigen Knoten kann das Problem nicht gelöst werden, bei zu vielen Knoten neigt das Netz zu einer Überanpassung, dem so genannten Overfitting“. Bildlich gesprochen lernt das Netz beim Phänomen der ” Überanpassung die Eingaben nur noch auswendig. Mehr dazu im übernächsten Abschnitt Generalisierbarkeit“. ” Die Anzahl der zur Lösung eines Problems benötigen Trainingseingaben hängt stark von dessen Komplexität ab. Prinzipiell gilt: je größer die Trainingsmenge, umso größer die Wahrscheinlichkeit, dass das Problem erlernt werden kann. 2.3 Rückpropagierung Das Lern-Verfahren der Rückpropagierung wurde schon 1974 von Paul Werbos formuliert und führte gegen Ende der 80er Jahre zu einer Renaissance“ der KI” Forschung. Es ist ein Spezialfall des in der Optimierung bekannten Gradientenabstieg-Verfahrens und basiert auf dem mittleren quadratischen Fehler (MSE ). Das Prinzip ist einfach: beginnend mit einem Netz mit zufälligen Kantengewichten versucht man diese so zu verändern, dass sich der Fehler zwischen aktueller und erwünschter Ausgabe verkleinert. ! Abbildung 2.4: Verfahren der Rückpropagierung: Die Eingabedaten werden zur Ausgabeschicht propagiert. Mittels Gradientenabstieg über der Fehlerfunktion werden dann im Rückpropagierungs-Schritt die einzelnen Gewichte der Reihe nach angepasst. Den schematischen Ablauf der Rückpropagierung zeigt Abb. 2.4. Man legt die Eingabe an die Eingabeknoten des Netzes und propagiert sie bis zur Ausgabeschicht durch. Mit dieser (tatsächlichen) Ausgabe und der erwünschten Ausgabe wird dann der Fehler berechnet. Durch partielle Ableitung der Fehlerfunk- 2.3. RÜCKPROPAGIERUNG 10 tion E nach den jeweiligen Gewichten können rekursiv die entsprechenden Gewichtsänderungen ermittelt werden. Der Fehler wird also durch die verborgenen Schichten bis zur Eingabeschicht zurückpropagiert“. ” Der mittlere quadratische Fehler sei wie folgt definiert: E= X 1 (di − ai )2 2 i∈Ausgabeschicht (2.5) Ein Einsetzen der Formeln 2.1 und 2.2 verdeutlicht, dass man den Fehler auch als → → eine Funktion über alle Gewichte − w auffassen kann (E = E(− w )). E bezeichnet man daher auch einfach als Fehlerfunktion. ai steht für die durch Formel 2.2 bestimmte tatsächliche Ausgabe und di die erwünschte Ausgabe des i-ten Neurons. Der MSE soll nun minimiert werden, dazu werden alle Gewichte angepasst: wij ← wij + ∆wij (2.6) Nach der Anpassung kann mit einer neuen Lern-Epoche fortgefahren werden. Der Änderungsfaktor ∆wij wird durch partielle Ableitung von E nach wij berechnet (Gradientenabstieg): ∆wij = −η ∂E = −ηδi aj ∂wij η>0 (2.7) δi wird als Fehlersignal bezeichnt. Es beinhaltet die Berechnungsvorschrift der partiellen Ableitung ohne Bezug auf die Aktivierung von j. η beschreibt die Lernrate. Je höher die Lernrate, desto stärker wirkt sich die Änderung auf die Gewichte aus. Bei unseren Experimenten verwenden wir normalerweise Lernraten im Bereich zwischen 0.001 und 0.00001. Die partielle Ableitung kann man unter Verwendung der Kettenregel folgendermaßen umformen: ∂E ∂ai ∂neti ∂E = ∂wij ∂ai ∂neti ∂wij (2.8) Alle diese Gradienten lassen sich berechnen. Für das Fehlersignal δi in Formel 2.7 ergibt sich damit und mit der Einbeziehung von Kanten die nicht zur Ausgabeschicht führen, folgende rekursive Formel: 0 f (neti )(d Pi − ai ) falls i ∈ Ausgabeschicht δi = (2.9) f 0 (neti ) k δk wki sonst Die Aktivierungsfunktion f muss also differenzierbar sein. Verwendet man die logistische Funktion von 2.4, so gilt f 0 (neti ) = ai (1 − ai ). Um den Gradientenabstieg bei der Rückpropagierung graphisch zu deuten, kann man die Fehlerfunktion als hochdimensionale Fläche betrachten. Die Anzahl der 2.3. RÜCKPROPAGIERUNG 11 Abbildung 2.5: Graphische Deutung der Fehlerfunktion: Der MSE bildet ein mehrdimensionales Fehlergebirge. Der aktuelle Fehler bahnt sich während der Lernphase einen Weg nach unten zu einem niedrigeren MSE. Dimensionen entspricht dabei der Anzahl der Gewichte im Netz. Abb. 2.5 zeigt ein Fehlergebirge für zwei Gewichte und den Lernfortschritt als Kurve, die sich den Weg zu einem niedrigeren MSE bahnt. An dem Modell lässt sich auch sehr anschaulich der Vorteil einer Erweiterung des Algorithmus zeigen. Berücksichtigt man im Trainingsverlauf bei der Änderung der Gewichte (mit Formel 2.7) zusätzlich die vorhergehenden Änderungen der jeweiligen Gewichte, erfährt der Änderungsfaktor eine gewisse Trägheitseigenschaft. Für die neue Gewicht-Anpassung gilt dann: neu alt ∆wij = −ηδi aj + µ∆wij η, µ > 0 (2.10) Den Faktor µ bezeichnet man als Momentum. Rückpropagierungsalgorithmen mit Momentum zeigen einen deutlich besseren Lernerfolg, da das Sinken des Fehlers beschleunigt wird, ähnlich wie bei einer Kugel auf hügeliger Fläche. Das Momentum hilft auch, lokale Minima (Schluchten) zu überwinden. Ein typischer Wert für µ liegt im Bereich von 0.9. Problematisch ist beim Verfahren der Rückpropagierung die Tatsache, dass es zwar meist gegen ein Fehlerminimum tendiert, dabei aber keine Sicherheit oder Hinweise liefert, ob es sich um ein globales Minimum handelt. Trotz Momentum kann es zudem passieren, dass der Fehler auf einem flachen Plateau der Fehlerlandschaft stehen bleibt (∆wij = 0). Lösungsansätze dazu sind Evolution oder die dynamische Veränderung von Lernrate und Momentum. 2.4. GENERALISIERBARKEIT 2.4 12 Generalisierbarkeit Die meist alles entscheidende Frage beim Netztraining ist die nach der resultierenden Fähigkeit zur Generalisierung. Ein KNN soll aus einer Menge von Trainingsdaten Regelmäßigkeiten erkennen, um dann bei ungesehenen Eingaben ein richtiges Ergebnis erzeugen zu können. Entscheidend für diese Anforderung ist die Wahl der Netzarchitektur und der Datenrepräsentation. Sinnvolle Netzparameter und die Güte der Daten lassen sich zwar ungefähr abschätzen, oft kommt man jedoch um eine empirische Bestimmung nicht herum. Mittels Skalierung sollten die Netzeingaben wenn möglich auf einen Wertebereich von [-1..1] gebracht werden, da in diesem Bereich die SigmoidFunktion noch ein nahezu lineares Verhalten aufweist. Zur Wahl der NeuronenAnzahl seien zwei meist unerwünschte mögliche Netzverhalten erwähnt: Überund Unteranpassung. Zu viele Gewichte führen dazu, dass ein Netz die verwendeten Trainingsbeispiele auswendig“ lernt. In diesem Fall spricht man von Überanpassung. Ausfindig ma” chen lässt sich der Effekt, indem man die zu Verfügung stehenden Datensätze in Trainings- und Test-Daten (die so genannte Validierungs-Menge) aufteilt. Während des Trainings kann zu jeder Lernepoche auch der Fehler auf der Testmenge ermittelt werden. Ein Anstieg deutet auf eine Tendenz zur Überanpassung hin. Das Netztraining kann dann abgebrochen werden. Bei der Unteranpassung existieren zu wenig Neuronen der verborgenen Schicht. Das Netz kann dann den Zufälligkeiten“ der Trainingsmenge nicht mehr folgen. ” 2.5 Rekurrente Netze Eine mächtigere Klasse von neuronalen Netzen entsteht durch Rekurrenz. Bisher betrachteten wir nur zyklenfreie Netze. In rekurrenten Netzen sind zyklische Verbindungen erlaubt. Das Netz kann somit nicht nur mathematische Funktionen darstellen, sondern auch ein dynamisches System mit internen Zuständen bilden. Rekurrente Netze werden normalerweise für eine Folge von Eingabewerten verwendet, das Netz erfährt also eine Taktung. Für jeden Wert der Eingabesequenz erzeugt es sofort eine Ausgabe. Ist man nur an der Ausgabe nach einer größeren Anzahl von abgearbeiteten Eingabewerten interessiert, so sollte nur diese Ausgabe zur Berechnung des Fehlers beim Gradientenabstieg verwendet werden. Für die Aufgabenstellung dieser Arbeit wird jedoch zu jedem Eingabewert eine Ausgabe erwartet. Bei rekurrenten Netzen hängt das Verhalten auf eine Eingabe (im Gegensatz zu vorwärtsgerichteten Netzen) nicht nur von der aktuellen Eingabe, sondern auch 2.5. REKURRENTE NETZE 13 von Aktivierungen der Neuronen im Netz ab. Den einfachsten Fall eines dreischichtigen rekurrenten Netzes zeigt das Beispiel in Abb. 2.6. Die Ausgabe von Knoten 1 wird auch von seiner eigenen Aktivierung des vorhergehenden Zeitschritts beeinflusst. Abbildung 2.6: Minimales rekurrentes dreischichtiges Netz. Der Knoten 1 in der verborgenen Schicht besitzt eine rekurrente Verbindung zu sich selbst. Der im vorletzten Abschnitt vorgestellte Rückpropagierungsalgorithmus muss für die Anwendung auf rekurrente Netze abgewandelt werden. Im Beispiel würde die Berechnung des Fehlersignals (Formel 2.9) nicht terminieren. Eine Möglichkeit der Abwandlung wäre, beim Training die Rückkopplungen einfach zu ignorieren. Erfolgversprechender sind aber die Verfahren BPTT 2 oder RTRL3 oder eine Kombination der beiden. BPTT faltet das Netz nach der Zeit auf (s. Abb. 2.7). Danach kann man die herkömmliche Rückpropagierung anwenden. Gewichte braucht man bei der Entfaltung nicht zu kopieren, sie werden so oft angepasst, wie das Netz bereits entfaltet wurde. Abbildung 2.7: Für BPTT entfaltetes Netz in dritter Generation mit einem Rückpropagierungs-Weg (rot) des aktuellsten Fehlers Bei RTRL erfolgt die Gewichtsadaption auch iterativ, jedoch hängt der Platzbedarf der Berechnung nicht mehr von der Länge der längsten Eingabesequenz ab. RTRL eignet sich für lange Trainingssequenzen und für Online-Lernen4 . 2 backpropagation through time real time recurrent learning 4 Im Gegensatz zum Offline-Lernen wird beim Online-Lernen der für die Gradientenberech3 2.6. LSTM 14 Auf die spezielleren Verfahren zum Lernen mit rekurrenten Netzen wird hier nicht mehr genauer eingegangen. Es gibt diesbezüglich eine Vielzahl ausreichend detaillierter Literatur, worauf im letzten Abschnitt des Kapitels verwiesen wird. 2.6 LSTM In dieser Arbeit verwenden wir hauptsächlich eine spezielle rekurrente Netzarchitektur. 1997 schlugen Jürgen Schmidhuber und Sepp Hochreiter die so genannten Long short-term memory“-Zellen vor. Motiviert war die Architektur durch ein ” bereits altbekanntes Problem bei Langzeit-Anhängigkeiten (engl. long-term dependencies). Daten für die Netzeingabe enthalten Langzeit-Abhängigkeiten, wenn Bereiche in der Eingabe einen großen Einfluss auf Ausgabe-Bereiche haben, die erst nach einem längeren Zeitraum folgen. Die problematische Netzeigenschaft ist die des exponentiell abklingenden Fehlersignals beim Training mit einem Gradientanabstiegsverfahren. Bevor wir auf die Architektur von LSTM -Zellen eingehen, wird das Problem des exponentiell abklingenden Fehlers am Beispiel von Abb. 2.7 demonstriert. Zunächst erweitern wir die Funktion des Fehlersignals von Formel 2.9 unter Berücksichtigung der Taktung: 0 f (neti (t))(d falls i ∈ Ausgabeschicht Pi (t) − ai (t)) (2.11) δi (t) = 0 f (neti (t)) k δk (t + 1)wki sonst Bei den Fehlersignalen und Eingangssummen formalisieren wir die jeweiligen Knoten als Indizes und die Zeit als Funktionsparameter. In Bezug auf Abb. 2.7 bezeichnet also beispielsweise net1 (2) die Eingangssumme von Knoten 1 zum Zeitpunkt t = 2. Es soll veranschaulicht werden, wie stark sich der Fehler e(2) = d(2) − a(2) am Ausgabeknoten 2 zum Zeitpunkt t = 2, bei der durch die roten Pfeile beschriebenen Rückpropagierung bis zum Knoten 1 zur Zeit t = 0 zwangsläufig abschwächt. Wir berechnen dazu das Fehlersignal δ1 (0). Zur Vereinfachung werden δ2 (1) und alle Fehlersignale zum Zeitpunkt t > 2 als Null angenommen. Es gilt: δ1 (0) = f 0 (net1 (0))(δ1 (1)w11 + δ2 (1)w21 ) δ1 (1) = f 0 (net1 (1))(δ1 (2)w11 + δ2 (2)w21 ) δ1 (2) = f 0 (net1 (2))(δ1 (3)w11 + δ2 (3)w21 ) δ2 (2) = f 0 (net2 (2))e(2) nung verwendete Fehler nicht nach der Eingabe einer ganzen Trainingssequenz, sondern nach jedem einzelnen Eingabewert ermittelt. Bei Trainingssequenzen mit unbegrenzter Länge muss ein Online-Verfahren verwendet werden. 2.6. LSTM 15 Laut Annahme gilt: δ2 (1) = δ1 (3) = δ2 (3) = 0 ⇒ δ1 (0) = f 0 (net1 (0))f 0 (net1 (1))f 0 (net2 (2))w11 w21 e(2) Verwendet man als Aktivierungsfunktion die Sigmoid-Funktion (f 0 (x) ≤ 0.25), lässt sich das betrachtete Fehlersignal folgendermaßen abschätzen: δ1 (0) ≤ 0.253 w11 w21 e(2) Schon beim Rückpropagieren um nur zwei Zeitschritte wird die Änderung des Einflusses der Eingabe verschwindend gering. Analog würde der Einfluss einer um n Zeitschritte zurückliegenden Eingabe bei f 0 zu einem Exponenten von n + 1 führen. Bleiben alle betroffenen Gewichte im Betrag kleiner als 4.0, lässt sich mittels Induktionsbeweis allgemein zeigen, dass das Erlernen eines Zurückblickens“ ” exponentiell mit der Anzahl der Zeitschritte erschwert wird. Diese Einschränkung durch den exponentiellen Fehlerrückfluss gilt es nun zu umgehen. In der LSTM-Architektur wird ein konstanter Fehlerrückfluss mithilfe des so genannten konstanten Fehlerkarussells“ (CEC ) erreicht. Dieses besteht aus einem ” Knoten mit linearer Aktivierungsfunktion und einer rekurrenten 1.0-Verbindung auf sich selbst. Die Aktivierung des CEC wird als Zustand der LSTM-Zelle bezeichnet. Für ein CEC i gilt: fi (neti ) = neti → fi0 (neti ) = 1 wii = 1.0 (2.12) Abbildung 2.8: Konstanter Fehlerrückfluss durch das CEC, dargestellt an einem über drei Zeitschritte entfalteten Beispiel-Netz 2.6. LSTM 16 In Abb. 2.8 wird das im vorigen Abschnitt beschriebene Beispiel von Abb. 2.6 um ein eingeschobenes CEC erweitert. Bei der zeitlichen Entfaltung wird deutlich, dass der Fehler nun ungedämpft durch die linearen CEC-Knoten zurückfließen kann. Dieser naive Ansatz des konstanten Fehlerrückflusses birgt jedoch Probleme in sich: manche Eingaben der Vergangenheit sollen zwar möglicherweise einen großen Einfluss auf die Ausgabe haben, Eingaben zu anderen Zeitpunkten jedoch nicht. In solchen Fällen entsteht am CEC ein Eingangsgewichts-Konflikt. Analog ergibt sich für die Gewichte hinter dem CEC ein AusgangsgewichtsKonflikt. Dabei soll der im CEC gespeicherte Wert die Ausgabe beeinflussen, muss jedoch hin und wieder auch davon abgehalten werden. LSTM-Zellen lösen dieses Problem durch multiplikative Tore (engl. gate units), welche den Ein- und Ausgang des CEC für Datenpropagierung und Fehlerrückpropagierung sperren, bzw. öffnen können. Liefert beispielsweise das Eingangs-Tor eine Null, ändert sich der Zustand der Zelle nicht. Abbildung 2.9: Grundlegende Architektur einer LSTM-Zelle. Mögliche Eingaben und die Ausgabe des CEC werden durch die beiden Tore Input-Gate“ und Output-Gate“ ” ” kontrolliert. Abb. 2.9 zeigt vereinfacht das Prinzip einer LSTM-Zelle. Zentraler Kern ist das lineare konstante Fehlerkarussell (rot), dessen Aktivierung den Zellen-Zustand darstellt. Das Input-Gate (grün, links) soll über die multiplikative Verschaltung (blauer Schnittpunkt) entscheiden, ob die an der Zelle anliegende Eingabe ins CEC dringen darf oder nicht. Analog soll das Output-Gate (grün, rechts) entscheiden, ob der derzeitig gespeicherte Zustand die Zelle verlassen darf oder nicht. Die Aktivierungen der beiden Tore werden wieder mittels Sigmoid-Funktion über der Summe der anliegenden Eingänge berechnet. Die Zellen-Eingänge (links) werden ebenfalls aufsummiert und vor der Multiplikation mit der Input-Gate-Aktivierung durch eine differenzierbare Funktion geglättet5 . In der ursprünglichen LSTMBeschreibung [29] wird auch der Zellen-Ausgang nochmals durch eine differenzier5 bzw. gequetscht (engl. squashed) 2.6. LSTM 17 bare Funktion skaliert. Da dies jedoch in nachfolgenden empirischen Versuchen meist keinen Vorteil brachte, wird in obiger Darstellung darauf verzichtet. LSTM-Zellen lassen sich zu Blöcken gruppieren. Blöcke teilen sich die Tore. Das spart Platz und erhöht die Speicherfähigkeit des Netzes. Einheiten außerhalb eines LSTM-Blocks können herkömmliche Neuronen-Knoten oder weitere LSTMBlöcke sein. Benötigt werden genügend Einheiten, um für ein gegebenes Problem ein korrektes Öffnen und Schließen der Input- bzw. Output-Gates erlernen zu können. Im Folgenden werden Forget-Gates und Guckloch-Verbindungen beschrieben. Diese Erweiterungen der LSTM-Zellen verwenden wir auch bei den Experimenten in Kapitel 5. Bei manchen Problemen erscheint es sinnvoll, den Zustand der Zelle (also die Aktivierung des CEC) hin und wieder zurückzusetzen (beispielsweise bei sehr langen Eingabefolgen mit voneinander trennbaren Teilsequenzen). Andernfalls neigt dieser dazu unbeschränkt anzuwachsen, was bei Netzen mit sigmoiden Aktivierungsfunktionen schnell zu einer Übersättigung führt. Um einer Zelle das gelegentliche Zurücksetzen seines Zustands zu ermöglichen, wird die rekurrente 1.0-Verbindung des CEC durch ein zusätzliches multiplikatives Tor kontrolliert, dem so genannten Forget-Gate. Das Forget-Gate soll lernen, den Zellenzustand im richtigen Moment zurückzusetzen, bzw. zu skalieren. Bei geschlossenem Output-Gate hat der Zustand einer Zelle keinen Einfluss auf ihre Tore. Dass die Tore auch den aktuellen Zustand der Zelle, die sie kontrollieren, als Eingabe bekommen, ist manchmal jedoch von Vorteil. Deshalb wird die LSTM-Zelle um so genannte Guckloch-Verbindungen (engl. peephole connections) erweitert. Am CEC wird dazu der aktuelle Zustand der Zelle abgenommen und den Toren als zusätzliche Eingabe zugeführt. Bei der Propagierung des Datenstroms muss man dann nur darauf achten, dass die Aktivierungen von Inputund Forget-Gates und der Zell-Zustand vor den Aktivierungen des Output-Gates berechnet werden. Abb. 2.10 zeigt eine durch Forget-Gate und Guckloch-Verbindungen erweiterte LSTM-Zelle. In Anhang C ist ein Beispiel aufgeführt, das den gravierenden Vorteil von LSTMNetzen gegenüber herkömmlichen rekurrenten Netzen zeigt. Mit zwei Blöcken und jeweils zwei Zellen kann das Netz die kontextsensitive Grammatik an bn cn nach einem Training mit nur zehn Trainingsbeispielen korrekt generalisieren. Ausführlichere Versuche zum Lernen von an bn cn haben ergeben, dass LSTM-Netze bis zu einem n von 500 generalisierungsfähig bleiben können. Herkömmliche rekurrente Netze scheitern schon bei einem n von 10, egal, wie viele Neuronen verwendet werden. 2.7. LITERATUR 18 Abbildung 2.10: LSTM-Zelle mit Erweiterungen. Das Forget-Gate“ reguliert ein ” mögliches Zurücksetzen des Zustands im CEC. Alle drei Tore (grüne Knoten) erhalten über Guckloch-Verbindungen“ auch den aktuellen Zell-Zustand als Eingabe. ” In den Experimenten dieser Arbeit verwenden wir eine von Alex Graves programmierte Bibliothek. Diese implementiert LSTM bereits mit Forget-Gates und Guckloch-Verbindungen. Für Vergleiche zu herkömmlichen rekurrenten Netzen lässt sich die Netzarchitektur problemlos umstellen. Eine kurze Beschreibung und Auflistung der wichtigsten Funktionen befindet sich im Anhang D. 2.7 Literatur Da sich das Forschungsfeld neuronale Netze seit drei Jahrzehnten großer Beliebtheit erfreut, gibt es mittlerweile eine Vielzahl von wissenschaftlichen Arbeiten und Büchern, welche grundlegende Themen wie das Neuronenmodell oder das Gradientenabstiegsverfahren der Rückpropagierung behandeln. Einen kurzen Überblick gibt [2], etwas ausführlicher sind [30], [11], [13] oder [12]. Eine Beschreibung der rekurrenten Lernverfahren BPTT und RTRL findet sich beispielsweise in [18]. Verbesserungen der Algorithmen werden in [24] und [17] vorgeschlagen. Den Induktionsbeweis zum exponentiellen Fehlerrückfluss kann man in [15] nachlesen. Zur ursprünglichen LSTM-Architektur sei auf [29] verwiesen, zur Erweiterung mit Forget-Gates auf [20] und zu den Guckloch-Verbindungen auf [26] und [28]. Das erwähnte an bn cn -Beispiel wird in [27] genauer als im Anhang beschrieben. Ein Problemlösungsansatz mit LSTM und evolutionärem Aspekt wird in [21] vorgestellt. Kapitel 3 Datenrepräsentation Für den in Kapitel 1 beschriebenen Ansatz wird für die Klavier-Aufnahmen eine geeignete digitale und möglichst aussagekräftige Darstellung benötigt. Diese Darstellung muss verschiedene Anforderungen erfüllen, welche in diesem Kapitel kurz dargelegt werden. Außerdem wird das Dateiformat Standard MIDI (musical instrument digital interface) und die Extraktion der relevanten Daten beschrieben. Dazu erarbeiten wir eigene Datenformate, welche später nach entsprechender Skalierung als Netzein- und ausgabe verwendet werden sollen. Zusätzlich wird eine auch für Nicht-Musiker verständliche Visualisierung von Musikstücken vorgestellt sowie mögliche Schwächen der gewählten Datenrepräsentation diskutiert. 3.1 Anforderungen Die gewählte Datenrepräsentation des Notentextes und der Musikaufnahmen sollte sequenzorientiert und von uneingeschränkter Länge sein. Zeitunterschiede sollen mit einer Genauigkeit im Millisekundenbereich dargestellt werden. Bei der Lautstärkenmessung liefern praktisch alle Eingabegeräte den im MIDI-Standard üblichen 7-Bit-Wertebereich von [0..127]. Die ausgewählten Chopin-Walzer benötigen einen Tonumfang von ca. sechs Oktaven, also 72 verschiedenen Tönen. In der Datenrepräsentation sollen außerdem Ereignisse der linken und rechten Hand sowie des Fußpedals separierbar sein. Als einzige Rhythmusinformation müssen Ereignisse, die im Notentext auf den ersten Schlag fallen1 gekennzeichnet werden können. 1 Damit sind Noten- oder Fußpedal-Ereignisse gemeint, die bei Betrachtung des Notentextes direkt nach einem Taktstrich kommen, also ohne eine Pause oder andere Ereignisse dazwischen. Bei Walzern beispielsweise werden solche Noten der linken Hand meist betont. 19 3.2. DAS MIDI-DATEIFORMAT 20 Die Zusatzinformationen für linke/rechte Hand und ob Ereignisse auf den ersten Schlag fallen, sollen es dem Netz später ermöglichen, schneller und besser gewisse Gesetzmäßigkeiten zu erlernen. Auch für den Pianisten wird der Notentext in linke und rechte Hand unterteilt2 . Die linke Hand ist meist für die in Walzern typische Begleitung verantwortlich und zeigt ein spezielles Spielverhalten. Durch ein Abrollen der Hand werden beispielsweise die Töne von Dreiklängen zeitlich verschoben angeschlagen. Einzelne Töne der linken Hand schlägt der Pianist meist nur sehr kurz an und lässt sie dann mithilfe des Fußpedals klingen. Solche typischen Spieleigenschaften werden unter 4.2.4 ( Musikalische Analyse“) ” genauer untersucht. Ein gewisser Schwung in der Spielweise kann nur erreicht werden, wenn der Interpret weiß, welche Noten auf einen Rhythmus-Schlag fallen. Im Notentext wird dies durch Taktstriche deutlich. Bei MIDI-Dateien erhält man diese Information aus der Tempoangabe und mittels Modulo-Division der zeitlichen Position des Ereignisses durch die Taktlänge. Diese Berechnung kann man dem Netz ersparen, indem man vorweg die betroffenen Ereignisse markiert. Bei MIDI-Dateien im richtigen Timing lässt sich das natürlich automatisieren. Alle Werte der Datenrepräsentation sollten in Bezug auf ein späteres Netztraining für einen sinnvollen Wertebereich linear skalierbar bleiben. 3.2 Das MIDI-Dateiformat Die 1982 vorgeschlagene MIDI-Spezifikation wurde zwar im Laufe der Jahre immer wieder erweitert, ist aber bis heute ein etablierter Standard bei praktisch allen digitalen Musikinstrumenten. Die aktuellste MIDI 1.0“-Version (derzeit ” 96.1.2 von 2001) ist auf den Seiten der MMA3 [8] erhältlich. Die Spezifikation behandelt auch den Aufbau der Standard MIDI Files (SMF), welche nun genauer untersucht werden. MIDI-Dateien beginnen mit einem so genannten Header-Chunk, dem sich ein oder mehrere so genannte Track-Chunks anschließen. Das Dateiformat ist byteweise und die Bytes mit dem höchstwertigen Bit zuerst zu interpretieren. Parameter mit mehr als einem Byte werden in Big-Endian-Reihenfolge4 abgespeichert. Der Header-Chunk enthält Parameter, die die komplette MIDI-Datei betreffen, 2 Der Musiker würde hier vermutlich einhaken, da die beiden Zeilen des Notentextes nicht immer unbedingt mit linker und rechter Hand gespielt werden, bei allen aufgenommenen Walzern war dies jedoch der Fall, daher wollen wir es bei der Beschriftung linke und rechte Hand belassen. 3 MIDI manufacturers association 4 Das höherwertige Byte kommt zuerst. 3.2. DAS MIDI-DATEIFORMAT 21 unter anderem den MIDI-Typ, die Anzahl der Spuren und das Zeitformat. Gültige MIDI-Typen sind: • Typ 0: eine einzelne Spur • Typ 1: mehrere Spuren (z.B. für mehrstimmige Musikstücke) • Typ 2: mehrere separate Abschnitte eines Musikstücks hintereinander Spuren beinhalten Datenströme, die bei der Wiedergabe des Musikstücks parallel abgespielt werden. So lassen sich beispielsweise einzelne Instrumente übersichtlich klassifizieren. Für unsere Zwecke verwenden wir ausschließlich MIDI-Dateien vom Typ 1. Wir beschränken uns auf drei Spuren (für linke/rechte Hand und Fußpedal). In einem Zeitformat-Parameter werden die Ticks der internen Zeitrechnung pro Viertelnote bestimmt5 . Bei 500 Ticks pro Viertelnote und dem Standardtempo von 120 bpm (beats per minute) besitzen MIDI-Dateien genau eine Auflösung von einer Millisekunde. Einzelne Spuren werden in der MIDI-Datei durch die Track-Chunks beschrieben. Diese enthalten in ihrem Datenbereich kanalbezogene und systembezogene Ereignisse. Ereignisse sind beispielsweise zu spielende Noten oder Tempowechsel. Jedem Ereignis wird eine Deltazeit vorangestellt, welche die Zeit bestimmt, die ab dem vorhergehenden Ereignis verstreichen muss, bevor es in Kraft tritt. Bytes im Datenbereich enthalten sieben Datenbits. Das höchstwertige Bit wird nur als Flag benutzt. Ereigniscodes beginnen immer mit einem gesetztem höchstwertigem Bit. Die Deltazeit besitzt eine variable Länge. Das höchstwertigste Bit gibt dabei an, ob weitere Deltazeit-Bytes folgen. In diesem Fall ist das Bit gesetzt. Laut MIDI 1.0“-Spezifikation existieren 16 MIDI-Kanäle. Diese werden in der ” Regel dazu verwendet, verschiedene Instrumente anzusteuern. Da in der vorliegenden Arbeit nur Stücke für ein Klavier behandelt werden, genügt ein einzelner MIDI-Kanal. Hierbei bietet sich Kanal 0 an, welcher laut der seit 1991 üblichen General MIDI“-Norm mit einem natürlichen Klavier belegt ist. ” Der Byte-Code für kanalbezogene Ereignisse wird aufgeteilt in zweimal vier Bits. Die höherwertigen Bits bestimmen das Ereignis, die niederwertigen Bits den Kanal. Eine tabellarische Darstellung von Header-Chunk, Track-Chunks und der möglichen Ereignisse des Datenbereichs findet sich im Anhang A. Noten und andere Ereignisse besitzen im MIDI-Format keine direkte Information über ihre jeweilige Länge. Die Notenlänge wird durch die verstrichene Zeit vom Note-An“-Ereignis bis zum Note-Aus“-Ereignis der jeweiligen Tonhöhe ” ” bestimmt, dazu müssen die einzelnen dazwischenliegenden Deltazeiten aufsummiert werden. Der Ausschnitt in Abb. 3.1 zeigt einen typischen Track-Chunk5 Jedoch nur, falls das oberste Bit auf 0 gesetzt ist, ansonsten handelt es sich um einen hauptsächlich in der Videotechnik verwendeten Zeitstempel. 3.3. ENTWICKLUNG EINES EIGENEN EREIGNISLISTEN-FORMATS 22 Datenbereich. Hierbei handelt es sich um einen kurzen Ton, gefolgt von einer Pause und zwei weiteren Tönen. Die vorweg schon erwähnte variable Deltazeit lässt sich bei der zwei Bytes benötigenden Pause (zu Beginn der zweiten Datenzeile) erkennen6 . !"# ! $ " ! $ % !"# ! $ Abbildung 3.1: Auszug aus einem Track-Chunk-Datenblock. Drei Töne (C3, D3 und E3) mit Pausen dazwischen (1000 ms und 100 ms). Der erste Ton (C3) klingt 100 ms und wird dann gestoppt. Die Zeiten gelten unter der Annahme eines globalen Zeitformats von 500 Ticks pro Viertelnote und einem Tempo von 120 bpm. 3.3 Entwicklung eines eigenen EreignislistenFormats Die Codierung der Noten- und Fußpedal-Ereignisse in einer MIDI-Datei ist für das spätere Netztraining ungeeignet, weil bei der Entwicklung des Formats hauptsächlich auf Komprimierung, Portierbarkeit oder Erweiterbarkeit geachtet wurde. Außerdem enthalten MIDI-Dateien eine Vielzahl von Informationen, die für unsere Zwecke nicht benötigt werden und herausgefiltert werden können. Beispielsweise lassen MIDI-Dateien ein Ereignis zur Tempoänderung zu. Tempoänderungen können auf ein Einheitstempo umgerechnet werden, indem die ab der Änderung betroffenen Zeiten entsprechend skaliert werden. Es erscheint sinnvoll, eine eigene Darstellung der Musikdaten zu verwenden, welche die zu Beginn des Kapitels beschriebenen Anforderungen erfüllt und sich für das Netztraining eignet. Wie bereits im Kapitel 1 erwähnt, soll das Format möglichst uneingeschränkt bleiben. Zum Konvertieren von MIDI-Dateien in das eigene Format muss ein entsprechendes Hilfsprogramm implementiert werden. Das eigene Format nennen wir EVL (Eventlist). Es setzt sich wie bei MIDI aus 6 Für die hier dargestellte Deltazeit gilt: (0x87-0x80)*0x80+0x68=0x3E8=1000 [ms] 3.3. ENTWICKLUNG EINES EIGENEN EREIGNISLISTEN-FORMATS 23 einer Sequenz von Ereignissen zusammen, lässt jedoch keine parallelen Datenströme mehr zu. Ein EVL-Ereignis wird durch sechs Parameter bestimmt: Parameter Ereignistyp Länge Deltazeit Notenwert Lautstärke is first beat event“ ” Beschreibung einer von drei derzeit möglichen Typen Länge des Ereignisses in Ticks Zeit die verstreichen muss, bis das Ereignis eintritt Tonhöhe (Falls es sich um ein Noten-Ereignis handelt) Anschlagstärke des Tons (falls es sich um ein NotenEreignis handelt) Flag, das beschreibt, ob das Ereignis auf dem ersten Schlag liegt Wir legen uns auf drei mögliche Ereignistypen fest: • Typ 0: Fußpedal • Typ 1: Note der linken Hand • Typ 2: Note der rechten Hand Anders als bei MIDI-Dateien soll für ein Ereignis auch dessen Länge angegeben werden. Das erleichtert das Netztraining, wenn beispielsweise erlernt werden soll, eine Melodie abgehackter, also mit kürzeren Notenlängen zu spielen. Das Zeitsystem der Deltazeiten wird von MIDI übernommen. Die Deltazeit eines Ereignisses legt also die zu verstreichende Zeit fest, bis das Ereignis eintritt. Sollen mehrere Ereignisse simultan stattfinden, wird eine Deltazeit von Null verwendet. Längen und Deltazeiten erhalten im EVL-Format einen 16 Bit Platzhalter und stellen Millisekunden dar. Töne oder Pausen länger als 65.535 ms sind also nicht zulässig, kommen aber in normalen Musikstücken ohnehin nicht vor. Für Notenereignisse wird der jeweilige Notenwert und die Lautstärke mit einem Wertebereich von [0..127] angegeben. Der Boolean-Platzhalter is first beat event“ bestimmt, ” ob das Ereignis auf den ersten Schlag eines Taktes fällt oder nicht. Eine Verwendung globaler Ereignispositionen anstatt Deltazeiten mag auf den ersten Blick von Vorteil sein, dadurch bekommen Ausschnitte der Musiksequenzen jedoch eine meist ungewollte Abhängigkeit von deren Position. Zwei Fragmente mit exakt derselben Melodie an verschiedenen globalen Positionen besitzen im Deltazeit-Modell dieselbe Darstellung, was im Modell mit globalen Ereignispositionen nicht der Fall ist. Dies vereinfacht die Trainingsdaten entscheidend. Für die Konvertierung zwischen MIDI- und EVL-Dateien wurden die Hilfsprogramme mid2evl und evl2mid entwickelt. Die jeweiligen C-Quelltexte lassen sich unter commands“ bei [3] einsehen. ” Aufgrund der Einfachheit von EVL-Dateien können sie nach einer kleinen Um- 3.3. ENTWICKLUNG EINES EIGENEN EREIGNISLISTEN-FORMATS 24 formung leicht mit dem Funktionenplotter Gnuplot visualisiert werden. Das Beispiel in Abb. 3.2 zeigt die so genannte Matrix-Darstellung eines Ausschnitts des Chopin-Walzers Opus posth. 69 Nr. 1. Die unterschiedlichen Tonhöhen sind entlang der y-Achse ablesbar. Längen und Positionen der als horizontale Balken dargestellten Noten werden entlang der x-Achse deutlich. Zusätzlich können unterhalb noch Fußpedal-Ereignisse (wie im Beispiel) oder die Lautstärken der jeweiligen Noten dargestellt werden. Das Gnuplot-Script7 zur Visualisierung von EVL-Dateien ist im Anhang B abgedruckt. Ausschnitt aus melody02 C6 C5 C4 C3 C2 C1 Fußpedal 0 2 4 6 8 10 Zeit [sec] Abbildung 3.2: Einfache Visualisierung mithilfe eines Gnuplot-Scripts. Einzelne Töne werden als Balken (blau) dargestellt. Die Balkenbreite entspricht der Tonlänge. An der vertikalen Position lässt sich die Tonhöhe ablesen. Die horizontale Position beschreibt, wann der Ton gespielt wird. Fußpedalereignisse können als Blöcke (gelb) eingetragen werden. EVL bestimmt das in Abb. 1.2 dargestellte Zwischenformat. Aus den EVLDateien für Notentext und Interpretation eines Musikstücks lassen sich die für die Interpretation relevanten Informationen filtern. Redundante Daten können dabei vernachlässigt werden. Die beiden Versionen unterscheiden sich nur in den drei Parametern Ereignislänge, Deltazeit und Lautstärke. Die jeweiligen Änderungen werden durch Subtraktion festgehalten. Aus einem EVL-Paar für ein Musikstück berechnen wir demnach für jedes Ereignis die Differenzen der Längen, Deltazeiten und Lautstärken. Die Tripel werden 7 Verwendet wurde die Gnuplot-Version 4.0. 3.3. ENTWICKLUNG EINES EIGENEN EREIGNISLISTEN-FORMATS 25 in einer neuen Sequenz abgelegt und können als EDL-Dateien (event differences list) abgespeichert werden. Es gilt: Interpretation.evl − Notentext.evl = Unterschiede.edl Verfügt man also über die EVL-Darstellung des Notentextes und die passende EDL-Sequenz, so lässt sich daraus durch Aufaddieren die Interpretation berechnen. Diese lässt sich dann natürlich auch wieder zu einer abspielbaren MIDI-Datei umwandeln. Bei der Berechnung der EDL-Sequenzen wird nochmals deutlich, warum Deltazeiten den globalen Ereignispositionen vorzuziehen sind. Differenzen der globalen Zeiten würden ihre Aussagekraft mehr und mehr verlieren. Ist beispielsweise die Version in Interpretation.evl langsamer, würde dies in der EDL-Sequenz zu einem immer weiter wachsenden Faktor führen8 . Abb. 3.3 soll unseren Ansatz nochmals beispielhaft an einem kurzen Ausschnitt verdeutlichen. Dieser besteht aus einem Fußpedal-Ereignis (Typ 0) und Notenereignissen der linken (Typ 2) und rechten Hand (Typ 1). Die Werte der Längen (len), Deltazeiten (dt) und Lautstärken (vol) werden subtrahiert. Abbildung 3.3: Beispiel zur Berechnung einer EDL-Datei. Jede Datenzeile entspricht einem Ereignis. Stimmen die Ereignisse von Interpretation und Notentext überein (erkennbar an type und val), werden zur Berechnung der Unterschiede einfach die jeweiligen Deltazeiten (dt), Längen (len) und Lautstärken (vol) subtrahiert. 8 Wie in Kapitel 2 bereits erwähnt, sind kontinuierlich wachsende Zustände, bzw. Aktivierungen wegen der Gefahr der Übersättigung ungeeignet. 3.4. GRENZEN DES EVL-FORMATS 26 Andere Tonhöhen (val)9 , oder eine vom Notentext abweichende Anzahl der Noten sind bei der Interpretation nicht zulässig. Bei der Berechnung der EDL-Datei wird die Interpretation in der Ereignisreihenfolge des Notentextes, beginnend mit dem ersten Ereignis geparst. Stimmen Ereignistyp und Tonhöhe überein, wird von zwei äquivalenten Ereignissen ausgegangen und deren Differenzen berechnet. Weist die EVL-Sequenz der Interpretation eine andere Ereignis-Reihenfolge auf, muss sie nachträglich an den Notentext angeglichen werden. Dies wird am Beispiel in Abb. 3.4 mit drei verschiedenen Noten-Ereignissen gezeigt. Die Angleichung ist aus Gründen der Eindeutigkeit nötig, da sich EDL-Dateien immer auf die Reihenfolge des Notentextes beziehen und keine vollständige Information für die Zuordnung von Ereignissen besitzen. Abbildung 3.4: Angleichen der Ereignis-Reihenfolge an den Notentext. Die TonReihenfolgen der Ereignislisten-Darstellung von Notentext (1, 2, 3) und Interpretation (3, 1, 2) stimmen nicht mehr überein. Daher wird sie bei der Interpretation angeglichen. Die Werte der Deltazeiten verteilen sich neu. 3.4 Grenzen des EVL-Formats Das EVL-Format erfüllt alle zu Beginn des Kapitels beschriebenen Anforderungen. Zudem wäre eine Erweiterung auf andere Musikrichtungen durch die Einführung anderer Ereignistypen problemlos möglich. Es gibt jedoch natürlich auch Probleme bei der Datenrepräsentation mit EVL, welche nachfolgend kurz skizziert werden. Ein Kritikpunkt ist die Unzulässigkeit anderer Töne in der Interpretation. Fügt der Pianist in seiner Ausführung Noten hinzu (z.B. bei Verzierungen) oder lässt sie aus, müssen betroffene Ereignisse aufwändig von Hand ausgeschlossen oder die Notentext-Version angepasst werden. Eine übliche Partitur enthält mehr Informationen als nur Noten und Fußpedale. Hinweise zu Dynamik und Tempowechseln sind nicht leicht umzusetzen. Noten 9 val=60 entspricht dem Ton C2 (eingestrichenes C mit 261,5 Hz). 3.4. GRENZEN DES EVL-FORMATS 27 in einem Bereich mit spezieller Dynamik-Kennzeichnung könnten zwar in der EVL-Datei mit einem entsprechenden Lautstärken-Wert versehen werden (z.B. in 20er-Stufen von pianissimo“ mit 40 bis fortissimo“ mit 120), dies erfordert ” ” jedoch zusätzliche Handarbeit. Deshalb werden die Eingangsdaten in unseren Experimenten globale Lautstärke und globales Tempo besitzen. Hinweise im Notentext wie con espressione“ (mit Ausdruck spielen) müssen ver” nachlässigt werden, obwohl sie ein guter Pianist sicherlich in seine Interpretation mit einfließen lässt. Manche MIDI-Geräte messen bei Fußpedal-Ereignissen noch die Stärke, mit der das Pedal gedrückt wird. Dies führt jedoch zu einer Flut von Daten und wird im EVL-Format nicht berücksichtigt. Das Deltazeiten-Modell birgt auch ein kleines Risiko: da sich die Deltazeiten immer auf das Vorgängerereignis beziehen, führt eine kleine Änderung (z.B. eine eingeschobene Note) oft zu einer völlig anderen Deltazeit des jeweiligen Ereignisses. Dieses Problem wird auch später unter 5.5 genauer beschrieben. Ein großer Vorteil des EVL-Formats ist seine Einfachheit. Es ist trotzdem sehr uneingeschränkt und lässt sich leicht von und zu MIDI-Dateien konvertieren. Der Ansatz mit EVL verlangt keine vorangehende harmonische Analyse des Musikstücks. Kapitel 4 Datenbeschaffung Ziel der Datenbeschaffung soll es sein, möglichst effektiv geeignete EVL/EDLPaare zu generieren. Zuerst zeigt das Kapitel, wie sich EVL-Daten von Hand erzeugen lassen. Der zweite Abschnitt behandelt mögliche Ansätze, wie man an die komplexeren Daten von Klavier-Interpretationen gelangen kann. Zudem wird die Vorgehensweise der im Rahmen dieser Arbeit durchgeführten Aufzeichnungen dokumentiert und die resultierenden Daten kurz analysiert. Im dritten Abschnitt des Kapitels wird beschrieben, welche weiteren Schritte nötig waren, um die Aufnahmen für ein Netztraining verwendbar zu machen. 4.1 Von Hand erstellte Daten In späteren Grundlagen-Experimenten wollen wir unter anderem Tests mit einfachen Melodien durchführen. Hierfür werden zwei Versionen der Melodien benötigt: das Original und eine modifizierte Variante mit den zu erlernenden Eigenschaften. Beide Versionen lassen sich bequem mit einer Sequenzer-Software erstellen und als MIDI-Dateien exportieren. Diese werden dann, wie in Kapitel 3 beschrieben, in ein EVL/EDL-Paar umgewandelt. Wichtig beim Editieren ist ein musikalisches Grundverständnis. Anforderungen an das Sequenzer-Programm sind die Exportierbarkeit zu MIDI-Dateien vom Typ-1 und die Möglichkeit, alle Töne beliebig zu platzieren. Hierfür bietet sich ein Matrix-Editor an. Eine optionale Notenblatt-Ansicht vereinfacht den Vorgang meist. Praktisch wäre zudem die Möglichkeit, ein MIDI-Keyboard als Eingabeinstrument zu verwenden. Es existiert mittlerweile eine Vielzahl von Programmen1 , 1 Eine allgemeine Übersicht gibt es unter [1]. 28 4.2. KLAVIERAUFNAHMEN 29 Abbildung 4.1: Der Sequenzer Logic Fun für Windows mit Matrix-Editor-Ansicht welche die erwähnten Anforderungen erfüllen. Neben Freeware-Sequenzern wie z.B. AudioMaster von Quartz oder dem Open-Source-Sequenzer Jazz++ sind die derzeit wohl am weitesten verbreiteten professionellen Musik-Programme Steinberg Cubase SX, Pro Tools von Digidesign und Logic Audio von Emagic. Wir verwenden zur Erstellung und Nachbearbeitung von Musikdaten die frei verfügbare Schulversion Emagic Logic Fun 4.72 (s. Abb. 4.1). 4.2 Klavieraufnahmen Für die Aufgabenstellung dieser Diplomarbeit benötigen wir aufwändigere MusikDaten. Ein neuronales Netz soll anhand von Klavieraufnahmen geeigneter Chopin-Walzer lernen. Es stellt sich die Frage, wie man aussagekräftige und für das Training geeignete EVL-Daten dieser Walzer erhalten kann. 2 Die Version stammt aus dem Jahr 2001 und reicht für unsere Zwecke völlig aus. Ein Jahr später wurde Emagic übrigens von Apple aufgekauft, seitdem werden keine kostenlosen Schulversionen mehr angeboten. 4.2. KLAVIERAUFNAHMEN 4.2.1 30 Ansätze Hierfür gibt es verschiedene Ansätze. Im Internet existiert zum Beispiel eine Unmenge von MIDI-Dateien. Auch von Chopin-Walzern ließen sich zahlreiche Dateien finden3 . Die Stücke waren meist jedoch sehr uneinheitlich. Entweder wurden sie von verschiedenen Interpreten und mit verschiedenen Techniken eingespielt oder es handelte sich nur um eine interpretationslose (und damit unbrauchbare) Umsetzung des Notentextes. Es finden sich auch zahlreiche nachbearbeitete Versionen. Dabei wurden einer interpretationslosen Version nachträglich von Hand Tempo-Schwankungen und Dynamik hinzugefügt. Diese nachbearbeiteten Versionen klingen bereits wesentlich humaner“ und werden auch in einem Experiment ” von Kapitel 5 Verwendung finden. Ein anderer Ansatz ist die Extraktion der Spielweise aus bestehenden Audio-CDAufnahmen einzelner Künstler. Dies erweist sich jedoch als äußerst kompliziert. Problematisch ist hauptsächlich die Tatsache, dass mitschwingende Obertöne nur schwer von tatsächlich gespielten Tönen unterschieden werden können. Selbst die fortschrittlichsten derzeit verfügbaren Verfahren der polyphonen Ton-Erkennung haben noch mit einer Fehlerrate von 36%4 zu kämpfen (siehe auch [16], S. 40f). Eigene Versuche mit den Programmen AmazingMIDI, intelliScore Polyphonic und museBook Wav2Midi konnten auch keine zufrieden stellenden Ergebnisse liefern. Der Nachbearbeitungsaufwand der resultierenden MIDI-Daten wäre zu immens. Was jedoch relativ gut funktioniert, ist die automatisierte Erkennung von Temposchwankungen und Gesamtdynamikverlauf. Tobudic und Widmer ([23]) arbeiten zum Beispiel ausschließlich mit diesen Daten. Informationen über die Anschlagstärken einzelner Töne sowie Tonverzögerungen oder Variationen in der Tonlänge können dabei nicht berücksichtigt werden. Die amerikanische Firma Zenph behauptet zwar, ein Verfahren entwickelt zu haben, um fehlerfrei MIDI-Daten aus bestehenden Audio-Aufnahmen von Klavierstücken reproduzieren zu können, Informationen über die Methodologie werden jedoch nicht gegeben. Auch eine schriftliche Nachfrage blieb leider erfolglos. Man kann daher davon ausgehen, dass mit dem heutigen Stand der Technik eine nahezu fehlerfreie automatisierte Extraktion der exakten Spielweise aus analogen Audio-Aufnahmen nicht möglich ist. Optimal wäre es daher, zusammen mit einem Pianisten die Stücke mit geeigneter Abnahmetechnik neu einzuspielen. Das verlangt deutlich weniger Bearbeitung von Hand als beim Ansatz mit bestehenden Audio-Aufnahmen. Außerdem dürfte der Ansatz im Gegensatz zu MIDI-Dateien aus dem Internet einheitlichere und 3 4 Gute Archive bieten [7] oder das eingeschränkte Portal [10]. bei sechsstimmigen Klängen und einer Blocklänge von 46 ms 4.2. KLAVIERAUFNAHMEN 31 damit für ein Netztraining vermutlich besser geeignete Daten liefern. Da wir im Rahmen der Diplomarbeit auf diesem Weg an die Interpretationen der Walzer gelangen wollen, werden nachfolgend die technischen und musikalischen Voraussetzungen beschrieben. 4.2.2 Voraussetzungen für eine gute MIDI-Aufzeichnung Wichtig für gute MIDI-Aufnahmen sind vor allem zwei Aspekte. Zum einen muss der Pianist die Stücke sehr gut beherrschen, um eine aussagekräftige, vielleicht sogar etwas übertriebene Interpretation einspielen zu können. Je variantenreicher die eingespielten Lieder sind, desto besser dürften sie sich für spätere Analysen und für das Netztraining eignen. Zudem wäre es von Vorteil, wenn der Pianist alle Stücke in einem einheitlichen Stil und auf demselben Eingabe-Instrument spielen würde. Die zweite wichtige Voraussetzung für gute MIDI-Aufnahmen liegt in der verwendeten Technik. Es gibt große qualitative Unterschiede bei MIDI-fähigen Eingabegeräten mit Klaviatur . Wichtig ist, dass die Spieleigenschaft möglichst nahe an einem realen Klavier liegt. Die Messung der verschiedenen Anschlagstärken muss gut geeicht sein und eine möglichst hohe Genauigkeit liefern (wie bereits erwähnt, erlaubt der MIDI-Standard 128 verschiedene Lautstärkenwerte). Prinzipiell lassen sich Eingabegeräte mit Klaviatur und MIDI-Unterstützung grob in drei Klassen unterteilen: • einfache MIDI-Keyboards • Stage-Pianos • Klaviere oder Flügel mit Abnahmetechnik Einfache MIDI-Keyboards besitzen sehr leichte Tasten und bieten oft nur einen eingeschränkten Tonumfang. Die Abnahme der jeweiligen Lautstärken ist sehr ungenau oder lässt keine oder nur sehr wenige Zwischenstufen zu. Meist ist auch nicht einmal der Anschluss eines für unsere Zwecke benötigten Fußpedal-Tasters möglich. Einfache MIDI-Keyboards werden deshalb normalerweise nur von HeimAnwendern oder zur Eingabe von Tonfolgen in Studios verwendet. Ein vernünftiges Eingabegerät für die Klavierstücke sollte mindestens ein StagePiano mit beschwerten Tasten sein. Ohne beschwerte Tasten ist es für den Pianisten kaum möglich, kompliziertere Stücke mit Anschlagdynamik zu spielen. StagePianos sind wegen ihres geringen Platzbedarfs und der Möglichkeit, in Kombination mit einem so genanntem Sythesizer zusätzlich unzählbar viele Klänge zu erzeugen, vor allem bei Live-Konzerten eine beliebte Alternative zu herkömmlichen Klavieren. 4.2. KLAVIERAUFNAHMEN 32 Die wohl am besten geeignete Eingabe ermöglicht ein mit professioneller Abnahmetechnik ausgestatteter herkömmlicher Flügel. Für jede einzelne Taste wird die Anschlagstärke gemessen. Bei der Disklavier-Technik von Yamaha wird beispielsweise die Hammer-Mechanik zu jeder Taste mit zwei optischen Sensoren ausgestattet. Gemessen wird wie in Abb. 4.25 gezeigt unter der Taste (linkes Bild) und am Hammer (rechtes Bild). Der Vorteil optischer Sensoren liegt darin, dass die Tastenbewegung vom Abtastvorgang unbeeinflusst bleibt. Abbildung 4.2: Zweifache Abnahme der Anschlagdynamik im Querschnitt (Grafiken von der Yamaha-Homepage [6]) Im Gegensatz zu den ersten beiden Klassen von Eingabegeräten bleibt bei diesem Verfahren die Tonerzeugung mechanisch. Das macht die Technik besonders attraktiv, da es für einen Pianisten wichtig ist, möglichst unverfälscht zu hören, was er spielt. Die Motivation der Abnahmetechnik von Klavieren und Flügeln ist normalerweise die Möglichkeit, den tatsächlichen Saitenanschlag zu unterbinden und mithilfe eines integrierten oder über MIDI angeschlossenen Sequenzers mit Kopfhörern zu spielen. Auch bei einfachen MIDI-Keyboards und Stage-Pianos erfolgt die Tonerzeugung durch eine elektronische Klangquelle. Diese sollte die Töne mit möglichst geringer Verzögerung (Latenz) generieren. Kurze Latenzzeiten sind für den einspielenden Pianisten aus psychoakustischen Gründen sehr wichtig. 4.2.3 Einspielen der Stücke Die Aufzeichnungen der Chopin-Walzer entstanden hauptsächlich in Zusammenarbeit mit zwei Pianisten. Mitte September spielte Klaus Ritzkowsky von der Musikhochschule München auf einem Korg Stagepiano SP-200 folgende Walzer in voller Länge ein: 5 Grafiken von der Yamaha-Homepage [6] 4.2. KLAVIERAUFNAHMEN 33 • Nr. 7 · Opus 64 Nr. 2 · Brown-Index 164, Cis-Moll, Tempo giusto • Nr. 9b · Opus posth. 69 Nr. 1 · Brown-Index 95, As-Dur, Lento • Nr. 10b · Opus posth. 69 Nr. 2 · Brown-Index 35, H-Moll, Moderato • Nr. 12a · Opus posth. 70 Nr. 2 · Brown-Index 138, F-Moll • Nr. 17 · Brown-Index 150, A-Moll, Allegretto • Nr. 18 · Brown-Index 133, Es-Dur, Sostenuto Die Aufnahmen entstanden relativ spontan. Bei einer kurzen Analyse stellten wir fest, dass vermutlich aussagenkräftigere Daten entstehen könnten, wenn der Pianist die Stücke besser vorbereitet und mit besonderem Schwerpunkt auf eine variantenreiche und ausdrucksstarke Spielweise einspielen würde. Anfang Oktober wurde daher für diese Aufgabe der Pianist Hans-Jörg Paliege beauftragt. Nachdem er sich mit den Stücken vertraut gemacht hatte, spielte er drei Wochen später einzelne Fragmente ausgewählter Walzer mehrmals auf einem Yamaha-Flügel mit Disklavier-Abnahmetechnik ein. Verwendet wurden Fragmente dieser fünf Walzer: • Nr. 9b · Opus posth. 69 Nr. 1 · Brown-Index 95, As-Dur, Lento • Nr. 17 · Brown-Index 150, A-Moll, Allegretto • Nr. 18 · Brown-Index 133, Es-Dur, Sostenuto • Nr. 19 · Brown-Index 46, Es-Dur • Op. 46 Nr. 1, Des-Dur, Molto Vivace Beide Pianisten benutzten als Vorlage Noten aus der Sammlung von Ewald Zimmermann. Die entstandenen Aufnahmen wurden überarbeitet und sind in verschiedenen Formaten bei [3] unter recording sessions“ verfügbar. Während der Überarbeitung ” wurden die einzelnen Noten auch der linken und rechten Hand zugewiesen. Jeweils ein erster Ton eines Taktes wurde zum Messen des Tempoverlaufs oder für das Rückwärtsrechnen eines Pseudo-Notentextes markiert. 4.2. KLAVIERAUFNAHMEN 4.2.4 34 Musikalische Analyse Wie bereits erwähnt, stecken in den Aufnahmen von Klaus Ritzkowsky relativ wenig interpretative Variationen. Die Aufzeichnungen von Hans-Jörg Paliege sind sehr viel virtuoser. Dynamikund Temposchwankungen sind deutlich erkennbar. In Zusammenarbeit mit dem Pianisten wurde nachträglich versucht, Regelmäßigkeiten in den Aufnahmen zu erkennen und zu klassifizieren. Dabei unterteilten wir die gespielten Variationen in vier Klassen: • motorisch bedingte zeitliche Verschiebungen und unterbewusste Umformungen • notenbezogene Anschlagdynamik • Gesamtdynamik • Temposchwankungen Motorisch bedingte zeitliche Unterschiede werden vor allem bei vermeintlich gleichzeitig gespielten Tönen erkennbar. Bei der exemplarischen Untersuchung der Interpretation des Walzers Nr. 19 stellten wir eine Regelmäßigkeit bei mit der linken Hand gespielten Dreiklängen fest. Die Dreiklänge wurden tendenziell fast immer wie in Abb. 4.3 b oder Abb. 4.3 c gespielt. (a) (b) (c) Abbildung 4.3: Beispiel von motorisch bedingten Verschiebungen eines Dreiklangs. (a) Original, (b) Abrollen zur Klaviatur-Mitte, (c) Abrollen nach außen Die verschobene Darstellung lässt sich durch ein Abrollen der linken Hand zur Mitte der Klaviatur oder nach außen deuten. Weiterhin fiel auf, dass einzelne mit der linken Hand gespielte Töne, die laut Notentext länger klingen sollten, in der Interpretation oft sehr kurz angeschlagen wurden. Der längere Klang des Tons wurde dann durch die Nutzung des Fußpedals erreicht. Der Pianist spricht hierbei von einer unterbewussten Überformung durch die Praxis des Klavierspiels“. ” 4.2. KLAVIERAUFNAHMEN 35 Auffälligkeiten in der Anschlagdynamik bezogen auf einzelne Noten waren schwer auszumachen. Bei dem untersuchten Walzer stellten wir jedoch fest, dass höhere Töne etwas stärker angeschlagen wurden. Den Gesamtdynamikverlauf könnte man nochmals in mehrere Ebenen unterteilen. Einzelne Passagen zeigen ein gut erkennbares Steigen und Sinken der Lautstärkenwerte. Man könnte den Dynamikverlauf aber auch auf das komplette Stück beziehen. Die Wiederholung einer Passage zu einem späteren Zeitpunkt des Walzers würde wohl einen ähnlichen Lautstärkenverlauf haben, jedoch möglicherweise insgesamt etwas lauter oder leiser gespielt werden. Temposchwankungen sind schwer zuzuweisen. Dazu muss das Stück in kurze Zeitintervalle bezüglich der Notenlängen unterteilt werden. Zeitschritte von einzelnen Takten sind unter Umständen zu grob. In mühevoller Kleinarbeit wurde an einem achttaktigen Ausschnitt versucht, schrittweise die erwähnten vier Änderungen auf eine vorhandene Version des dazugehörigen Notentextes anzuwenden. Hierzu benutzen wir die Matrix-Darstellung eines Musikprogramms. Diese Anpassung lässt sich leider nicht oder nur sehr schwierig automatisieren, da die einzelnen Änderungen sehr kontextbezogen sind und ein sehr umfangreiches musikalisches Verständnis erfordern. Motiviert war dieses Vorgehen durch die Tatsache, dass die erfassten Töne der Aufnahmen zum Teil stark von der digitalen Version des Notentextes abwichen. Manche Töne wurden ausgelassen oder in einer anderen Tonhöhe angeschlagen. Auch wurden nicht selten zusätzlich Töne gespielt die nicht im Notentext stehen. Mehr dazu im Unterabschnitt 4.3.2 Schwächen der Klavier-Aufnahmen“. ” Abb. 4.4 zeigt den Notentext des Ausschnitts vor und nach der Bearbeitung. In der Ansicht der bearbeiteten Version werden motorische Verschiebungen (Vergrößerungsfenster), Gesamtdynamik und Temposchwankungen deutlich. Die beiden Versionen der acht Takte vor und nach der Bearbeitung sind als Hörbeispiele im Verzeichnis post edited phrase“ unter [3] abgelegt. ” 4.3. BRAUCHBARE DATEN FÜR DAS NETZTRAINING 36 Abbildung 4.4: Annäherung des Notentextes an die Interpretation mithilfe des Matrix-Editors einer Sequenzer-Software. Berücksichtigt wurden motorische Verschiebungen (erkennbar im Fensterausschnitt), Gesamtdynamik und Temposchwankungen. Dynamikvariationen bei einzelnen Tönen wurden auch mit einbezogen, sind jedoch in der Darstellung nur schwer zu erkennen. 4.3 Brauchbare Daten für das Netztraining Nur die Aufnahmen der Chopin-Walzer reichen für ein Netztraining noch nicht aus. Zur Netzeingabe und für die Berechnung der EDL-Dateien wird zu jeder Aufnahme eine digitale Version des dazugehörigen Notentexts benötigt. Die Notenwerte der beiden Versionen müssten dann theoretisch exakt übereinstimmen, was jedoch, wie sich später herausstellte, in der Praxis nicht der Fall war und weitere Nachbearbeitungsschritte erforderte. 4.3. BRAUCHBARE DATEN FÜR DAS NETZTRAINING 37 Neben der automatisierten Erkennung einer eingescannten Partitur behandelt dieser Abschnitt typische Fehler“ 6 , die den Pianisten beim Einspielen unterliefen ” sowie einen Ansatz um aus den Aufnahmen einen Pseudo-Notentext zu errechnen. 4.3.1 Digitalisierung des Notentextes Um eine identische digitale Version des vorgelegten Notentextes zu erhalten, bietet es sich an, diesen einzuscannen und mit einer geeigneten OCR 7 -Software erkennen zu lassen. Als Erkennungssoftware für Musiknoten wurden Harmony Asistant 9.1.7, Music Publisher 5.1 und Neuratron PhotoScore 3.10 getestet. Von den Programmen existierte jeweils eine im Internet frei verfügbare Testversion. Die besten Ergebnisse lieferte Neuratron PhotoScore. Leider schlichen sich aber auch hier einige Erkennungs-Fehler ein. Besonders Zusatzinformationen und Ablaufangaben wurden nicht oder falsch identifiziert. Ein beispielhafter Ausschnitt des gescannten Notentextes ist in Abb. 4.5 zu sehen. Abbildung 4.5: Eingescannte Partitur des Beispielausschnitts Abb. 4.6 zeigt zum Vergleich die Notenblatt-Ansicht nach der Erkennung. Die Oktavierungen (erkennbar an der 8“ in Abb. 4.5) in den Takten 1 und 2 und ” in den Takten 5 und 6 wurden von der OCR-Software ignoriert. Auch die Verzierungen in Takt 10 und sogar eine einzelne Note in Takt 9 blieben unerkannt. Folgt man dem von der Erkennungssoftware registrierten Ablaufschema, so wird 6 7 Mit Fehlern sind Abweichungen vom Notentext gemeint. optical character recognition 4.3. BRAUCHBARE DATEN FÜR DAS NETZTRAINING 38 fälschlicherweise ein Takt eingeschoben, da die Sprunghinweise von Haus 1“ und ” Haus 2“ 8 nicht berücksichtigt wurden. ” Abbildung 4.6: Beispielausschnitt nach der Notentext-Erkennung mit Neuratron PhotoScore. Die Oktavierungen, Verzierungen und Sprunghinweise wurden nicht oder nicht korrekt erkannt. Den kompletten Notentext muss man deshalb zur Fehlerbeseitigung von Hand durcharbeiten. Wie unter 3.3 beschrieben enthalten Ereignisse im EVL-Format ein Flag, welches angibt, ob es sich um ein Ereignis auf dem ersten Schlag 9 handelt. Bei der Konvertierung des Notentextes mit mid2evl kann dieses Flag automatisch berechnet werden. Dies zeigt der folgende Pseudocode: if (event->pos mod (ticks_per_beat * beats_per_bar) == 0) then event->is_first_beat_event=true else event->is_first_beat_event=false Für jedes Ereignis berechnet man die modulo-Division der globalen Position (event–>pos) geteilt durch die Anzahl der Ticks pro Schlag (ticks per beat) multipliziert mit der Anzahl der Schläge pro Takt (beats per bar). Walzer haben immer drei Schläge pro Takt. Die globale Position eines Ereignisses lässt sich beim Parsen der MIDI-Datei mithilfe der Summe aller vergangenen Deltazeiten bestimmen. Ergibt die modulo-Division null, so handelt es sich um ein Ereignis 8 Wiederholungen von Phrasen werden am Ende oft variiert. Dafür verwendet man in einer Partitur sog. Häuser“, erkennbar durch eine Abgrenzung und die Nummer des Hauses über ” den betroffenen Takten (s. Abb. 4.5). 9 Ereignisse auf den ersten Schlag sind Noten oder Fußpedalsymbole direkt nach einem Taktstrich. 4.3. BRAUCHBARE DATEN FÜR DAS NETZTRAINING 39 auf dem ersten Schlag eines Taktes und das Flag event–>is first beat event wird gesetzt. 4.3.2 Schwächen der Klavier-Aufnahmen Auch die aufgenommenen Interpretationen der Pianisten halten sich oft nicht an die Notentextvorgabe. Das kann mitunter daran liegen, dass einzelne Töne zu schwach angeschlagen und somit von der Sensorik nicht registriert wurden. Häufiger handelte es sich jedoch um kleine Verspieler“. Manche Töne des Noten” textes wurden ausgelassen oder in einer anderen Tonhöhe angeschlagen. Hin und wieder wurden auch zusätzliche Töne gespielt, wie beispielsweise ein Dreiklang anstatt nur des Grundtons. Auch wenn diese Abweichungen in der Realität akustisch kaum auffallen, müssen sie bei der von uns gewählten Datenrepräsentation berücksichtigt werden. Nochmals zur Erinnerung: letztendlich soll das Netz bei der Eingabe eines Notentextes die Änderungen zu den einzelnen Tönen ausgeben. Deshalb müssen Notentext und Interpretation von der Notenfolge her identisch sein. Aufnahme von Hans−Jörg Paliege Original Notentext C6 C6 Tonhöhen C5 C4 C3 C2 C5 C4 C3 C2 C1 C1 Fuß− pedal 1.2 1.3 2.1 2.2 2.3 3.1 Takte und Schläge (bei 100 bpm) (a) 40 20 0 0 0.5 1 1.5 2 2.5 Zeit [sec] 3 3.5 Lautstärken 1.1 Lautstärken 40 20 0 Fuß− pedal Tonhöhen linke und rechte Hand rechte Hand linke Hand 4 (b) Abbildung 4.7: Zweitaktiger Ausschnitt des Notentextes (a) und der Interpretation (b). Beim Vergleich fällt auf, dass bei (b) Noten ausgelassen oder hinzugefügt und kürzere Töne mit Fußpedalereignissen ausgeglichen wurden. Abb. 4.7 zeigt Plots von der Matrixdarstellung des Notentexts (a) und der von Hans-Jörg Paliege gespielten Version (b) anhand eines zwei Takte langen Beispielausschnitts. Bei genauerem Betrachten fällt auf, dass bei (b) Töne ausgelassen wurden, wie zum Beispiel das erste C4. Beim ersten Dreiklang der linken Hand 4.3. BRAUCHBARE DATEN FÜR DAS NETZTRAINING 40 wird in der Aufnahme noch ein zusätzlicher tieferer Ton kurz angeschlagen. Fast alle Noten werden kürzer angeschlagen, was die zweimalige Verwendung des Fußpedals jedoch wieder kompensiert. Damit beide Versionen exakt übereinstimmende Notenwerte besitzen, muss man entweder das Original oder die Aufnahme oder beides nachbearbeiten. Die gespielten Noten könnten nach einem Mengenschnitt-Verfahren angepasst werden. Dazu entfernt man die nicht gespielten Noten aus dem Notentext und bei der Interpretation gespielte Noten, die nicht im Notentext stehen. Außerdem müssten dem Notentext Fußpedalereignisse hinzufügt oder bei der Interpretation die Fußpedale durch ein Verlängern der betroffenen Notenlängen herausgerechnet werden10 . Egal, wie man die beiden Versionen aneinander anpasst, der Aufwand bleibt sehr hoch. Bei den verwendbaren Aufnahmedaten von einer halben Stunde mit über 12000 Ereignissen würde die Nachbearbeitung den zeitlichen Rahmen der Diplomarbeit sprengen. 4.3.3 Rückwärtsrechnung des Notentextes Wir begnügen uns daher mit einer eleganten Zwischenlösung. Fügt man den bestehenden Aufnahmen Markierungen zu Beginn eines jeden Taktes hinzu (s. Abb. 4.8), lässt sich daraus schrittweise ein Pseudo-Notentext errechnen. Die Unterteilung nach Takten ist in manchen Fällen vielleicht zu ungenau, reicht jedoch meistens aus, um den Tempoverlauf aussagekräftig zu beschreiben. Abbildung 4.8: Setzen von Markern (m1 bis m5 ) zu Beginn eines jeden Taktes. In der Matrixansicht kann man erkennen, dass die Takte unterschiedlich schnell gespielt wurden. Aus den zeitlichen Abständen der Markierungen mi werden die einzelnen Taktlängen li ermittelt: li = (mi+1 − mi ) 10 (4.1) Ist ein Fußpedal gedrückt, klingt ein gespielter Ton solange, bis das Pedal losgelassen wird oder er von selbst ausklingt. Der Zeitpunkt des Loslassens einer Taste verliert dadurch praktisch seine Bedeutung. 4.3. BRAUCHBARE DATEN FÜR DAS NETZTRAINING 41 Die durchschnittliche Taktlänge l für ein Lied mit k Takten wird durch das arithmetische Mittel bestimmt: k 1X l= li k i=1 (4.2) Für die Rückwärtsrechnung des Notentextes entfernt man nun taktweise die Temposchwankungen. Dazu werden für alle Ereignisse j die Längen elj und Deltazeiten edtj mit dem Längenanpassungsfaktor µi des Taktes skaliert, in dem sich der jeweilige Zeitabschnitt befindet. µi = l li (4.3) ∀j ∈ T akt i elj ← elj µi (4.4) ∀j ∈ T akt i edtj+1 ← edtj+1 µi (4.5) Da bei den für diese Diplomarbeit verwendeten Walzern immer mindestens ein Ereignis zum Beginn eines Taktes stand, bietet es sich an, die Markierungen für die Tempoanpassung nicht mithilfe einer neuen Datenstruktur oder eines neuen Ereignistyps zu setzen, sondern einfach ein Ereignis zu jedem Taktbeginn zu kennzeichnen. Wir nutzen hierfür im EVL-Format das Flag is first beat event“. ” In der Praxis schlich sich bei der Anpassung der Deltazeiten hin und wieder ein störender Rundungsfehler ein, daher berechnen wir diese etwas aufwändiger mithilfe der globalen Ereignispositionen event(j)–>pos. Dies soll folgender Pseudocode verdeutlichen: j = 1 for i=1 to k do offset = 0 while (event(j) in Takt i) do offset += event(j)->dt*mu(i) event(j)->pos = i*avgl + offset j++ od od Mit offset wird die jeweilige Position in Bezug auf den Beginn des i-ten Taktes bezeichnet. avgl steht für die durchschnittliche Taktlänge l. mu(i) ist der Längenanpassungsfaktor µi und event(j)–>dt die Deltazeit des j-ten Ereignisses edtj . Aus den globalen Ereignispositionen lassen sich die jeweiligen Deltazeiten problemlos ermitteln. 4.3. BRAUCHBARE DATEN FÜR DAS NETZTRAINING 42 Nach der Tempoanpassung werden die Ereignisse noch quantisiert. Dadurch erhalten alle Ereignislängen und Deltazeiten eine Diskretisierung. Wir quantisieren die Walzer auf die Länge einer 16-tel-Note, also auf Längen von 12l 11 . Zum Entfernen der Lautstärkenvariationen für den Pseudo-Notentext brauchen nur alle Lautstärkenwerte auf eine Standardlautstärke oder die durchschnittliche Noten-Lautstärke gesetzt werden. Rückwärts generierter Notentext Editierte Aufnahme rechte Hand linke Hand Tonhöhen C5 C4 C3 C2 markierte Ereig− nisse auf einem ersten Schlag 0.5 1 1.5 2 2.5 Zeit [sec] (a) C3 C2 3 3.5 4 40 20 0 1.1 Lautstärken 40 20 0 Lautstärken 0 C4 C1 Fuß− pedal C1 C5 Fuß− pedal Tonhöhen C6 rechte Hand linke Hand C6 1.2 1.3 2.1 2.2 2.3 3.1 Takte und Schläge (bei 101 bpm) (b) Abbildung 4.9: Rückwärtsrechnung des Notentextes. Aus der editierten Aufnahme werden die Temposchwankungen herausgerechnet. Lautstärkenvariationen werden entfernt und Ereignislängen quantisiert. (a) zeigt die editierte Aufnahme, (b) den errechneten Pseudo-Notentext. In Abb. 4.9 a sieht man nochmals den zweitaktigen Ausschnitt der Interpretation von Hans-Jörg Paliege (wie in Abb. 4.7). Ereignisse auf dem ersten Schlag sowie linke und rechte Hand wurden in einem Nachbearbeitungsschritt zugewiesen. Die rechte Seite (Abb. 4.9 b) zeigt den errechneten Pseudo-Notentext. Dieser weist zwar leichte Abweichungen zum eigentlichen Notentext von Abb. 4.7 a auf, hat jedoch den Vorteil, exakt dieselbe Ereignisanzahl zu besitzen. Der Pseudonotentext kann daher zur Eingabe für ein Netztraining verwendet werden. Der Quelltext zur Rückwärtsrechnung des Notentextes (evl back calc.cpp) ist im Ordner commands“ unter [3] abgelegt. ” 11 In einen Takt eines Walzers passen zwölf 16-tel Noten, da sich Walzer immer an einen 3/4-Takt anlehnen. Kapitel 5 Ergebnisse Dieses Kapitel beschreibt verschiedene, für die Thematik der vorliegenden Arbeit relevante Tests und versucht, die jeweiligen Ergebnisse zu deuten. Da es sich bei der Generalisierung einer musikalisch wertvollen Interpretation um eine sehr komplizierte und auch schwer messbare Aufgabe handelt, wurde versucht, sich an dieses Ziel schrittweise mit einfachen Experimenten heranzutasten. Vorerst soll die für das Netztraining gewählte Datenrepräsentation und die verwendete NN-Bibliothek auf ihre Leistungsfähigkeit getestet werden. Dazu wird untersucht, ob und wie erfolgreich die Variationen einzelner zum Training vorgesetzter Musikstücke vom Netz reproduziert werden können. Daraufhin folgen Tests zur Generalisierbarkeit. Untersucht werden kurzzeitige Variationen in der Spielweise, bezogen auf einfache Kindermelodien und auf die linke Hand bei Ausschnitten der verwendeten Walzer. Bei kurzzeitigen Variationen handelt es sich um unmittelbare Zusammenhänge zwischen den aktuellen Netzeingaben und den daraus resultierenden Ausgaben. Die beiden hierzu verwendeten Problemstellungen erfordern kein längerfristiges Zurückblicken im Eingabestrom. Im Gegensatz dazu wird im dritten Abschnitt in zwei theoretischen Experimenten versucht, Wiederholungen in der Eingabe zu erkennen. Um den Beginn einer Wiederholung bestimmen zu können, muss dem Netz eine Vorausschau im Eingabestrom ermöglicht werden. Dazu behandelt der Abschnitt vorweg kurz die Technik der parallelen Eingabe und der sequenziellen Verschiebung. Ein weiterer Versuch arbeitet wieder mit EVL-Daten und behandelt Phrasenwiederholungen bei speziell dafür bearbeiteten Walzermelodien. Der nächste Abschnitt beschreibt das Training mit den komplexen Klavieraufnahmen und die daraus resultierenden Ergebnisse. Außerdem wird ein Experiment zum Erlernen typischer zusätzlicher Instruktionen des Notentextes durchgeführt. Beim Verlauf der Experimente fielen besondere Eigenschaften im Eingabestrom 43 5.1. ÜBERANPASSUNGSTEST MIT EINEM KLAVIERSTÜCK 44 auf, welche einen großen Einfluss auf die Lösbarkeit des gegebenen Problems haben. Diese Eigenschaften werden neben anderen Gründen für Lernerfolge oder Misserfolge zum Ende des Kapitels erläutert. 5.1 Überanpassungstest mit einem Klavierstück Im nachfolgend beschriebenen Experiment wollen wir überprüfen, ob sich die gewählte Datenrepräsentation EVL für ein Netztraining eignet. Außerdem soll die LSTM-Bibliothek von Alex Graves ([4]) und die verwendeten Konvertierprogramme getestet werden. Trainiert wird mit einem Klavierstück durchschnittlicher Länge mit 1054 Ereignissen. Trainingsziel sind Tempo- und Lautstärkenvariationen. Trotz des vermuteten Effekts der Überanpassung wollen wir in diesem Experiment die benötigte Netzarchitektur und den ungefähren Trainingsaufwand für nachfolgende Experimente abschätzen. Wir verwenden das sehr bekannte Klavierstück Für Elise“ von Ludwig van ” Beethoven. Eine geeignete Vorlage im MIDI-Format fand sich im Internet unter [5]. Ereignisse der linken und rechten Hand sowie Fußpedal-Ereignisse waren bereits separiert. Das Stück liegt in zwei Versionen vor: der Original Notentext ohne interpretative Variationen und eine Version mit Temposchwankungen und Änderungen der Lautstärkenwerte. Nachfolgend untersuchen wir den Gesamtdynamik-Verlauf (s. Abb. 5.1), da dieser im Beispiel relativ klar ausgeprägt ist. Lautstärken in "Für Elise" rechte Hand 50 linke Hand 50 0:30 1:00 1:30 Zeit 2:00 2:30 Abbildung 5.1: Geglätteter Lautstärkenverlauf von Noten der linken und rechten Hand bei der Interpretation von Beethovens Für Elise“ ” Diese Abweichungen sollen nun möglichst genau vom Netz reproduziert werden können. Gute Ergebnisse, bei denen sich die Berechnung noch im Rahmen eines 5.1. ÜBERANPASSUNGSTEST MIT EINEM KLAVIERSTÜCK 45 vernünftigen Zeitaufwands befand, wurden mit zehn LSTM-Zellen erzielt. Abb. 5.2 zeigt als Ergebnis einen Plot mit allen Lautstärkenänderungen. Verglichen werden die Werte des erlernten EDL-Datenstroms mit den Werten des zum Training verwenden EDL-Datenstroms. Vergleich zweier EDL−Dateien erwünscht gelernt 10 Lautstärken−Differenzen 0 −10 −20 −30 −40 −50 −60 0 200 400 600 Noten−Ereignisse 800 1000 Abbildung 5.2: Lautstärken-Differenzen des Trainingsziels und der Netzausgabe nach dem Training. Beide Kurven decken sich zumindest im Gesamtdynamikverlauf sehr gut. Die Interpretation ist fast immer leiser als die einheitliche Lautstärke von 80 im Notentext. Wie sich erkennen lässt, wurde der grobe Lautstärkenverlauf erlernt und trotzdem Schwankungen in Bezug auf einzelne Noten berücksichtigt. Die Trainingsdauer für das Beispiel betrug 10000 Epochen. Verwendet wurden ein Momentum von 0,9 und eine Lernrate von 0,0001. Das Training mit einer vergleichbaren herkömmlichen rekurrenten Netzarchitektur mit 40 Neuronen-Knoten1 führte zu einem ähnlichen Ergebnis. Bei einem zyklenfreien Netz blieb der MSE jedoch beim Training auf einem deutlich höheren Niveau stehen. Es konnten also weniger für die Lautstärkenvariationen relevante Aspekte der Eingabesequenz berücksichtigt werden. Die resultierenden Lautstärken zeigten bei einem vorwärtsgerichteten Netz ein willkürlicheres und 1 Der Fairness“ halber verwenden wir beim Vergleich mit herkömmlichen Netzen immer ” viermal mehr Knoten als LSTM-Zellen, da eine LSTM-Zelle durch ihre Struktur entsprechend mächtiger ist. 5.1. ÜBERANPASSUNGSTEST MIT EINEM KLAVIERSTÜCK 46 stärker oszillierendes Verhalten als beim Test mit rekurrenter Architekur. Dies lässt sich am Ausschnitt in Abb. 5.3 erkennen. Ausschnitt aus den EVL−Dateien erwünscht gelernt FF 60 50 Lautstärken 40 30 erwünscht gelernt LSTM 60 50 40 30 500 510 520 530 540 550 Noten−Ereignisse 560 570 580 Abbildung 5.3: Vergleich der Lautstärken des Trainingsziels mit den Testergebnissen. Blau oben: Testergebnis nach einem Training mit zyklenfreier Netzarchitektur. Blau unten: Testergebnis bei einem LSTM-Netz. Die beiden Netze wurden gleich lang trainiert. Das zyklenfreie Netz enthielt viermal mehr Knoten als das LSTM-Netz Zellen. Die Lautstärkenschwankungen oszillieren beim Test des FF-Netzes in klar erkennbaren Grenzen. Im Ergebnis mit LSTM gleicht sich die erlernte Kurve etwas besser an die Zielkurve an. Zusammenfassend lässt sich festhalten, dass das grobe Erlernen der drei Änderungsparameter (Deltazeit, Länge und Lautstärke) bezogen auf die gesamte Sequenz recht gut funktionierte. Bezogen auf kurzfristige Zusammenhänge lässt sich eine Tendenz zu den erwünschten Variationen manchmal jedoch nicht erkennen, wie man beispielsweise im Ereignisbereich zwischen 520 und 530 in Abb. 5.3 sieht. Dennoch kann sich das Ergebnis hören“ lassen2 . Rekurrente Netze mit und ” ohne LSTM-Architektur zeigten ein ähnliches Lernverhalten. Vorwärtsgerichtete Netze stießen schnell an ihre Grenzen. Tests mit anderen Eingaben machten deutlich, dass es sich bei dem Ergebnis leider tatsächlich nur um eine Überanpassung des Netzes handelt. 2 Die Hörproben sind im Ordner learn self/results“ unter [3] abgelegt. ” 5.2. ERLERNEN KURZZEITIGER VARIATIONEN 5.2 47 Erlernen kurzzeitiger Variationen In der musikalischen Analyse von Kapitel 4 konnten im Kontext weniger Noten Regelmäßigkeiten festgestellt werden. Diese zeigten sich in den Unterteilungen motorische Verschiebungen und unterbewusste Variationen“ und notenbezoge” ” ne Anschlagdynamik“. Die Regelmäßigkeiten nehmen wir zum Anlass für zwei weitere interessante Experimente. Zuerst untersuchen wir sehr einfache Variationen bei monophonen Kindermelodien und erweitern die Problemstellung dann auf polyphone Ausschnitte von Walzern. 5.2.1 Einfache Modifikationen von Kindermelodien Kindermelodien eignen sich deshalb sehr gut für einen Grundlagentest, weil sie leicht überschaubar sind und nur aus Einzeltönen bestehen. Die erwünschten Änderungen stellen deshalb keine zu hohen Anforderungen an das Netz. Für das Experiment wurden zehn monophone Melodien im 4/4-Takt erzeugt. Um die Lern-Aufgabe etwas komplizierter zu gestalten, besitzen sie verschiedene Geschwindigkeiten. Tabelle 5.1 zeigt die Melodien und deren Ereignisanzahl, Dauer und Geschwindigkeit. Titel Alle meine Entchen Auf du junger Wandersmann Bruder Jakob Das Wandern Hänschen klein Hat Dance Ein Männlein steht im Walde Marmor Stein und Eisen bricht Meine Oma Spannenlanger Hansel Ereignisanzahl 27 22 32 20 24 24 47 26 41 44 Dauer 13 11 19 11 10 9 26 10 18 20 sec sec sec sec sec sec sec sec sec sec Geschwindigkeit 105 bpm 150 bpm 110 bpm 130 bpm 105 bpm 120 bpm 150 bpm 105 bpm 110 bpm 105 bpm Tabelle 5.1: Ereignisanzahl, Dauer und Geschwindigkeit der verwendeten Kindermelodien Die zu erlernende Modifikation betrifft die beiden EDL-Parameter Lautstärke und Deltazeit. Als einfachste Regelmäßigkeit sollen Noten auf einem ersten Schlag lauter gespielt werden. Durch Variationen der Deltazeiten will man ein schwungvolleres Gefühl erzeugen. Dazu wird jede zweite kurze Note nach hinten verschoben. Längere Noten bleiben unverändert. 5.2. ERLERNEN KURZZEITIGER VARIATIONEN 48 Abb. 5.4 zeigt die Melodie von Alle meine Entchen“ in den beiden Versio” nen. In der modifizierten Version erkennt man die Lautstärkenvariationen sowie Verschiebungen mancher Noten. Da man sich relativ schwer vorstellen kann, wie sich der Unterschied bemerkbar macht, findet man unter [3] im Ordner learn groove/midi-data“ entsprechende Hörbeispiele. ” C4 Original C3 120 80 40 Lautstärken C4 120 80 40 Lautstärken Tonhöhen Tonhöhen Zwei Versionen von "Alle meine Entchen" modifiziert C3 1 2 3 4 5 6 7 Takte (bei 105 bpm) 8 9 10 Abbildung 5.4: Eine Kindermelodie als Original (oben) und mit Variationen der Lautstärken und Notenpositionen zum Erzeugen eines Swing-Eindrucks (unten) Trainiert wurde das Netz jeweils mit neun Melodien. Zum Generalisierungs-Test verwendeten wir dann die ungesehene zehnte Melodie. Der Trainingsverlauf bei einem LSTM-Netz mit zwei Blöcken und jeweils einer Zelle verlief bei allen zehn Durchgängen sehr ähnlich. Als Beispiel werden die Ergebnisse zu Das Wandern“ ” präsentiert. In Abb. 5.5 sieht man den Fehlerverlauf beim Training über 20000 Epochen. Die verwendete Lernrate betrug 0,0001 und das Momentum 0,95. In Abb. 5.6 werden die gewünschten Änderungen der Deltazeiten und Lautstärken mit denen des Generalisierungs-Tests verglichen. Das Problem wurde hier fehlerfrei generalisiert. 5.2. ERLERNEN KURZZEITIGER VARIATIONEN 49 Training ohne "Das Wandern" 0.014 0.012 MSE 0.01 0.008 0.006 0.004 0.002 0 2500 5000 7500 10000 Epochen 12500 15000 17500 20000 Abbildung 5.5: Fehlerverlauf beim Training mit allen Melodien außer Das Wandern“ ” EDL−Vergleich bei "Das Wandern" Lautstärke erwünscht Lautstärke gelernt 150 Deltazeit erwünscht Deltazeit gelernt 100 EDL−Werte 50 20 0 −20 −50 −100 −150 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Noten−Ereignisse Abbildung 5.6: Generalisierungs-Test mit der Melodie Das Wandern“. Verglichen ” werden die Deltazeiten- und Lautstärken-Differenzen. Die Variationen wurden vom Netz wie erwartet durchgeführt. 5.2. ERLERNEN KURZZEITIGER VARIATIONEN 50 Bei vier der zehn Generalisierungs-Tests erzeugte das Netz eine teilweise vom erwarteten Ergebnis abweichende Variation der Deltazeiten, was vermutlich durch den speziellen Aufbau des jeweiligen Stücks bedingt war. Ein solches Ergebnis ( Hänschen klein“) ist in Abb. 5.7 dargestellt. ” EDL−Vergleich bei "Hänschen klein" Lautstärke erwünscht Lautstärke gelernt 150 Deltazeit erwünscht Deltazeit gelernt 100 EDL−Werte 50 20 0 −20 −50 −100 −150 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 Noten−Ereignisse Abbildung 5.7: Generalisierungs-Test mit Hänschen klein“. Beim Deltazeiten” Verlauf unterscheiden sich die tatsächlichen Änderungen von den erwarteten. Das Ergebnis lässt sich jedoch auch als andere Form der Interpretation bewerten. Beim Anhören ist jedoch trotzdem deutlich eine schwingende Spielweise erkennbar. Man könnte das Ergebnis daher auch als eine andere Interpretation deuten. Die sehr wenigen Trainingsbeispiele lieferten vermutlich keine klaren Informationen darüber, wie genau das besagte Stück zu variieren gewesen wäre. In diesem Experiment zeigt sich erstmals klar der Vorteil eines rekurrenten Netzes. Ein zyklenfreies Netz ist nämlich nicht mehr in der Lage, das Problem zu generalisieren. Erklären kann man dies damit, dass zur Problemlösung ein Blick in die Vergangenheit notwendig ist. Um jede zweite kurze Note zu verschieben, muss das Netz wissen, ob die letzte Note kurz und bereits verschoben war oder nicht. Weitere Ergebnisse finden sich unter [3] im Unterordner learn groove/results“. ” 5.2. ERLERNEN KURZZEITIGER VARIATIONEN 5.2.2 51 Spieltechnik eines Pianisten Das nachfolgende Experiment ist dem von 5.2.1 sehr ähnlich. Untersucht wird die Erlernbarkeit der unter 4.2.4 festgestellten motorisch bedingten Verschiebungen. Im Unterschied zum letzten Experiment handelt es sich bei den Trainingsdaten nun um polyphone Melodien. Zudem kommen Fußpedal-Ereignisse vor. Die Änderungsparameter betreffen die Deltazeit und die Ereignislänge. Wir arbeiten mit elf Ausschnitten der Walzer-Notentexte. Zur Vereinfachung wird nur die linke Hand verwendet, da nur diese von der Regelmäßigkeit betroffen ist. Abb. 5.8 zeigt das verwendete Variationsschema. Mit einem Sequenzer-Programm wenden wir diese Änderungen von Hand auf alle Ausschnitte an. Abbildung 5.8: Variationsschema bei den Mehrklängen der linken Hand Danach gehen wir wieder wie beim letzten Experiment vor. Zehn EVL/EDLPaare werden zum Training verwendet und das resultierende Netz dann mit dem elften Paar auf Generalisierungsfähigkeit getestet. Titel melody01 melody02 melody03 melody04 melody05 melody06 melody07 melody08 melody09 melody10 melody11 Ereignisanzahl 90 102 49 42 29 52 117 61 61 38 138 Dauer 20 23 13 13 9 10 18 12 12 7 23 sec sec sec sec sec sec sec sec sec sec sec Geschwindigkeit 135 bpm 126 bpm 120 bpm 120 bpm 99 bpm 162 bpm 162 bpm 126 bpm 126 bpm 200 bpm 160 bpm Tabelle 5.2: Ereignisanzahl, Dauer und Geschwindigkeit der verwendeten WalzerAusschnitte 5.2. ERLERNEN KURZZEITIGER VARIATIONEN 52 Während des Trainings wird also keine Validierungsmenge berücksichtigt. Das hat den Grund, dass wir mit den sehr wenigen Trainingsdaten besonders sorgsam umgehen müssen. Ein Abbruch des Netztrainings beim Verdacht auf Overfitting“ ” kann also nicht stattfinden. Mit den Generalisierungs-Tests zu elf verschiedenen, immer wieder neu trainierten Netzen, bei denen jeweils eine Eingabe zum Training ausgelassen wurde, sollte man diesen Effekt jedoch ausschließen können. Die Ausschnitte besitzen wieder verschiedene Tempi und Längen (s. Tabelle 5.2). Zur Veranschaulichung zeigt Abb. 5.9 einen für die Netzeingabe verwendeten Original-Notentext und darunter die zu erlernende Variation. Das dazugehörige EVL/EDL-Paar sieht man in Abb. 5.10. Zwei Versionen von "melody05" C3 C2 Fuß− pedal Tonhöhen Original C3 C2 Fuß− pedal Tonhöhen modifiziert 1 2 3 Takte (bei 99 bpm) 4 5 Abbildung 5.9: Original (oben) und Variation (unten) einer kurzen Melodie ( melo” dy05“) der linken Hand. Die Änderungen betreffen Deltazeiten und Längen der Ereignisse. Es gibt zwei Ereignistypen: linke Hand und Fußpedal. Noten werden kürzer und Fußpedale länger angeschlagen. Die Ergebnisse des Experiments konnten zufrieden stellen. Beide EDL-Änderungsparameter Deltazeit und Ereignislänge ließen sich gut auf die jeweils ungesehene Netzeingabe generalisieren. Die Mächtigkeit der einzelnen Änderungen blieb zudem proportional zum Tempo der Eingabe. Abb. 5.11 zeigt das Generalisierungsergebnis von melody05“. ” Nach empirischer Bestimmung wurden als Momentum 0,98 und als Lernrate 0,00001 verwendet. Damit ließen sich gute Ergebnisse schon nach 5000 Lernepochen erzielen. Der Verlauf des MSE beim Training verlief sehr ähnlich zu dem in Abb. 5.5. 5.2. ERLERNEN KURZZEITIGER VARIATIONEN 53 Abbildung 5.10: Ausschnitt der EVL- und EDL-Darstellung von melody05“. Spalten ” entsprechen den einzelnen Ereignissen. Die Länge von 606 ms entspricht hier der Länge einer Viertelnote bei einem Tempo von 99 bpm. EDL−Vergleich bei "melody05" Deltazeit erwünscht Deltazeit gelernt Länge erwünscht Länge gelernt 40 400 20 200 0 0 −20 −200 −40 −400 EDL−Ereignislängen EDL−Deltazeiten 600 −600 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Noten−Ereignisse Abbildung 5.11: Generalisierungs-Test von melody05“. Die Änderungsparameter ” von Deltazeit und Ereignislängen wurden korrekt zugewiesen. 5.3. WIEDERHOLUNGEN LERNEN 54 Die verwendete Netzarchitektur bestand aus vier LSTM-Blöcken mit jeweils zwei Zellen. Interessanterweise konnte das Problem mit einem vorwärtsgerichteten Netz bei etwas mehr Trainingsepochen annähernd genauso gut wie mit einem LSTM-Netz gelöst werden. Die Information, ob es sich um einen Ton eines zu verschiebenden Dreiklangs handelte, bezog das Netz dann vermutlich aus der Deltazeit. Deltazeiten des zweiten und dritten Tons eines Dreiklangs sind in der Eingabe immer 0. Die Fähigkeit eines neuronalen Netzes, motorische Spieleigenschaften reproduzieren zu können ist eine Grundvoraussetzung für die Generalisierung von Interpretationen der Musikstücke. 5.3 Wiederholungen lernen Eine andere wichtige Grundvoraussetzung zur Generalisierung von Interpretationen ist das Erkennen und Deuten charakteristischer Abschnitte im Gesamtverlauf eines Musikstücks. Dies betrifft vor allem Wiederholungen, da diese vom Interpreten oft variiert gespielt werden. Das Netz sollte also prinzipiell in der Lage sein, Wiederholungen im Datenstrom zu erkennen und entsprechend darauf zu reagieren. Ab wann es sich um eine aus musikalischer Sicht folgerichtige Wiederholung handelt, lässt sich leider nicht klar festlegen. Eine einzelne Note, die mit derselben Länge wieder angeschlagen wurde leitet höchstwahrscheinlich noch keine Nachbildung eines ganzen Abschnitts ein. Mit jedem identischen Folge-Ereignis steigt die Wahrscheinlichkeit jedoch stark. Dem Netz muss also eine Vorausschau im Eingabestrom gewährt werden, wenn es entscheiden soll, wann eine Wiederholung beginnt. Dazu gibt es zwei Techniken, welche zum Beginn des Abschnitts beschrieben werden. Danach folgen zwei verschiedene mathematische Experimente und ein Versuch mit EVL-Daten. 5.3.1 Vorausschau im Eingabestrom Auch ein Pianist berücksichtigt bei seiner Interpretation die zukünftig zu spielenden Noten. In der Realität wird er beim Spielen seiner Interpretation neben der Vorausschau um ein Paar Noten das Stück und dessen Ablauf jedoch normalerweise bereits kennen. Diesen Vorteil hat das zu trainierende neuronale Netz nicht. Angenommen, ein guter Pianist soll ein für ihn unbekanntes Stück vom Blatt spielen und bekommt dabei nur ein begrenztes Sichtfenster nach vorne“ ” 5.3. WIEDERHOLUNGEN LERNEN 55 (wie in Abb. 1.1), dann würde das Interpretationsergebnis mit solch einer Vorausschau vermutlich besser ausfallen, als ohne. Eine Vorausschau im Eingabestrom bekommt ein neuronales Netz entweder durch eine sequenzielle Verschiebung der Ausgabe oder durch Parallelisierung der Eingabe. Beides hat Vor- und Nachteile. Wir betrachten nun eine Vorausschau von k Tupeln des Eingabestroms. Die sequenzielle Verschiebung soll Abb. 5.12 verdeutlichen. Abbildung 5.12: Vorausschau im Eingabestrom durch sequenzielle Verschiebung der Ausgabe Die erwünschte Ausgabe zu einem Eingabetupel wird erst nach k Zeitschritten erzeugt. Das Netz kann dadurch noch k − 1 Folge-Eingaben berücksichtigen. Die Länge des Datensatzes wird um k vergrößert, dabei sind die ersten k Ausgabewerte unwichtig und können z.B. mit Nullen belegt werden. Dasselbe gilt für die letzten k Eingabewerte. Wir bezeichnen diese Bereiche daher als Null-Eingabe und Null-Ausgabe. Ein Vorteil des Verfahrens der sequentiellen Verschiebung ist die Tatsache, dass die Schichten von Ein- und Ausgabe unverändert groß bleiben. Problematisch ist jedoch, dass das Netz zusätzlich noch das Speichern der k Werte und den richtigen Umgang mit den Null-Eingaben und Null-Ausgaben lernen muss. Bei langen k-Verschiebungen verliert zudem der herkömmlich berechnete Fehler an Aussagekraft. Bei der parallelen Eingabe von zusätzlichen k Folgewerten bekommt das Netz direkt Informationen über den Kontext in dem sich der aktuelle Eingabewert befindet. Dafür werden jedoch k-mal mehr Eingabeknoten benötigt. Sollen die zusätzlichen Eingabewerte sinnvoll verarbeitet werden, müssen auch der verborgenen Schicht entsprechend mehr Knoten hinzugefügt werden, was eine mit k exponentiell wachsende Netz-Komplexität zur Folge hat. Bei solch einem Zusammenhang spricht man auch vom Fluch der Dimensionen“. Die parallele Eingabe ” nachfolgender Eingabetupel wird von der verwendeten Netz-Bibliothek direkt unterstützt. 5.3. WIEDERHOLUNGEN LERNEN 56 Verarbeitet man bei der Netzeingabe einen EVL-Datenstrom, so könnte bei einer parallelen Eingabe die Dimension der Eingabeschicht noch verkleinert werden, indem man beispielsweise nur die Typen und Notenwerte der k Folge-Ereignisse und nicht jeweils alle sechs Parameter als Vorausschau offeriert. Trotzdem eignet sich die parallele Vorausschau vermutlich nur für kleine k. 5.3.2 Erkennung einer unmittelbaren Wiederholung Nachfolgend betrachten wir ein sehr einfaches Experiment, bei dem Sequenzen aus Zufallszahlen verwendet werden. Ziel soll sein, eine direkte Aufeinanderfolge zweier identischer Eingabewerte zu erkennen. Eine Vorausschau im Eingabestrom ist also nicht notwendig. Als Eingabe bekommt das Netz eine Sequenz von zufälligen Zahlen aus {-1, -0.75, -0.5, -0.25, 0, 0.25, 0.5, 0.75, 1}. Folgt in der Sequenz einer Zahl nochmals dieselbe Zahl, so soll das Netz einmalig eine 1 ausgeben, ansonsten steht immer eine -1 in der Ausgabe. Um die Problemstellung am Training mit EVL-Daten zu orientieren, wird mit mehreren Sequenzen unterschiedlicher Länge trainiert und getestet. Abb. 5.13 zeigt den Trainingsverlauf und ein Testergebnis nach einem Training mit 100 Sequenzen. Die Sequenzlängen lagen zwischen 50 und 100. Als Netzarchitektur wurde ein herkömmliches dreischichtiges rekurrentes Netz mit vier Knoten in der verborgenen Schicht verwendet. Generalisierungsergebnis erwünscht Ausgabe MSE Trainingsverlauf 0.2 0.18 0.16 0.14 0.12 0.1 0.08 0.06 0.04 0.02 0 gelernt 1 0 −1 0 5000 10000 Epochen 15000 20000 0 10 20 30 40 Position in Sequenz 50 60 Abbildung 5.13: Trainingsverlauf und Gerneralisierungsergebnis des Experiments. Unmittelbare Wiederholungen in Sequenzen unterschiedlicher Länge können mit einem rekurrenten Netz fehlerfrei erkannt werden. Bewertet man das Ergebnis nach dem jeweiligen Vorzeichen der Ausgabe, waren die Generalisierungstests bereits nach ca. 5000 Lernepochen fehlerfrei. Das verwendete Momentum betrug 0.9 und die Lernrate 0.0001. Natürlich lässt sich das Problem auch mit den leistungsfähigeren LSTM-Zellen 5.3. WIEDERHOLUNGEN LERNEN 57 lösen. Das Training dauert dann jedoch etwas länger3 . FF-Netze scheitern. Die Ausgaben gleichen sich hier lediglich an den statistischen Erwartungswert von -0.8 an. Wird die Ausgabe wie unter 5.3.1 beschrieben sequentiell verschoben, schneidet LSTM bereits bei Verschiebungen mit k > 2 besser ab. 5.3.3 Wiedererkennung von Eingabewerten Nachfolgend wird ein Experiment beschrieben, bei dem sich das Netz frühere Eingaben über einen unbestimmten Zeitraum merken muss. Die Eingaben sind wie unter 5.3.2 Sequenzen aus Zufallszahlen. Die Ausgabe soll immer genau dann von -1 auf 1 angehoben werden, wenn ein Eingabewert bereits früher in der Sequenz vorkam. Demnach sind zu Beginn der Sequenz die Ausgaben mit hoher Wahrscheinlichkeit bei -1 und zum Ende mit höherer Wahrscheinlichkeit bei 1. Untersucht werden die Sprünge der Ausgabe. Abb. 5.14 zeigt ein Beispiel eines Ein- und Ausgabe-Paars. Abbildung 5.14: Beispiel einer Eingabe und der dazugehörigen Ausgabe. Immer wenn in der Eingabe-Sequenz ein Wert bereits vorkam, wird die Ausgabe von -1 auf 1 gesetzt. Auch bei sehr langem Netztraining4 mit verschiedensten Parametern konnten keine erfolgreichen Generalisierungsergebnisse erzielt werden. Daher schränkten wir die Problemstellung auf eine Zufallszahlen-Wertemenge von -1, 0, 1 und auf Sequenzlängen zwischen 4 und 8 ein. Für eine Sequenzlänge von 8 gibt es also 38 =6561 mögliche verschiedene Folgen. Trainiert wurde mit 40 Sequenzen. Merkt 3 LSTM soll deshalb nur verwendet werden, wenn damit ein besseres Ergebnis erzielt werden kann. Die komplexere Architektur verlangt eine aufwändigere Berechnung bei der Datenpropagation und beim Gradientenabstieg. Daher verlangsamt die Anwendung von LSTM die Lösung mancher Problemstellungen unnötig. 4 Zeitangaben für ein Netztraining beziehen sich immer auf ein vom Lehrstuhl zur Verfügung gestelltes Mehrprozessorsystem mit vier Prozessoren vom Typ AMD Opteron 848 bei 2.2 GHz und 16 GB Speicher. 5.3. WIEDERHOLUNGEN LERNEN 58 sich das Netz für jede der drei möglichen Eingaben, ob die jeweilige Eingabe bereits vorkam, benötigt es vermutlich drei oder mehr LSTM-Zellen. Unzählige Trainings-Versuche führten fast immer zu einer Überanpassung des Netzes. Dies lässt sich an einer Validierung 5 während des Trainings erkennen (s. Abb. 5.15). Bei einer langen Berechnung von mehreren Stunden mit drei LSTM-Blöcken und jeweils zwei Zellen konnte das minimalisierte Problem generalisiert werden. Erhöhte man die Komplexität von drei auf fünf verschiedene Zufalls-Werte, konnten keine korrekten Ergebnisse mehr erzielt werden. Fehlerverlauf beim Training mit Validiierung 0.5 Trainingsmenge Validiierungsmenge 0.45 0.4 0.35 MSE 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5000 10000 15000 20000 25000 Epochen Abbildung 5.15: Kaum vermeidbarer Überanpassungs-Effekt während des Trainings. Die Trainingsdaten wurden aufgeteilt in eine tatsächliche Trainingsmenge und eine Validierungsmenge. Die rote Kurve zeigt den Verlauf des MSE in Bezug auf die tatsächliche Trainingsmenge. Die blaue Kurve beschreibt den Fehlerverlauf beim Test mit den ungesehenen Netzeingaben. Spätestens zum Zeitpunkt des Wiederanstiegs der ValidierungsKurve beginnt das Netz auswendig zu lernen. Verringerte man die Zellen-Anzahl, blieb der Fehler sehr bald auf einem deutlich höheren Niveau stehen. Das Problem ließ sich dann auch nicht generalisieren. Bei herkömmlichen rekurrenten Netzen pendelte sich der Fehler ebenfalls auf einem höheren Niveau ein. 5 Zur Wiederholung: für die Validierung verwendet man zusätzliche Ein-/Ausgabe-Paare und ermittelt damit noch während des Trainings den jeweiligen Fehler. Da das Netz diese Validierungs-Menge nicht zum Training vorgesetzt bekommt, lässt sich mit dieser Methode eine Tendenz zur Überanpassung ausfindig machen. 5.3. WIEDERHOLUNGEN LERNEN 59 Das Wiedererkennen von Eingaben erweist sich also schon bei der einer minimalisierten Version des Experiments als äußerst aufwändig. Bei EVL-Daten mit Vorausschau von einer Note befindet sich die Anzahl der möglichen Eingaben schon in einer Dimension von 1020 im Gegensatz zu den drei möglichen Werten bei der eingeschränkten Version dieses Experiments. Wenn in den späteren Trainingsdaten also nicht noch andere Regelmäßigkeiten als nur dieselben Eingabewerte eine Wiederholung kennzeichnen, dürfte das Erkennen von Wiederholungen im Notentext eine praktisch unlösbare Aufgabe darstellen. 5.3.4 Phrasenwiederholungen in einer EVL-Datei Ob das Erkennen von Wiederholungen bei den Chopin-Walzern möglich ist, soll ein neues Experiment überprüfen. Möglicherweise enthalten die Walzer noch andere Merkmale, welche eine Wiederholung kennzeichnen. Für Training und Tests stehen zwölf von Hand nachbearbeitete Phrasen zur Verfügung. Bei den Ausschnitten handelt es sich um Teile der Walzer, welche dreimal hintereinander kopiert wurden. Als Trainingsziel soll die erste Wiederholung leiser und die zweite Wiederholung langsamer gespielt werden (s. Abb. 5.16). Bei einem langsameren Tempo werden Deltazeiten und Längen der EVL-Darstellung proportional größer. Die Eckdaten der verwendeten Melodien zeigt Tabelle 5.3. Abbildung 5.16: Tempo- und Lautstärkenänderungen bei den einzelnen Wiederholungen der Melodien. Trainiert wurden verschiedene Netztypen mit unterschiedlichen Lernparametern. Auch mit paralleler oder sequenzieller Vorausschau unterschiedlicher Längen wurden Testläufe durchgeführt. Als Ergebnis lernte das Netz jedoch praktisch immer nur, die EDL-Parameter im Verlauf tendenziell richtig zu ändern. Der genaue Zeitpunkt einer Wiederholung blieb dabei nicht berücksichtigt. Abb. 5.17 zeigt einen typischen Plot eines Generalisierungstests. Die Sprünge erfolgten bei den einzelnen Generalisierungstests übrigens nicht immer an derselben Position. Man möchte vermuten, dass das Netz die Lautstärken- 5.3. WIEDERHOLUNGEN LERNEN Titel melody01 melody02 melody03 melody04 melody05 melody06 melody07 melody08 melody09 melody10 melody11 melody12 Ereignisanzahl 531 591 513 225 252 168 267 300 279 348 237 714 60 Dauer 66 55 70 38 38 24 28 38 36 36 22 69 sec sec sec sec sec sec sec sec sec sec sec sec Geschwindigkeit 135 bpm 162 bpm 126 bpm 120 bpm 120 bpm 99 bpm 162 bpm 120 bpm 126 bpm 126 bpm 200 bpm 160 bpm Tabelle 5.3: Ereignisanzahl, Dauer und Geschwindigkeit der für das Experiment verwendeten Walzer-Ausschnitte und Tempoänderungen bezogen auf die durchschnittliche Ereignisanzahl der zum Training verwendeten Eingabesequenzen durchführt. Im Beispiel von Abb. 5.17 findet der erste Sprung bei Ereignis 126 und der zweite Sprung bei Ereignis 273 statt. Die durchschnittliche Länge der elf zum Training verwendeten Melodien beträgt jedoch 349. Demnach müssten die Sprünge bei den Ereignissen 116 und 232 stattfinden. Die Netzreaktion wurde hierfür auch mit einer deutlich kürzeren (Kindermelodie) und einer deutlich längeren ( Für Elise“) EVL-Eingabe unter” sucht. Variationen fanden statt, nach welchem Schema war jedoch nicht ausfindig zu machen. Eine Wiederholung im Eingabestrom, wie beim Trainingsziel war jedenfalls nicht ausschlaggebend. Bleibt zu erwähnen, dass die Ergebnisse ansonsten ganz gut klingen. Die proportionalen Änderungen der Deltazeiten und Ereignislängen wurden nämlich tadellos ausgeführt. Nur die längerfristigen Variationen machten Probleme. Auch die Anwendung des bidirektionalen Lernens6 führte zu keinem besseren Ergebnis. Beim Training fiel außerdem auf, dass der MSE des Öfteren deutliche Sprünge zu höheren Fehlern machte. Dies wird als ein Hinweis auf eine stark zerklüftete Fehlerlandschaft gedeutet. Die Problemstellung ist vermutlich zu komplex. Einen typischen Fehlerverlauf mit Sprüngen zeigt Abb. 5.18. 6 Bidirektionales Lernen wurde im Grundlagenkapitel nicht erwähnt. Bei diesem Lernverfahren wird zusätzlich noch die reverse Eingabesequenz zum Training verwendet. Mehr dazu unter [25]. 5.3. WIEDERHOLUNGEN LERNEN 61 Vergleich der EDL Werte Lautstärke erwünscht Lautstärke gelernt Deltazeit erwünscht Deltazeit gelernt Länge erwünscht Länge gelernt 20 0 −20 50 ms 0 ms −50 ms 50 ms 0 ms −50 ms 0 100 200 300 400 Position in Ereignis−Sequenz 500 600 Abbildung 5.17: Generalisierungsergebnis. Die drei Änderungsparameter im Vergleich mit den Soll-Werten. Die Sprünge fanden hier zu früh statt. Vereinzelt musste das Training auch abgebrochen worden, weil der Fehler plötzlich auf einen extrem hohen Wert stieg. Dieses Phänomen tritt auch bei den nachfolgenden Experimenten immer wieder auf. Auffällig war, dass bei einem Netz, dessen Training aus besagtem Grund abgebrochen werden, musste viele Gewichte extrem nahe an 0 lagen7 . Weitere Ergebnisse und die Trainingssequenzen sind unter [3] im Unterordner learn repeatitions“ abgelegt. ” Das Sprungverhalten von Abb. 5.18 legt eine kleinere Lernrate nahe. Außerdem sollte geprüft werden, wie groß die Ein- und Ausgabewerte sind und ob Es konnten einige Gewichte im Bereich von 10−323 ausgemacht werden. Vor dem Sprung waren alle Gewichte vom Betrag her größer als 10−11 . 7 5.4. NETZTRAINING MIT KLAVIERSTÜCKEN 62 Trainingsverlauf 0.14 0.12 MSE 0.1 0.08 0.06 0.04 0.02 0 0.5·106 106 Epochen 1.5·106 2·106 Abbildung 5.18: Häufige Sprünge des MSE beim Training mit komplexen Daten. Verwendet wurde eine bereits sehr kleine Lernrate von 0.000001. der anfängliche Fehler nicht bereits ein alarmierend niedriges Niveau besitzt. Der Anfangswert des Fehlers liegt bei etwa 0.3. Der Erwartungswert aller Trainingsdaten war ungefähr 0 mit einer Varianz von etwa 0.5. Die Werte hielten sich also größtenteils in einem Bereich von [-1..1] auf. Die gewählte Lernrate war mit 0.000001 schon extrem niedrig. Größere Lernraten führten zu noch mehr Fehlersprüngen. Bei kleineren Lernraten war der Trainingsfortschritt zu langsam. Zusammenfassend lässt sich festhalten, dass das Erkennen von Wiederholungen in EVL-Sequenzen nicht funktionierte. Zudem befand man sich aufgrund der hochkomplexen Eingabedaten wie schon beim Experiment von 5.3.3 immer auf einer Gradwanderung zwischen keinem Lernerfolg bei zu wenigen Knoten und Überanpassung bei zu vielen Knoten. 5.4 Netztraining mit Klavierstücken Trotz der Probleme beim Lernen von Wiederholungen wollen wir natürlich auch mit den mühsam besorgten Klavieraufnahmen einige Tests durchführen. Vorweg sollte klar sein, dass eine gute Generalisierungsfähigkeit nicht mehr leicht zu messen sein wird. Trainiert man mit den relativ wenigen Musik-Daten ein Netz, können beim Test an einem ungesehenen Stück nur tendenzielle Eigenschaften untersucht werden. 5.4. NETZTRAINING MIT KLAVIERSTÜCKEN 63 Sogar ein Pianist kann dieselbe Interpretation nicht exakt noch einmal genauso einspielen. Der Validierungsfehler wird also nicht gegen Null sinken. 5.4.1 Gesamtstücke lernen Zuerst soll mit Aufnahmen von Klaus Ritzkowsky trainiert werden. Dabei handelt es sich um sechs Chopin-Walzer in voller Länge. Alle Walzer zusammen enthalten 8145 Ereignisse. Die durchschnittliche Länge beträgt 2:25 Minuten. Zum Netztraining werden wieder alle Aufnahmen bis auf eine verwendet. Mit der ungesehenen Aufnahme testet man dann das Netz auf Generalisierungsfähigkeit und vergleicht dabei die Netzausgabe mit der tatsächlichen Interpretation. Abb. 5.19 zeigt den Trainingsverlauf bei einem Netz mit 20 LSTM-Blöcken mit je zwei Zellen über einen Zeitraum von mehreren Tagen. Die Eingabe wurde um eine Vorausschau der nachfolgenden drei Notenwerte erweitert. Trainingsverlauf 0.14 0.13 0.12 MSE 0.11 0.1 0.09 0.08 0.07 0.06 0.05 0.5·106 106 Epochen 1.5·106 2·106 Abbildung 5.19: Fehlerverlauf bei einem Training über mehrere Tage. Das Netz konnte mit den komplexen Eingabedaten nicht umgehen. An der Fehlerkurve lässt sich erkennen, dass das Netz mit den Daten offensichtlich sehr bald überfordert war. Das Testergebnis mit der ungesehenen Melodie ist in Abb. 5.20 zu sehen. Die Schwankungen konnten nicht ansatzweise nachgeahmt werden, wobei erwähnt sei, dass die Aufnahmen kaum Schwankungen bezogen auf die Gesamtdynamik und -rhythmik hatten. 5.4. NETZTRAINING MIT KLAVIERSTÜCKEN 64 Vergleich der EDL Werte von "07" Lautstärke erwünscht Lautstärke gelernt Deltazeit erwünscht Deltazeit gelernt Länge erwünscht Länge gelernt 20 0 −20 500 ms 0 ms −500 ms 500 ms 0 ms −500 ms 0 500 1000 Position in Ereignis−Sequenz 1500 2000 Abbildung 5.20: Generalisierungs-Test. Beim Vergleich der erlernten Variationen mit denen der tatsächlichen Aufnahme zeigen sich keine beim Gesamtverlauf klar erkennbaren Übereinstimmungen. Das entsprechende Hörbeispiel ist im Verzeichnis learn piano klaus/results“ un” ter [3] abgelegt. Die erlernte Interpretation ist natürlich schwer zu deuten. Zumindest klingt sie nicht mehr mechanisch und besser, als wenn man die EVL-Datei des Originals mit zufälligen Änderungswerten verfremden würde. Motorisch bedingte Variationen, aber leider auch ungewollte Hänger“ beim Einspielen wurden ” vom Netz nachgeahmt. 5.4. NETZTRAINING MIT KLAVIERSTÜCKEN 5.4.2 65 Instruktionen lernen Im Internet unter [5], [7] und [10] fanden sich zahlreiche nachträglich editierte MIDI-Dateien von Walzern. Linke und rechte Hand waren dabei bereits getrennten Spuren zugewiesen. Außerdem enthielten die Walzer von Hand hinzugefügte Tempo- und Dynamik-Variationen. Es gibt anscheinend bestimmte Gesetzmäßigkeiten, wann ein Abschnitt schneller oder langsamer, bzw. lauter oder leiser zu spielen ist. Manchmal stehen diese Informationen in der Partitur, manchmal jedoch nicht. Wir wollen uns nun in die Lage eines Pianisten versetzen. Er bekommt einen Notentext vorgelegt und soll diesen nachträglich um Tempo- und Dynamik-Anweisungen erweitern. Dasselbe versuchen wir im nachfolgenden Experiment mit einem neuronalen Netz. Auch hier werden sich wie im letzten Versuch die Ergebnisse beim Generalisierungstest höchstwahrscheinlich stark von den erwünschten unterscheiden, deshalb untersuchen wir nur die tendenzielle Ausgabe und ob beim Anhören Auffälligkeiten zu erkennen sind. Titel chopin chopin chopin chopin chopin chopin op64n2 op64n3 op69n1 op69n2 op70n1 op70n3 Taktanzahl 194 171 161 177 97 129 Ereignisanzahl 2019 2013 1713 2105 1483 1618 Dauer 3:36 2:47 3:28 3:32 2:04 3:28 Geschwindigkeit 160 bpm 185 bpm 140 bpm 150 bpm 140 bpm 108 bpm Tabelle 5.4: Sechs Walzer und ihre Eckdaten Taktanzahl, Ereignisanzahl, Dauer und Geschwindigkeit Die verwendeten Walzer zeigt Tabelle 5.4. Alle Walzer besitzen in ihrer Interpretations-Version charakteristische Schwankungen bei den drei EVL-Parametern Länge, Deltazeit und Lautstärke. Die Schwankungen beziehen sich dabei auf den Gesamtverlauf. Abb. 5.21 zeigt beispielsweise den Lautstärkenverlauf von chopin op70n3“. Verlaufskurven und Hörproben aller Stücke befinden sich im ” Verzeichnis learn instructions“ unter [3]. ” Da die Änderungen in diesem Experiment ziemlich linear verlaufen und keine Variationen bezogen auf einzelne Ereignisse enthalten, sind die Trainingsdaten weniger komplex als im Experiment von 5.4.1. Voraussichtlich wird sich das Netz bei den wenigen Trainingspaaren an einem durchschnittlichen Änderungs-Verlauf orientieren und wieder eine Tendenz zur Überanpassung haben. 5.4. NETZTRAINING MIT KLAVIERSTÜCKEN 66 Lautstärken in "chopin_op70n3" 120 100 80 60 40 20 0:30 1:00 1:30 2:00 2:30 3:00 3:30 Zeit Abbildung 5.21: Lautstärken-Kurve eines der verwendeten Stücke Nach einem Training über 100000 Epochen mit zehn LSTM-Blöcken und je zwei Zellen konnten Ergebnisse mit klar erkennbaren Schwankungen erzielt werden. Die obere Kurve des Beispiels in Abb. 5.22 zeigt einen erlernten DeltazeitenVerlauf. EDL−Vergleich zu "chopin_op64n3" gelernt erwünscht 2 0ms Deltazeiten−Differenzen 0 ms −20 ms 20 ms 0 ms −20 ms 0 500 1000 Ereignisse 1500 2000 Abbildung 5.22: Vergleich der EDL-Werte der Deltazeiten bei tatsächlicher Netzausgabe (obere Kurve) und erhoffter Ausgabe (untere Kurve). Bei positiven DeltazeitenDifferenzen wird das Stück langsamer und bei negativen schneller. Die Schwankungen sind jedoch leider völlig anders, als die vorgeschlagenen Änderungen der Original-Version (untere Kurve). Nur beim Schneller-Werden am 5.4. NETZTRAINING MIT KLAVIERSTÜCKEN 67 Schluss lässt sich eine Gemeinsamkeit erahnen. Während des Anhörens fiel auf, dass einzelne Abschnitte ähnlich interpretiert“ wurden. Dies kann man bei Ab” schnitt A des in Abb. 5.23 gezeigten Ausschnitts erkennen. Abbildung 5.23: Deltazeiten-Änderungen der ersten 1000 Ereignisse von cho” pin op64n3“ mit Zuweisung von logischen Teilen des Walzers. Die Wiederholung des A-Teils wird mit demselben Tempoverlauf gespielt. Demnach mag sich das Netz vielleicht an einem gemittelten Sequenzverlauf der Trainingsdaten orientieren, die Eingabe selbst hat aber immer noch einen direkten Einfluss auf die Ausgabe. Außerdem lässt sich festhalten, dass für den Ansatz dieses Experiments die Eingabedaten unnötig kompliziert sind. Da einzelnen Tönen keine spezielle Variation zugewiesen wird, könnte als Trainingsziel auch einfach ein globaler Tempo- und Lautstärken-Änderungsfaktor (bie bei [22] und [23]) verwendet werden. Dieser Ansatz konnte leider aus Zeitgründen nicht mehr untersucht werden. Eine Generalisierung war nicht möglich, was bei der geringen Trainingsmenge von fünf Stücken nicht verwunderlich ist. 5.4.3 Phrasen lernen Zu guter Letzt werden noch verschiedene Netze mit den von Hans-Jörg Paliege eingespielten Phrasen trainiert. Es existieren 27 Aufnahmen von Ausschnitten aus fünf Walzern, dabei wurden manche Ausschnitte auch mehrmals in unterschiedlichen Stilrichtungen eingespielt. Die Einzelaufnahmen enthalten durchschnittlich 148 Ereignisse und sind im Schnitt 24 Sekunden lang. Da sich die Aufzeichnungen auch in der Notenwahl sehr stark vom OriginalNotentext unterscheiden, wurde für die Netzeingabe mit dem unter 4.3.3 beschriebenen Verfahren zur Rückwärtsrechnung ein Pseudo-Notentext errechnet. Die Unterschiede in den EDL-Datenströmen sind trotzdem sehr groß, was die 5.4. NETZTRAINING MIT KLAVIERSTÜCKEN 68 Trainingsdaten besonders komplex werden lässt. Abb. 5.24 zeigt den rückwärts gerechneten und leicht nachbearbeiteten Notentext (oben) und die gespielte Interpretation (unten). Zwei Versionen von "17_C" C5 C4 C3 60 30 0 Lautstärken Interpretation C5 C4 C3 C2 Fuß− pedal Tonhöhen 60 30 0 Lautstärken C2 Fuß− pedal Tonhöhen rückwärts gerechneter Notentext 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Zeit [sec] Abbildung 5.24: Gravierende Unterschiede zwischen Notentext (oben) und Interpretation (unten) führen zu komplexen Trainingsdaten. Trainiert wurde wieder für mehrere Tage mit zehn LSTM-Blöcken zu je zwei Zellen bei einer parallelen Vorausschau von drei Notenwerten. Die Lernrate setzen wir auf 0.000001 und das Momentum auf 0.95 fest. Bei der für einen Generalisierungstest verwendeten Phrase handelt es sich um einen Ausschnitt, der noch nicht zum Training verwendet wurde. Abb. 5.25 zeigt einen typischen Trainingsverlauf des Experiments. Interessanterweise lassen sich im getesteten Ausschnitt 17 C“ beim Verlauf der ” Lautstärken-Änderungen (Abb. 5.26) gewisse Ähnlichkeiten mit den erwarteten Dynamikvariationen erkennen. Die rhythmischen Schwankungen erscheinen jedoch sehr willkürlich. Beim Anhören der vom Netz erzeugten Interpretation kann man nicht mehr von einer aus musikalischer Sicht nachvollziehbaren Auslegung eines Walzers sprechen. Alle Trainingsdaten, Quelltexte sowie weitere Ergebnis-Plots und Hörbeispiele befinden sich unter [3] im Verzeichnis learn piano hansjoerg“. ” 5.4. NETZTRAINING MIT KLAVIERSTÜCKEN 69 Training ohne "17_C" 0.35 0.3 MSE 0.25 0.2 0.15 0.1 0.05 0 200000 400000 Epochen 600000 800000 Abbildung 5.25: Trainingsverlauf. Der Fehler sinkt nur sehr langsam und weist, vermutlich aufgrund eines stark zerklüfteten Fehlergebirges immer wieder Sprünge nach oben auf. EDL−Vergleich bei "17_C" erwünscht gelernt Lautstärken−Differenzen 40 20 0 −20 −40 0 10 20 30 40 50 60 Noten−Ereignisse 70 80 90 100 Abbildung 5.26: Generalisierungstest mit einer ungesehenen Walzer-Phrase. Die gezeigte Kurve der Lautstärken-Änderungen verläuft ähnlich wie die der tatsächlichen Interpretation. Im Gegensatz dazu ähneln sich die Kurven von Deltazeit und Ereignislänge nicht. 5.5. GRÜNDE FÜR LERNERFOLGE UND MISSERFOLGE 5.5 70 Gründe für Lernerfolge und Misserfolge Für Änderungsparameter bezüglich des Gesamtverlaufs der Musikstücke standen bei Weitem zu wenige Trainingsdaten zur Verfügung. Mit nicht einmal zehn für ein Training nutzbaren Eingabesequenzen von kompletten Klavier-Stücken ist es für ein neuronales Netz unmöglich, zu einem ungesehenen Stück alle gewünschten Parameter-Änderungen zu generieren. Hierfür unterscheiden sich die Anschlagsdynamik- und Rhythmik-Kurven der Aufnahmen viel zu stark. Keine der Parameterkurven eines Stücks war im Gesamtverlauf der eines anderen ähnlich. Zudem ist es fraglich, ob die verwendete Architektur auch bei ausreichender Anzahl von Trainingsdaten nicht immer noch überfordert wäre, einzelne auf das Gesamtstück bezogene Gesetzmäßigkeiten zu berücksichtigen. Das Erkennen einer Wiederholung würde ein Zurückblicken von mehreren hundert Schritten in der Eingabesequenz erfordern. Bei mathematischen Grundlagenexperimenten sind LSTM-Netze zwar zu einem Zurückblicken in dieser Größenordnung fähig, die Trainingsdaten in unserem Fall sind jedoch um Dimensionen komplexer. Schon das eingeschränkte Beispiel von 5.3.3 zum Erkennen von drei möglichen Werten in einer Sequenz benötigte 40 Trainingssequenzen, sechs LSTM-Zellen und 100000 Trainingsepochen. Mit jeder Regelmäßigkeit die erlernt werden soll wächst auch die Anzahl der benötigten Netzknoten und Verbindungen. Die verwendeten Daten enthalten nur schwer erkennbare und unüberschaubar viele Gesetzmäßigkeiten. Ein Test mit mehreren tausend Zellen und entsprechend langem Training mag vielleicht zu besseren Ergebnissen führen. Dafür reichte jedoch die zur Verfügung stehende Berechnungskapazität nicht aus. Während der Experimente fiel zudem ein Problem der gewählten Datenrepräsentation bezogen auf die Änderungen einzelner Ereignisse auf. Sollen nur einfache Regeln für eine Hand erlernt werden, verkomplizierte die Hinzunahme von Daten der anderen Hand die Trainingsdaten schon so stark, dass die Regeln unter Umständen nicht mehr erlernt werden konnten. Bei dem unter 5.2.2 beschriebenen Experiment ließen sich beispielsweise die motorischen Verschiebungen der linken Hand bei Netzeingaben mit linker und rechter Hand nicht mehr erlernen. Auf den ersten Blick mag dies verwundern, da ja ein eigener Netzeingang die linke bzw. rechte Hand kennzeichnet. Die Trainingsdaten werden aber durch die Tatsache, dass sich im EVL-Format die Deltazeiten jeweils auf das VorgängerEreignis beziehen entscheidend verkompliziert. Der Typ des Vorgängerereignisses spielt dabei keine Rolle. Am besten lässt sich dieses Problem an einem Beispiel verdeutlichen. Angenommen, für die linke Hand soll eine einfache Verschiebung realisiert werden (Abb. 5.27 a). Die Ereignisse der rechten Hand bleiben unverändert (Abb. 5.27 b). Aus den dazugehörigen EVL-Deltazeiten lässt sich der EDL-Wert für die Deltazeit 5.5. GRÜNDE FÜR LERNERFOLGE UND MISSERFOLGE 71 ermitteln. Bei (b) sind also laut Annahme alle Deltazeit-Differenzen gleich 0. Die Kombination von linker und rechter Hand (Abb. 5.27 c) führt jedoch zu einer kontextbezogenen Änderung der Differenzen der rechten Hand. Die sehr einfache Lernaufgabe, alle Ereignisse der rechten Hand unberührt zu lassen ist in diesem Beispiel also komplizierter als vorerst angenommen. ! ! ! ! ' $ ( ) ! ! " # $ % & " # $ % " # $ % & (b) (a) ' (c) Abbildung 5.27: Werden zwei unabhängige Regelmäßigkeiten kombiniert, verkompliziert dies bei der verwendeten Datenrepräsentation die resultierenden Trainingsdaten gravierend. Im Beispiel der Abbildung sollen bei Ereignissen der linken Hand einfache Verschiebungen mithilfe der Deltazeiten realisiert werden (a). Die rechte Hand zeigt eine einfache Tonfolge. Diese soll unverändert bleiben (b). Kombiniert man nun (a) und (b), führt dies bei der rechten Hand zu Deltazeiten-Differenzen ungleich 0 (c). Die Reihenfolge der Ereignisse kann bei der modifizierten Version aus Gründen der Eindeutigkeit für die EDL-Berechnung nicht geändert werden. 5.5. GRÜNDE FÜR LERNERFOLGE UND MISSERFOLGE 72 Bei manchen komplexen Gesetzmäßigkeiten und vor allem bei Regeln, die ein Zurückblicken im Eingabestrom über viele Zeitschritte erfordern, stößt die Generalisierung einer musikalischen Interpretation mit künstlichen neuronalen Netzen also an seine Grenzen. Was dagegen sehr gut funktioniert, ist das Erlernen von häufig auftauchenden Regelmäßigkeiten im Kontext weniger Ereignisse, oder direkte Zusammenhänge mit einer aktuellen Eingabe. Das einleitend unter 5.2.1 beschriebene Beispiel mit den Kindermelodien zeigt diese beiden erlernbaren Eigenschaften sehr gut. Eine Note muss hier nach ihrer Länge klassifiziert werden. Nur kurze“ Noten sind von einer Verschiebung für ” die erwünschte schwingende Spielweise relevant. Befindet sich die Notenlänge im Bereich einer zu verschiebenden Note, muss nur noch in den vorhergegangenen Eingaben geprüft werden, ob die letzte Note bereits verschoben war oder nicht und dementsprechend die Deltazeit-Ausgabe gesetzt werden. Einen sehr einfachen direkten Zusammenhang zwischen Ausgabe und aktueller Eingabe stellt beim Kindermelodien-Beispiel das Betonen von markierten Noten auf den ersten Schlag dar. Auch in den Klavieraufnahmen kamen solche Zusammenhänge vor. So wurden bei der Spielweise von Hans-Jörg Paliege höhere Noten fast immer lauter angeschlagen. Die Umsetzung dieser Regelmäßigkeit stellt für ein neuronales Netz kein Problem dar. Kapitel 6 Schluss Eine musikalisch wertvolle Interpretation klassischer Klavier-Stücke beinhaltet viele extrem komplexe und selbst für den Menschen nicht klar erkennbare Gesetzmäßigkeiten. Dass ein künstliches neuronales Netz mit den sehr wenigen zur Verfügung stehenden Trainingsdaten keine zufrieden stellende Generalisierungsfähigkeit besitzen kann, zeichnete sich im Verlauf der Arbeit schon relativ bald ab. Spätestens bei der musikalischen Analyse gemeinsam mit dem Pianisten wurde deutlich, von wie vielen unterschiedlichen Variationen eine Interpretation geprägt wird. Trotzdem ist es interessant zu sehen, dass manche Variationsschemata bezüglich des Kontextes weniger Noten prinzipiell ganz gut erlernt werden können. Der Sprung von den Grundlagenexperimenten in den Abschnitten 5.2 und 5.3 hin zu Tests mit den komplexen Klavieraufnahmen in Abschnitt 5.4 ist unter Umständen zu groß. Interessant wäre ein neuer Ansatz, bei dem versucht wird, die Komplexität der Daten zu reduzieren. Verzichtet man auf Variationen der Notenlängen, lässt sich als Trainingsziel (wie in [22] und [23]) ein geglätteter Lautstärken- und Tempo-Verlauf bestimmen. Möglicherweise wird dadurch eine bessere Generalisierungsfähigkeit in Bezug auf den Gesamtverlauf eines Stücks erzielt. Die Komplexität der Daten ließe sich auch reduzieren, indem man einzelne Variationsaspekte während der Datenerhebung ausschließt. Tempoänderungen im Gesamtverlauf lassen sich beispielsweise durch ein erneutes Einspielen von Phrasen mit Taktgebung vermeiden. Dabei bekommt der Pianist eine Tempovorgabe und spielt zu einem Metronom, das ihm die Schläge vorgibt. Zeitliche Verschiebungen bewegen sich dann nur noch in einem viel engeren Kontext. Eine andere interessante Nutzung von neuronalen Netzen mit der gewählten Datenrepräsentation wäre ein Training mit vielen Einzelaufnahmen derselben Phrase. Bei einem Netz-Test ließe sich damit eine gemittelte perfekte“ Variante er” zeugen. Vereinzelte Ausrutscher oder andere ungewollte Spielweisen werden bei genügend großer Trainingsmenge vernachlässigt. 73 74 Als Erweiterung des EVL/EDL-Ansatzes könnte man versuchen, das Einschieben oder Löschen von Noten zuzulassen. Auch der Ansatz von [19] und [14] lässt solche speziellen Ereignisse zu. Unter Umständen führt auch ein Test mit einem anderen Musik-Stil zu besseren Ergebnissen. Für diese Diplomarbeit wurden die Walzer vor allem wegen der guten Digitalisierbarkeit von Klavier-Musik verwendet. Falls entsprechend gut funktionierende MIDI-Abnahmetechniken für andere Instrumente zur Verfügung stehen, lassen sich damit ähnliche Versuche durchführen. Als Datenrepräsentation dürfte sich EVL/EDL mit kleinen Umformungen auch gut eignen. Sehr variationsreiche Daten, die zudem möglicherweise weniger komplex als die der KlavierAufnahmen sind, könnten beispielsweise monophone Aufnahmen von GitarrenSolos liefern. ANHANG 75 Anhang A MIDI-Parameter Aufbau von Header- und Track-Chunk sowie Ereigniscodes des Datenbereichs in MIDI-Dateien: Bytes 4 4 2 2 2 Header-Chunk Beschreibung ID MThd“ ” Headerlänge (06) MIDI-Typ Anzahl der Tracks Zeitformat Track-Chunk Bytes Beschreibung 4 ID MTrk“ ” 4 Tracklänge (n) n Datenbereich Code 0x8 0x9 0xA 0xB 0xC 0xD 0xE Datenbytes 2 2 2 2 1 1 2 Kanalbezogene Ereignisse Beschreibung Note-Aus“ auf Kanal ” Note-An“ auf Kanal ” Aftertouch polyphon Steuerereignisse, z.B. Fußpedal Programmwechsel Aftertouch monophon Änderung der Tonhöhen-Steuerung ANHANG Code 0xF0 0xF2 0xF3 0xF6 0xF7 0xF8 0xFA 0xFB 0xFC 0xFE 0xFF 76 Datenbytes n 2 1 0 0 0 0 0 0 0 0 Code 0xFF0002 0xFF01n 0xFF02n 0xFF03n 0xFF04n 0xFF05n 0xFF06n 0xFF07n 0xFF2001 0xFF2F00 0xFF5103 0xFF5405 0xFF5804 0xFF5902 0xFF7Fn Systembezogene Ereignisse Beschreibung Für Definition neuer systemexklusiver Funktionen Song-Pointer Song-Auswahl Tonart-Anfrage Ende einer systemexklusiven Sequenz Zeitsynchronisation Song-Pointer auf Startposition setzen, Start Fortsetzung beim nächsten 0xF8-Ereignis Laufende Sequenz unterbrechen, Stopp MIDI-Verbindungscheck System-Reset Datenbytes 2 n n n n n n n 1 0 3 5 4 2 n 0xFF-Meta-Ereignisse Beschreibung Nummerierung von Patterns und Tracks Speicherung von Texten Copyright Zuordnung für Namen von Sequenzen & Tracks Instrumentnamen Songtext Marker setzen Hinweispunkt zur Filmvertonung Kanal-Bezug der folgenden Meta-Ereignisse Track-Ende Setze Tempo SMPTE-Offset Taktart Tonart Systemabhängige Informationsübertragung ANHANG 77 Anhang B Vorschlag zur EVL-Visualisierung mit Gnuplot Umformung von EVL zu EVL mit globalen Ereignispositionen: ${commands_dir}/calc_pos melody02.evl melody02.evl2 Gnuplot-Code des Scripts: set terminal postscript eps enhanced color "Times-Roman" 16 set output "melody02.eps" set size 1.3,1 set xlabel "Zeit [sec]" set xrange [0:11] dy = 0.2 dx = 0.02 set yrange [0:95] set grid ytics back set title "Ausschnitt aus melody02" set ytics ("C1" 36-10, "C2" 48-10, "C3" 60-10, \ "C4" 72-10, "C5" 84-10, "C6" 96-10) set bars 0 set label "Fuß-\npedal" at 0.46,11 center plot \ "melody02.evl2" using ($2/1000+$3/2000):($5-11):($3/2000) \ with xerrorbars lt 3 lw 6 pt 0 notitle, \ "melody02.evl2" using ($2/1000+$3/2000):($5-11):($3/2000)-dx \ with xerrorbars lt 14 lw 3.5 pt 0 notitle, \ "melody02.evl2" using ($2/1000+$3/2000):((1-$1)*16):($3/1000) \ with boxes fs solid 1 lt 1 notitle, \ "melody02.evl2" using ($2/1000+$3/2000):((1-$1)*16)-dy:($3/1000)-dx \ with boxes fs solid 1 lt 15 notitle ANHANG 78 Anhang C Erlernen der kontextsensitiven Grammatik an bn cn Verwendet wird ein dreischichtiges neuronales Netzwerk mit jeweils vier Ein- und Ausgabe-Knoten. Dabei stehen je drei Knoten für die Buchstaben a, b und c der zu erkennenden Sprache. Eine zusätzliche Status-Eingabe S gibt an, ob eine neue Sequenz beginnt. Der Ausgabewert T bestimmt, wann die Sequenz zu Ende ist. Parameter gelten als gesetzt, wenn sie mit einer 1 belegt sind und als ungesetzt bei einer -1. Die Aufgabe des Netzes ist, die nächstmöglichen Zeichen vorherzusagen. Eine neue Sequenz beginnt immer mit gesetztem Status-Eingabewert. Danach folgen ein oder mehrere gesetzte a’s und dann dieselbe Anzahl von b’s und c’s. Abb. 7.1 zeigt die Eingabesequenz und gewünschte Ausgabesequenz für n = 1. Abbildung 7.1: Netzein- und ausgabe bei an bn cn für n = 1 Trainiert wird mit zehn Sequenzen der Wörter mit n von 1 bis 9 und mit n = 50. Als Generalisierungs-Test wird ein längeres n von 100 verwendet. Das zu trainierende Netz besteht aus zwei Blöcken mit jeweils zwei LSTM-Zellen. Diese verwenden Forget-Gates und Guckloch-Verbindungen. Mit einer Lernrate von 0.00001 und einem Momentum von 0.98 sinkt der SQE nach 10000 Trainingsepochen unter 0.01 (s. Abb. 7.2). Der Generalisierungs-Test ist in Abb. 7.3 aufgeführt. Die roten Kreise zeigen, dass alle Sprünge bei den Parameter-Änderungen für die vier Netz-Ausgaben korrekt, bzw. mit nur sehr geringer Unsicherheit“ ausgeführt werden. ” Das Beispiel mit Quelltext und makefile ist für Interessierte im Internet bei [3] unter anbncn“ abrufbar. ” ANHANG 79 0.3 0.25 MSE 0.2 0.15 0.1 0.05 0 0 1000 2000 3000 4000 5000 6000 Epochen 7000 8000 9000 10000 Abbildung 7.2: Verlauf des SQE beim Training erwünscht gelernt 1 T 0 −1 ✔ ✔ ✔ ✔ 1 ✔ a 0 −1 ✔ 1 b 0 −1 ✔ ✔ ✔ ✔ 1 c 0 −1 0 50 100 ✔ ✔ ✔ ✔ 150 200 Position in Ausgabesequenz 250 Abbildung 7.3: Generalisierung für n = 100 300 ANHANG 80 Anhang D Kurzbeschreibung der verwendeten LSTM-Bibliothek Im Rahmen dieser Arbeit verwenden wir zur Simulation von neuronalen Netzen die LSTM-Bibliothek von Alex Graves ([4]). Die Bibliothek wurde in C++ implementiert und unterstützt LSTM-Zellen mit Forget-Gates und GucklochVerbindungen sowie eine Vielzahl von Lernverfahren. Die wichtigsten Funktionen und Parameter werden nachfolgend kurz beschrieben. Dieser Anhang soll einen Überblick über die Leistungsfähigkeit der Bibliothek geben. Er eignet sich auch zum Nachschlagen für Neueinsteiger, die sich mit der Bibliothek vertraut machen wollen. Für diese Arbeit wurde eine frühe Beta-Version verwendet. Dabei waren manche Funktionen noch nicht vollständig implementiert und an manchen Stellen hatte sich toter“ Code eingeschlichen. Voraussichtlich ” in diesem Jahr soll jedoch eine dokumentierte und voll funktionsfähige Version als Open-Source veröffentlicht werden. Kurz zur Anwendung der Bibliothek. Für das Ansteuern praktisch aller benötigten Funktionen wurde ein Steuer-Interface aufgesetzt. Dieses lässt sich mit #include <network interface.h> einbinden. Die Beschreibung der Netzarchitektur wird in einer .net“-Datei abgelegt und kann mit der Funktion netLoad ” geladen werden. Parameter für den Lernverlauf speichert man in einer .par“” Datei und lädt diese mit der Funktion netParamLoad. Netzein- und ausgaben nutzen standardmäßig das netCDF-Format1 . Netzausgaben können optional auch im XML-Format abgespeichert werden. Beispiele zur Anwendung der Bibliothek findet man unter [3]. wichtige Funktionen des Steuer-Interfaces bool netLoad(char *filename, char* outputFilename, bool bidirectional, int wtUpdateFlag, int gradCalcFlag, int prevContext, int futureContext, bool backProj) netLoad führt eine Vielzahl von Netz-Initialisierungen durch. In filename wird die zu ladende Datei mit den Informationen zur Netzarchitektur (.net) angegeben. outputFilename bestimmt das Präfix der während eines späteren Netztrainings erzeugten Dateien (z.B. mit den Suffixen error report.txt“ oder best.par“). Ist bidirectional auf true gesetzt, wird das ” ” Lernverfahren von [25] angewendet. Mit den Flags wtUpdateFlag und gradCalcFlag lassen 1 plattformunabhängiges Format zur komprimierten Ablage wissenschaftlicher Daten – Infos unter [9] ANHANG 81 sich verschiedene Methoden zur Bestimmung der Gewichtsänderungen beim Lernen festlegen. In der vorliegenden Arbeit wurde hierfür ausschließlich WU GRADIENT DESCENT und GC BPTT verwendet. prevContext und futureContext legen fest, wie viele vorangehende und nachfolgende Tupel der Eingabesequenz parallel als Netzeingabe verwendet werden sollen. Die ursprüngliche Eingangsknoten-Anzahl wird also mit (prevContext+futureContext) multipliziert. Mit auf true gesetztem backProj läuft der Rückpropagierungsprozess über die Eingabeschicht hinaus. Dazu wird vorne eine weitere Schicht angehängt. Wir verwenden in dieser Arbeit jedoch immer backProj=false. Als Rückgabewert liefert netLoad bei erfolgreicher Initialisierung den Wert true. bool netLoadTrainingData(const char*filename, bool valOnTestSet, double valSetFraction double trainSetFraction, double trainOffsetFraction, double testSetFraction, bool nextStep) netLoadTrainingData bestimmt, welche Eingabedaten dem Netz zugeführt werden sollen. Die Funktion wird in den Versuchen dieser Arbeit sowohl zum Training als auch zum Testen eines bereits fertig trainierten Netzes verwendet. Bei file muss es sich um eine Datei im netCDF-Format handeln. Die Eingabedaten lassen sich mit den Parametern valSetFraction, trainSetFraction und testSetFraction anteilsmäßig auf eine Evaluierungs-, Trainings- und Testmenge aufteilen. Sollen alle in der Eingabedatei enthaltenen Daten für ein Netztraining verwendet werden, setzt man valSetFraction=testSetFraction=0.0 und trainSetFraction=1.0. Ein mit true belegtes valOnTestSet bewirkt, dass der Evaluierungsfehler nicht über der Evaluierungsmenge sondern über der Testmenge berechnet wird. trainOffsetFraction bestimmt prozentual, ab welcher Sequenz die tatsächliche Trainingsmenge beginnen soll. Standardmäßig verwenden wir ein trainOffsetFraction von 0.0. Ist nextStep auf true gesetzt, wird das Netz lediglich darauf trainiert, das nächste Tupel der Eingabesequenz zu erlernen. Standardmäßig setzen wir diesen Wert natürlich auf false. Der Rückgabewert von netLoadTrainingData ist bei der Beta-Version immer true. void netBuild() netBuild initialisiert das Netz und muss vor einem Training oder Testen aufgerufen werden. bool netParamLoad(const char *filename) Mit netParamLoad werden die Parameter einer Parameter-Datei file geladen. Die Datei darf neben den weiter unten beschriebenen Parametern auch den Netzzustand, also alle Gewichte und Aktivierungen beinhalten. War das Laden der Datei erfolgreich, liefert die Funktion den Wert true. ANHANG void 82 netRandomizeWeights(double range, bool random, bool weightGuessing) Mit netRandomizeWeights werden die Gewichte des Netzes mit Zufallswerten zwischen [−range..range] oder mit range selbst belegt, je nachdem ob random auf true oder false gesetzt ist. Bei auf true gesetztem weightGuessing erfolgt kein Zurücksetzen des Netzes für ein neues Training. Wir verwenden immer weightGuessing=false. bool netLearn(int numSeqs, int numEpochs) netLearn startet die eigentliche Lernprozedur. Trainiert wird solange bis numSeqs EingabeTupel durch das Netz propagiert wurden oder für numEpochs Trainingsepochen auf der gesamten Trainingsmenge trainiert wurde. Wird ein Parameter auf 0 gesetzt, spielt er keine Rolle für den Lernabbruch. Sind beide Parameter gleich 0, kann der Lernvorgang noch durch ein Unterschreiten der in der Lern-Parameter-Datei (.par) beschriebenen Variablen maxTestsNoBest oder stopVal beendet werden. Bei erfolgreichem Trainingsverlauf ist der Rückgabewert true. void netSave(const char *filename) Nach dem Training kann man die aktuellen Parameter und Netz-Gewichte mit netSave abspeichern. Übergeben wird filename mit der Endung .net“. netSave erzeugt dann automatisch ” auch eine .par“-Datei mit Informationen über den Trainingsverlauf und die Endgewichte. ” bool netOutputData(const char*inFile, const char*outFile, int fileType, bool wholeEpoch, int numSequences, int firstSeqNum, int dataSet, bool fullUpdates, bool printLabels, bool printSeqs) Für ein späteres Testen des Netzes können die sich verändernden Aktivierungen/Zustände bequem mithilfe von netOutputData in eine Datei geschrieben werden. Bei inFile handelt es sich um eine Textdatei, die beschreibt, welche Aktivierungen während des Abarbeitens einer Eingangs-Sequenz (z.B. geladen durch LoadTrainingData!) aufgezeichnet werden sollen. Ein Eintrag timeSeries l2 acts“ in inFile führt beispielsweise zur sequentiellen Ausgabe der ” Aktivierungen aller Einheiten aus der zweiten Schicht. Geschrieben werden die Informationen in outFile. Dessen Format kann man mit fileType bestimmen (erlaubte Werte: FT XML und FT NETCDF). Da wir in dieser Arbeit ein bereits trainiertes Netz nur auf einzelne Test-Datensätze anwenden, belegen wir wholeEpoch mit false, numSequences mit 1 und firstSeqNum mit 0. dataSet gibt an, wecher Teil der Datensequenz verwendet werden soll (DST TRAIN, DST TEST oder DST VALIDATION). Die letzten drei Parameter werden in dieser Arbeit standardmäßig mit false belegt. War die Ausgabe erfolgreich, wird von netOutputData der Wert true zurückgegeben. ANHANG 83 const char *netGetInfo(bool verbose) Zum Debuggen lassen sich fast alle wichtigen aktuellen Parameterwerte mithilfe von netGetInfo ermitteln. Setzt man den Parameter verbose auf true, werden zusätzlich zu den Netzparametern auch noch die Trainingsparameter zurückgegeben. Die Parameter lassen sich dann beispielsweise mit cout<<netGetInfo(true)<<endl; ausgeben. Aufbau einer .net“-Datei ” Die Beschreibung der Netzarchitektur in einer .net“-Datei beginnt immer mit ” der Anzahl der Schichten. In den Zeilen danach werden die einzelnen Schichten definiert. Dabei beginnt eine Zeile entweder mit I“ (Eingabe-Schicht), L“ ” ” (Schicht mit LSTM-Zellen), B“ (Schicht mit herkömmlichen Zellen) oder O“ ” ” (Ausgabe-Schicht). Danach folgen durch Leerzeichen getrennt Parameter, welche die entsprechende Schicht genauer definieren. Ein I“ benötigt als Parameter nur die Anzahl der Eingabe-Knoten. ” L“ erfordert sechs Parameter (ein siebter Parameter ist optional): ” • Anzahl der Blöcke • Konstellation der Aktivierungsfunktionen von Zellen-Eingang, Zellen-Ausgang und den Toren. Mögliche Werte: 0 (M2_M1_LOG), 1 (ID_ID_LOG), 2 (M2_ID_LOG), 3 (LOG_LOG_LOG), 4 (M2_M2_LOG), 5 (TANH_TANH_LOG), 6 (M1_M1_LOG), 7 (M02_M2_LOG) • Anzahl der Zellen pro Block • Boolean-Wert für Forget-Gates • Boolean-Wert für Guckloch-Verbindungen • Boolean-Wert für connect from the gates“ (standardmäßig auf 0 setzen!) ” • Netz-Tendenz (optional). Mögliche Werte: 0 (NORMAL_BIAS), 3 (LSTM_SEPP_BIAS) 1 (LSTM_STD_BIAS), 2 (LSTM_OPEN_BIAS), B“ folgen zwei Parameter: ” • Anzahl der Knoten • Aktivierungsfunktion. Mögliche Werte: 0 (HYP_TAN), 1 (IDENTITY), 2 (LOGISTIC), 3 (MAXMIN2), 4 (MAXMIN1) O“ benötigt zwei Parameter: ” • Anzahl der Ausgabe-Knoten ANHANG 84 • Aktivierungsfunktion. Mögliche Werte: 0 (LOG_LEAST_SQUARES), 1 (CROSS_ENTROPY), 2 (MULTIPLE_INDEPENDENT_ATTRIBUTES), 3 (LINEAR_LEAST_SQUARES), 4 (M2_LEAST_SQUARES) Nach den Zeilen mit den Beschreibungen der einzelnen Schichten wird festgelegt, welche gerichteten Verbindungen zwischen den Schichten geknüpft werden sollen. Eine Verknüpfung wird immer durch ein Quadrupel beschrieben. Die einzelnen Quadrupel reiht man dann hintereinander in der Zeile an. Werte werden wieder durch Leerzeichen getrennt. Die ersten beiden Werte eines Quadrupels bestimmen Start- und Ziel-Schicht der Verknüpfung. Schichten werden dazu mit 0 beginnend durchnummeriert. Der dritte Wert ist boolesch und beschreibt (auf redundante Weise), ob es sich um eine rückläufige Verbindung handelt. Im letzten Wert des Quadrupels kann prozentual die Verknüpfungs-Intensität der Verbindung bestimmt werden (1 bedeutet vollständig verknüpft). Eine Verbindung ausgehend von einer virtuellen Schicht (referenziert durch eine -1) bestimmt, ob die Knoten der Zielschicht bei der Eingangssumme noch ein so genanntes Bias berücksichtigen. Wichtige Parameter einer .par“-Datei ” Die .par“-Datei beinhaltet die für das Netztraining erforderlichen Parameter. ” Zusätzlich kann sie auch Informationen über einen Trainingsverlauf und die Gewichte und Zustände des Netzes speichern. Die nachfolgende Tabelle zeigt eine (unvollständige) Liste wichtiger Parameter. Identifier learnRate momentum batchType Typ real real int stopVal maxTestsNoBest real int autosave boolean EpochsPerErrCheck int Beschreibung Wert der Lernrate η Wert für das Momentum µ 0: Online-Lernen 1: Fehlerberechnung nach jeder Sequenz 2: Fehlerberechnung nach jeder Lernepoche falls > 0: Stoppkriterium für den Fehler falls > 0: Training stoppt, wenn der Fehler auf der Validierungs-Menge seit maxTestsNoBest Lernepochen nicht mehr gesunken ist. Bei 1 werden während des Trainings die Netzzustände abgespeichert. Die Fehlerausgabe erfolgt alle EpochsPerErrCheck Lernepochen. Glossar In diesem Kapitel werden Begriffe und Abkürzungen, die im Laufe der Diplomarbeit auftauchen der Übersichtlichkeit halber aufgelistet und kurz beschrieben. Backpropagation → Rückpropagierung BPTT Abkürzung für backpropagation through time. Ein Lernverfahren für → rekurrente Netze. CEC Abkürzung für constant error carousel. Zentraler Baustein einer → LSTM Zelle. Das konstante Fehlerkarussell besteht aus einem Netzknoten mit Identitätsfunktion und mit einer 1.0-gewichteten Kante auf sich selbst. Dynamik Im Musik-Bereich bezieht sich die Dynamik auf Lautstärkenveränderungen. Bei Tasteninstrumenten spricht man auch von Anschlagdynamik. In dieser Diplomarbeit wurde die Dynamik in Gesamtdynamik“ (bezogen ” auf den Verlauf des Stücks) und auf notenbezogene Anschlagdynamik’ (im ” Kontext einzlner Noten) unterteilt. EDL Abkürzung für Event differences list. Ein EDL-Datenstrom (bzw. eine EDL-Datei) repräsentiert mit drei Parametern die Unterschiede zwischen zwei → EVL-Datenströmen (normalerweise Notentext und Interpretation). EVL Abkürzung für Eventlist. EVL ist ein für diese Diplomarbeit entwickeltes Format zur Darstellung von Musikdaten als Ereignisstrom mit sechs Parametern. EVL-Daten können in einer EVL-Datei gespeichert werden. FF-Netze Abkürzung für Feed-Forward-Netze → vorwärtsgerichtete Netze Generalisierung Kernfrage beim Training → künstlicher neuronaler Netze. Kann ein Netz von den Trainingsdaten einer Problemstellung auf richtige Ausgaben bei ungesehenen Netzeingaben verallgemeinern, so spricht man von Generalisierungsfähigkeit. Klaviatur Die Tasten eines Klaviers KNN Ein Forschungsgebiet der künstlichen Intelligenz ist das der künstlichen neuronalen Netze. Sie bestehen aus miteinander verknüpften → Neuronen. 85 GLOSSAR 86 LSTM Abkürzung für long short-term memory. Spezielle Netzarchitektur, bestehend aus LSTM-Blöcken und LSTM-Zellen. Eine LSTM-Zelle besitzt einen Zustand, dieser wird im → CEC gespeichert. MIDI Abkürzung für musical instrument digital interface. Datenübertragungsprotokoll für musikalische Steuerinformationen. Mit MIDI verknüpft ist auch das Standard MIDI-Dateiformat. Momentum Parameter für Netztraining. Das Momentum kann das Training entscheidend beschleunigen. Monophonie Einstimmigkeit bei Musik. Monophone Musik besteht nur aus einzeln gespielten Tönen. Gegensatz → Polyphonie MSE Abkürzung für mean squared error. Der mittlere quadratische Fehler ist im Bezug auf → KNNs das arithmetische Mittel der Abweichungsquadrate von Ist- und Sollwerten an den Netzausgaben. Neuron Grundlegende Entität eines → KNNs. Neuronen sind durch gewichtete Kanten miteinander verbunden. Eingaben werden meist aufsummiert, mittels einer Aktivierungsfunktion gequetscht und dann wieder ausgegeben. OCR Abkürzung für optical character recognition (optische Zeichenerkennung) Overfitting → Überanpassung Partitur Notentext. Genauer: Untereinander angeordnete Noten der Einzelstimmen. Bei klassischer Klaviermusik besteht die Partitur normalerweise aus zwei Einzelstimmen. Polyphonie Bei Musik mit mehreren gleichzeitig erklingenden Tönen spricht man von Polyphonie (Mehrstimmigkeit). Gegensatz → Monophonie Rekurrente Netze Auf die Netzausgaben wirken sich nicht nur die Netzeingaben, sondern auch Aktivierungen interner Knoten aus. Das Netz besitzt Zyklen. Gegensatz → vorwärtsgerichtete Netze Rhythmik Bezeichnet die zeitliche Abfolge von Noten oder Ereignissen in einem Musikstück. Die Rhythmik wird in dieser Arbeit in die zwei Bereiche moto” risch bedingte zeitliche Verschiebungen und unterbewusste Umformungen“ und Temposchwankungen“ unterteilt. ” RTRL Abkürzung für real-time recurrent learning. Ein Lernverfahren für → rekurrente Netze. Rückpropagierung Das am weitesten verbreitete Lernverfahren bei → KNNs. Gewichte des Netzes werden durch das aus der Optimierung bekannte Gradientenabstiegsverfahren angepasst. Dadurch wird der Fehler an der Netzausgabe minimiert. GLOSSAR 87 Sequenzer Einheit zur parametrisierten Erzeugung von Klangfolgen und Musik. Neben Sequenzer-Hardware gibt es auch eine Vielzahl von SequenzerProgrammen. Sythesizer Gerät zur Klangerzeugung. Der jeweilige Klang kann entweder durch eine komplexe elektronische Verschaltung oder durch die Wiedergabe einer vorher aufgenommenen Klangquelle generiert werden. Überanpassung (engl. overfitting) Oft auftretendes Phänomen beim Netztraining. Es werden nicht mehr die Gesetzmäßigkeiten mit denen man von einer Eingabe auf die richtige Ausgabe schließen kann erlernt, sondern alle Eingaben einfach auswendig gelernt. Überanpassung tritt meist dann auf, wenn das Netz für eine gegebene Problemstellung zu viele Gewichte und Kanten besitzt. Validierungs-Menge Während des Netztrainings kann man zusätzlich den Fehler auch mit einer Validierungs-Menge berechnen. Steigt dieser Fehler an, während der für den Gradientenabstieg verwendete Fehler weiter sinkt, tendiert das Netz zur → Überanpassung. Vorwärtsgerichtete Netze Azyklischer Sonderfall eines → KNNs. Das Netz kann keinen internen Zustand annehmen. Gegensatz → rekurrente Netze Literaturverzeichnis und Verweise [1] Auflistung gängiger Sequenzer-Programme zur Erstellung und Nachbearbeitung von MIDI-Dateien → http://www.sonicspot.com/sequencers.html. [2] Backpropagation: kurze Beschreibung des Verfahrens mit nützlichen Querverweisen → http://de.wikipedia.org/wiki/Backpropagation. [3] Begleitendes Material für die Diplomarbeit: Sourcecodes, Hörbeispiele, Analysen → http://www.xsession.de/uni/da oder die beigelegte CD-ROM. [4] C++-Bibliothek für neuronale Netze mit LSTM-Unterstützung. Programmierer: Alex Graves (alex@idsia.ch) vom Istituto Dalle Molle di Studi sull’Intelligenza Artificiale (IDSIA). Informationen zur zukünfigen Downloadmöglichkeit → http://www.idsia.ch/~alex. [5] Classical Piano Midi Page. Archiv mit zahlreichen MIDI-Dateien zum Download → http://www.piano-midi.de. [6] Internationale Yamaha Homepage → http://www.yamaha.com. [7] MIDI-Datei-Archiv mit übersichtlicher Indizierung nach Komponisten. Für die MIDI-Dateien gibt es größtenteils zusätzlich eine mit MusiXTex gesetzte Version der Partitur. → http://www.icking-music-archive.org. [8] MIDI Manufacturers Association Homepage → http://www.midi.org. [9] netCDF (Network Common Data Form) von Unidata. Bibliothek zur komprimierten Ablage wissenschaftlicher Daten. Informationen und Download → http://www.unidata.ucar.edu/packages/netcdf. [10] Umfangreiches MIDI-Datei-Archiv mit Informationen über die jeweiligen Interpreten. Als Einschränkung sind nur zwei Dateien pro Tag downloadbar. → http://www.kunstderfuge.com. [11] C. M. Bishop. Neural networks for pattern recognition. Oxford University Press, 1995. 88 LITERATURVERZEICHNIS UND VERWEISE 89 [12] G. Dorffner. Folien zu Neural Computation 1 - Vorlesung am Zentrum für Hirnforschung des Instituts für medizinische Kybernetik und artificial intelligence der medizinischen Universität Wien, WS 05/06. [13] B. Hammer. Script zu Neuronale Netze - Vorlesung am Institut für Informatik der Universität Osnabrück, WS 99/00. [14] R. Ramirez A. Hazan. Modeling Expressive Music Performance in Jazz. In Proceedings of “Artificial Intelligence in Music and Art”, Clearwater, USA, 2005. [15] S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diplomarbeit am Institut für Informatik, Lehrstuhl Prof. Brauer, Technische Universität München, 1991. [16] S. Kienzl. Automatische Erkennung und Verarbeitung polyphoner Gitarrenklänge. Diplomarbeit am Institut für Informatik, Lehrstuhl V, Technische Universität München, 2005. [17] J. Schmidhuber. An O(n3 ) learning algorithm for fully recurrent networks. Technical Report FKI15191, Institut für Informatik, Technische Universität München, 1991. [18] R. J. Williams und D. Zipser. Gradientbased learning algorithms for recurrent connectionist networks. Technical Report NUCCS909, Northeastern University Boston, College of Computer Science, 1990. [19] R. Ramirez, A. Hazan E., Gómez und E. Maestre. Understanding expressive transformations in saxophone jazz performances using inductive machine learning. In Proceedings of Sound and Music Computing, 2004. [20] F. A. Gers, J. Schmidhuber und F. Cummins. Learning to forget: Continual prediction with LSTM. Neural Computation 12(10), pages 2451–2471, 2000. [21] D. Wierstra, J. Schmidhuber und F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Prediction. In Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), pages 853–858, 2005. [22] A. Tobudic und G. Widmer. Relational ibl in classical music. Technical Report TR-2004-12, Österreichisches Forschungsinstitut für Artificial Intelligence Wien, 2004. [23] A. Tobudic und G. Widmer. Learning to play like the great pianists. In Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), pages 871–876, 2005. LITERATURVERZEICHNIS UND VERWEISE 90 [24] R. J. Williams und J. Peng. An efficient gradient-based algorithm for online training of recurrent network trajectories. Neural Computation 4, pages 491–501, 1990. [25] A. Graves und J. Schmidhuber. Framewise phoneme classification with bidirectional LSTM networks. In Proceedings of the International Joint Conference on Neural Networks (IJCNN), 2005. [26] F. A. Gers und J. Schmidhuber. Recurrent nets that time and count. In Proceedings of the International Joint Conference on Neural Networks (IJCNN), 2000. [27] F. A. Gers und J. Schmidhuber. LSTM recurrent networks learn simple context free and context sensitive languages. IEEE Transactions on Neural Networks 12(6), pages 1333–1340, 2001. [28] F. A. Gers, N. Schraudolph und J. Schmidhuber. Learning precise timing with LSTM recurrent networks. Journal of Machine Learning Research 3, pages 115–143, 2002. [29] S. Hochreiter und J. Schmidhuber. Long short-term memory. Neural Computation 9(8), pages 1735–1780, 1997. [30] S. Russell und P. Norvig. Künstliche Intelligenz: ein moderner Ansatz. Pearson Studium, 2. Auflage, 2004.