Image Processing on GPU
Transcription
Image Processing on GPU
STUDENTEN Clemens Blumer Dominik Oriet BETREUER Marcus Hudritsch AUFTRAGGEBER Prof. Dr. Thomas Vetter Departement Informatik Universität Basel Experte Pascal Paysan Diplomarbeit DA_11_0506 Basel, Januar 2006 Diplomarbeit Image Processing on GPU Vorwort Im Rahmen unserer Diplomarbeit beschäftigten wir uns während 10 Wochen intensiv mit der GPUProgrammierung. Dabei durchlebten wir verschiedenste Höhen und Tiefen. Erfreulicherweise überwiegten rückblickend gesehen die Höhen klar. Ein grosser Dank geht an unseren Betreuer Marcus Hudrtisch, der uns viele Freiheiten liess, aber uns trotzdem dabei half, das Ziel der Arbeit nicht zu vergessen. Auch versuchte er uns jeweils in die richtige Bahn zu lenken und schenkte unserer Diplomarbeit grosses Interesse und viel Zeit, obwohl er noch viele andere Mitstudenten betreuen musste. Auch unserem Auftraggeber, Thomas Vetter und seiner Gruppe sind wir dankbar. Sie ermöglichten uns mit Ihrem Auftrag eine interessante Diplomarbeit und boten uns nebst einer guten Arbeitsumgebung und technischer Ausrüstung auch stets fachliche Unterstützung. Last but not least möchten wir auch all denjenigen Personen danken, die uns in sonst irgendeiner Form unterstützten und hier nicht aufgeführt sind. Basel, Januar 2006 Seite 2/42 Diplomarbeit Image Processing on GPU Abstract Wir wollen aufzeigen, dass es grundsätzlich möglich ist, Bildverarbeitung auf der GPU zu betreiben. Die Stärken und Schwächen dieser Methodik machen wir ersichtlich, indem wir einen aufwändigen Algorithmus auf der Grafikhardware implementieren. Dieser Algorithmus, der den Optischen Fluss zweier Bilder berechnen kann, wird an der Uni Basel für gewisse Projekte gebraucht und wird durch unsere Implementierung drastisch beschleunigt. Damit unser erworbenes Wissen nicht verloren geht, beschreiben wir detailliert, wie auf der Grafikkarte Bildverarbeitung betrieben werden kann. Ausserdem zeigen wir alle herausgefundenen Tricks auf, um Fragmentprogramme möglichst optimal zu schreiben. Basel, Januar 2006 Seite 3/42 Diplomarbeit Image Processing on GPU Inhaltsverzeichnis Inhaltsverzeichnis.................................................................................................................................... 4 1 Ausgangslage und Ziele .................................................................................................................. 5 2 Konzept ........................................................................................................................................... 7 3 Bildverarbeitung: Optischer Fluss................................................................................................... 8 3.1 Optischer Fluss und Umkehrung............................................................................................. 8 3.2 Warp ........................................................................................................................................ 9 3.3 Gradienten, Eigenwerte und Eigenvektoren.......................................................................... 10 3.4 Farbbilder .............................................................................................................................. 13 4 Grundlagen (GP)GPU-Programmierung ....................................................................................... 14 4.1 Programmfluss mit der CPU ................................................................................................. 14 4.1.1 Laden der Textur ........................................................................................................... 14 4.1.2 Fragment Programm laden ............................................................................................ 15 4.1.3 Setzen des Viewports und der orthogonalen Projektion................................................ 15 4.1.4 Übergeben der Uniform Variablen................................................................................ 16 4.1.5 Quad zeichnen ............................................................................................................... 16 4.1.6 Abspeichern der Textur ................................................................................................. 16 4.2 Fragmentprogramm ............................................................................................................... 17 4.2.1 Simpler Vergleich von GPU und CPU Programmen .................................................... 17 4.2.2 Binomial-Filter Beispiel ................................................................................................ 17 4.2.2.1 Binomialfilter auf der CPU ....................................................................................... 18 4.2.2.2 Binomialfilter auf der GPU ....................................................................................... 18 4.2.2.3 Die Unterschiede ....................................................................................................... 18 4.2.3 Tipps & Tricks............................................................................................................... 19 4.2.3.1 Möglichst einfacher Programmfluss.......................................................................... 19 4.2.3.2 Möglichst viel vorberechnen ..................................................................................... 19 4.2.3.3 Framebuffer Objekte ................................................................................................. 19 4.2.3.4 Textur-Zugriffe.......................................................................................................... 19 4.2.4 Readback von der Textur oder des Framebuffers.......................................................... 20 4.2.4.1 Zeitmessungen am CannyEdge ................................................................................. 20 4.2.5 Render-to-Texture ......................................................................................................... 21 4.2.5.1 Beispiel mit zwei Texturen und einem Framebuffer Object ..................................... 22 5 Canny Edge auf der GPU .............................................................................................................. 24 6 Optischer Fluss auf der GPU......................................................................................................... 27 6.1 Ablauf des Optischen Flusses auf der GPU .......................................................................... 27 6.1.1 Die Klasse OpticalFlowGPU......................................................................................... 27 6.2 Benchmark ............................................................................................................................ 29 6.2.1 Flussfeld ........................................................................................................................ 29 6.2.2 Bildinitialisierung.......................................................................................................... 29 6.2.3 Morphing....................................................................................................................... 29 7 Demo-Applikation......................................................................................................................... 30 7.1 Technischer Aufbau .............................................................................................................. 31 7.1.1 Kurze Beschreibung des Aufbaus ................................................................................. 31 7.2 Funktionsumfang................................................................................................................... 32 8 Ausblick ........................................................................................................................................ 35 8.1 Einsatz bei Projekten von Thomas Vetter ............................................................................. 35 8.2 Image Processing on GPU..................................................................................................... 35 9 Fazit............................................................................................................................................... 37 A Screenshots.................................................................................................................................... 38 Quellenverzeichnis ................................................................................................................................ 41 Anhang: ................................................................................................................................................. 42 Basel, Januar 2006 Seite 4/42 Diplomarbeit Image Processing on GPU 1 Ausgangslage und Ziele Thomas Vetter hat einige Projekte am laufen, welche uns als Ausgangslage dienen. Es soll nicht etwas Neues für diese entwickelt werden. Vielmehr wollen wir herausfinden, ob es Sinn macht, für einzelne Teilbereiche (Bildverarbeitung) die GPU als Recheneinheit zu verwenden. Ein spezieller Aspekt unserer Arbeit gilt dabei dem Optischen Fluss. Dieser ist relativ interessant für Optimierungen, da er ziemlich rechenintensiv ist. Grundsätzlich ist es aber von Interesse zu wissen, wie die aktuelle Situation bezüglich der Bildverarbeitung auf der GPU aussieht. Das Ziel der Arbeit ist es, die Möglichkeiten der Bildverarbeitung auf der GPU darzulegen und im Speziellen eine Implementierung des Optischen Flusses auf der GPU umzusetzen. Von zentralem Interesse ist dabei jeweils der Performance-Gewinn. Zum besseren Verständnis dient ein kleiner Überblick, der aufzeigt, in welchem Bereich der Optische Fluss angewendet werden soll: Anhand einer Fotoaufnahme eines Gesichtes soll ein 3D-Modell des Kopfes entstehen. Dazu wird ein iterativer Prozess durchlaufen, der sich wiederholt. 1. Anhand von vorhandenen Parametern wird ein 3D-Modell des Kopfes erstellt. 2. Danach soll der Unterschied zwischen dem generierten und dem realen, fotografierten Gesicht durch den Optischen Fluss dargestellt werden. 3. Anhand des Flussfeldes kann eine Verbesserung der angewendeten Parameter vorgenommen werden. 4. Danach wird wiederum ein 3D-Modell des Kopfes mit den neuen Parametern erstellt und der Prozess wiederholt sich von vorne. Start Parameter-Set Start 3D-Modell rendern Optischer Fluss zw. Foto und 3D-Modell Ende Foto und Modell „identisch“? Parameter anhand vom Flussfeld optimieren Bild 1: Skizze Prozessablauf Basel, Januar 2006 Seite 5/42 Diplomarbeit Image Processing on GPU Nebst dem Verständnis der Bildverarbeitung auf der GPU ist auch das detaillierte Verständnis über den Optischen Fluss ein Ziel der Arbeit. Als letztes sollen dann die auf der GPU geschriebenen Algorithmen mit den Implementierungen auf der CPU verglichen werden. Basel, Januar 2006 Seite 6/42 Diplomarbeit Image Processing on GPU 2 Konzept Da der Ausgang der Arbeit offen und unsicher war, wurde das Konzept von Beginn an relativ flexibel gestaltet. Über das Thema Bildverarbeitung auf der GPU waren anfangs gar keine Kenntnisse vorhanden. Des Weiteren hatten wir noch sehr wenig Erfahrung in der GPU-Programmierung, weshalb wir uns zuerst darin einarbeiten wollten. Trotz des offenen Ausgangs und den wenigen Vorkenntnissen wurde ein Konzept mit einigen wenigen, aber wichtigen Eckpunkten erstellt. a) b) c) d) e) f) g) Einarbeitung in GPU-Programmierung und Tutorials Aktuellen Stand der Entwicklung anhand von bestehenden OpenSource-Projekten abschätzen Knowhow vertiefen anhand von kleinen Beispielen Optischen Fluss verstehen Optischen Fluss auf GPU implementieren Demo-Applikation mit GPU- und CPU-Version Dokumentation Tätigkeit/ Woche 1 2 3 4 5 6 7 8 9 10 a) b) c) d) e) f) g) Bild 2: Konzept Diplomarbeit Basel, Januar 2006 Seite 7/42 Diplomarbeit Image Processing on GPU 3 Bildverarbeitung: Optischer Fluss Laut Definition ist der Optische Fluss ein Vektorfeld zur Bewegungsangabe. Etwas detaillierter gemäss Quelle[13]: Mit dem Optischen Fluss wird ein Vektorfeld bezeichnet, das die 2D-Bewegungsrichtung und Geschwindigkeit für jeden Bildpunkt bzw. jedes Pixel einer Bildsequenz angibt. Das Konzept des Optischen Flusses wird zur Bewegungskontrolle in der visuellen Repräsentation verwendet und erfährt durch den automatisierten Datenfluss von digitalen Bildern einen starken Entwicklungsschub. Unbewusst setzen auch Menschen und Tiere dieses Prinzip ein. Quelle[13] Abschnitt „Anwendung bei der Biene und beim Menschen“: Bienen und andere Tierarten nutzen den Optischen Fluss, um Hindernissen auszuweichen und Abstände einfach schätzen zu können. Sie werten dazu offenbar die Bilder beider Facettenaugen aus und fliegen dann in die Richtung des Auges mit geringerem Optischen Fluss. Das führt auf einfachste Weise zu einer Flugbahn, die den größten Freiraum und die wenigsten Hindernisse vor sich hat. Ein ähnlicher Vorgang ist die Basis unserer alltäglichen Erfahrung im Fussgänger- und im Strassenverkehr: wir nehmen die Bewegung der anderen Verkehrsteilnehmer aus den Augenwinkeln wahr und berücksichtigen sie "unbewusst" bei der eigenen Fortbewegung. Schert hingegen ein Verkehrsteilnehmer aus diesem Fluss aus, ist unser Gesichtssinn sofort alarmiert und es wird teilweise sogar ein schützender Reflex ausgelöst, wie ein Sprung oder Kopf einziehen. Der Optische Fluss kommt somit ursprünglich aus der Natur und das Prinzip wurde für die Bildverarbeitung übernommen. Grundsätzlich wurde zum Verständnis des Optischen Flusses die Quelle [2] verwendet. In diesem Kapitel soll der Optische Fluss aber nicht in allen Details erklärt werden. Es werden nur die Punkte angesprochen, welche für das Verständnis wichtig und unserer Meinung nach oft schlecht erklärt sind. Für das allgemeine Verständnis wird jedoch die Quelle als bekannt vorausgesetzt. 3.1 Optischer Fluss und Umkehrung Das Flussfeld stellt für jeden Pixel in Bild 1 dar, wo sich dessen passender Pixel im Bild 2 befindet. Man erhält also für jeden Pixel in Bild 1 ein Vektor. Bild 3: Umkehrung Flussfeld Basel, Januar 2006 Seite 8/42 Diplomarbeit Image Processing on GPU Es wird angenommen, dass alle Pixel weiss sind, bis auf einer, welcher Rot ist. Dieser wird nun verschoben. Der Verschiebungsvektor für den roten Pixel ist der blaue Pfeil. Dieser zeigt auf die Position, wo im Bild 2 der rote Pixel neu zu finden ist. Der Vektor ist also korrekt. Geht man nun aber hin und kehrt diesen Vektor bzw. das Flussfeld, erhält man den grünen Pfeil. Nun wird ja oft angenommen, dass das umgekehrte Flussfeld die Veränderung von Bild 2 zu Bild 1 darstellt. Dies ist aber falsch. Es ist klar erkennbar, dass man nun an der Stelle des roten Pixels in Bild 2 nicht den grünen Pfeil hat. Dieser befindet sich an einem völlig falschen Ort. Für kleine Bewegungen mag dieser Fehler nicht bemerkt werden, jedoch darf das Flussfeld nicht einfach invertiert werden, um korrekte Ergebnisse zu erhalten. Will man den Fluss von Bild 2 zu Bild 1, muss eine neue Berechnung getätigt werden. 3.2 Warp Hier behandeln wir nur den Backward-Warp. Dieser ist deutlich einfacher und wird am häufigsten eingesetzt. Für den Forward-Warp müsste man auch wissen, wohin jeder Pixel wandert und nicht wo dessen passendes Gegenstück im 2. Bild ist. Beim Warp wird ein Bild durch ein Verschiebungsvektorfeld in ein anderes übergeführt. Es sei ein Verschiebungsvektorfeld (Dx,Dy) gegeben. Für jeden Pixel wird folgender neue Wert O(x,y) aus dem alten Wert I(x,y) berechnet: x' = x + Dx( x, y ) y ' = y + Dy ( x, y ) O( x, y ) = bilinear ( I ( x, y ), x' , y ' ) Dabei muss, da für x’ und y’ kaum Integer-Werte herauskommen, bilinear interpoliert werden: δx = Dx − floor ( Dx) δy = DY − floor ( Dy ) O ( x, y ) = (1 − δx)(1 − δy ) * I ( floor ( x' ), floor ( y ' )) + δx(1 − δy ) * I ( floor ( x' ) + 1, floor ( y ' )) + (1 − δx)δy * I ( floor ( x' ), floor ( y ' ) + 1) + δx + δy * I ( floor ( x' ) + 1, floor ( y ' ) + 1) Bsp.: (x,y) sei (0,0) Dx = 1.3 Dy = 1.3 δ x’ = 1 y’ = 1 δ x = 0.3 y = 0.3 Bild 4: Bilineare Interpolation Basel, Januar 2006 Seite 9/42 Diplomarbeit Image Processing on GPU An der Position (0,0) findet eine bilineare Interpolation aus den markierten Bereichen statt, wobei folgende Gewichtung gilt: (1,1): 0.49 (2,1): 0.21 (2,1): 0.21 (2,2): 0.09 1.00 Hinweis: Ein Warp darf nicht mit Morphing verwechselt werden. Beim Warpen wird nur die Geometrie verändert. Beim Morphen hingegen verändert sich sowohl die Geometrie als auch die Textur, wobei die Warp Funktion verwendet wird. 3.3 Gradienten, Eigenwerte und Eigenvektoren Zur Bestimmung des Flusses werden die Gradienten gebildet. Dies geschieht bezüglich x- und yRichtung und dem zeitlichen Gradienten. Die Gradienten entsprechen den Ableitungen: F2 ( x + 1, y ) − F2 ( x − 1, y ) 2 .0 F ( x, y + 1) − F2 ( x, y − 1) F y ( x, y ) = 2 2 .0 Ft ( x, y ) = F2 ( x, y ) − F1 ( x, y ) Fx ( x, y ) = Die so genannte Optical Flow Constraint wird durch folgende Gleichung dargestellt und stellt die Bedingungen für den Fluss dar: v x Fx + v y Fy − Ft = 0 Um die Bewegung v = (vx, vy)T am Punkt (x,y) zu erhalten wird der Fehler minimiert: E = ∑ (v x Fx + v y Fy − Ft ) 2 (Die Summe wird über ein Fenster R=wh gebildet (typ. 5x5).) Dies geschieht durch Ableitung nach vx bzw. vy, welche Null sein sollen: E = ∑ (2 * (v x Fx + v y Fy − Ft ) * Fx ) = 0 δv x → v x ∑ ( Fx Fx ) + v y ∑ ( Fx Fy ) = ∑ ( Ft Fx ) E = ∑ (2 * (v x Fx + v y Fy − Ft ) * Fy ) = 0 δv y → v x ∑ ( Fx Fy ) + v y ∑ ( Fy Fy ) = ∑ ( Ft Fx ) Oder in Matrix Schreibweise: Basel, Januar 2006 Seite 10/42 Diplomarbeit Image Processing on GPU ∑ ( Fx Fx ) ∑ ( Fx Fy ) ∑ ( F F ) ∑ ( F F ) x y y y ∑ ( Fy Ft ) v x * = ∑ ( Fy Ft ) v y W *v = γ → Der Fluss kann durch Errechnen der Eigenwerte und Eigenvektoren ermittelt werden. Gesucht sei der Eigenwert von: a b A= b c a − λ A − λE = b b c − λ Eigenwert: det( A − λE ) = 0 det( A − λE ) = (a − λ )(c − λ ) − b 2 = λ2 − λ (a + c) + ac − b 2 = 0 2 Quad. Gleichung: x + px + q = 0 2 λ1, 2 = → a+c a 2 + 2ac + c 2 − 4ac + 4b 2 ± 2 4 x1, 2 p p = ± −q 2 2 = (a − c) 2 + 4b 2 a+c ± 2 4 Da die Matrix symmetrisch ist, reduziert sich das Gleichungssystem für die Eigenvektoren auf eine Gleichung. Eine Unbekannte kann frei gewählt werden (z.B. x2=1) ( A − λE ) x = 0 b x1 a − λ =0 b c − λ x 22 Daraus folgen die 2 Gleichungen: (a − λ ) x1 + bx 2 = 0 (1) bx1 + (c − λ ) x 2 = 0 (2) Behauptung: Gleichung (1) sei ein Vielfaches von Gleichung (2) und deshalb reduziert sich das Gleichungssystem auf eine Gleichung mit 2 Unbekannten, wobei eine davon frei gewählt werden kann: Damit (1) ein Vielfaches von (2) ist, gilt: a−λ b = b c−λ (a − λ )(c − λ ) = b 2 → ac − λ (a + c) + λ = b 2 2 → λ − λ (a + c) + ac − b = 0 2 Basel, Januar 2006 2 Seite 11/42 Diplomarbeit Image Processing on GPU Aufgelöst folgt für : λ λ1, 2 a+c a 2 + 2ac + c 2 − 4ac + 4b 2 ± 2 4 = = a+c (a − c) 2 + 4b 2 ± 2 4 q.e.d . Dies entspricht den Eigenwerten. Somit ist die Bedingung erfüllt. Eine Gleichung kann also fallen gelassen werden: (a − λ ) x1 + bx 2 = 0 x1 = − wobei gilt (frei gewählt): x2 = 1 b b = a−λ λ −a b Φ 1 = λ − a 1 normieren!! Des Weiteren gilt, dass die Eigenvektoren einer symmetrischen Matrix orthogonal aufeinander stehen. Deshalb reicht die Berechnung eines Vektors und für den zweiten folgt: 1 b Φ2 = − λ − a normieren!! Die Berechnung der Eigenwerte erfolgt mit der Matrix W. Des Weiteren gilt: v = α max Φ max + α min Φ min wobei: α max = α min = Φ Tmax γ λmax Φ Tmin γ λmin Für v gilt: v=0 wenn λmax < 1 v = α max Φ max wenn λmax >> λmin v = α max Φ max + α min Φ min sonst Für das grundsätzliche Verständnis über Eigenvektoren und Eigenwerte sei auf die allgemein bekannten Mathematik Bücher hingewiesen. Basel, Januar 2006 Seite 12/42 Diplomarbeit Image Processing on GPU 3.4 Farbbilder Die Optical Flow Constraint (siehe oben) kann auch aufgelöst und die Summen über Kanäle und Regionen gebildet werden: ∑ ( Fx Fx ) ∑ ( Fx Fy ) ∑ ( F F ) ∑ ( F F ) x y y y ∑ ( Fy Ft ) v x * = ∑ ( Fy Ft ) v y → W *v = γ Daraus folgt: v = W −1 * γ a b A= b c 1 d − b ad − bc − c a A −1 = → Woraus folgt: det(W ) = ∑ Fx Fx * ∑ Fy Fy − ∑ Fx Fy * ∑ Fx Fy v= ∑ Fy Fy 1 * det( w) − ∑ Fx Fy − ∑ Fx Fy ∑ Fx Ft * ∑ Fx Fx ∑ Fy Ft Wobei nun auch noch die Kanäle aufsummiert werden. entspricht Kanäle Nachbarn ∑ ∑ ∑ Summen über Nachbarschaft (z.B. 5x5) und Kanäle (rgb). K = Kanäle; N = Nachbarn vx = vy = ∑ ∑ (F F )* ∑ ∑ (F F ) − ∑ ∑ (F F ∑ ∑ (F F ) * ∑ ∑ (F F ) − ∑ ∑ (F F K N y y K N x t K N x y K N x x K N y y K N x y )* ∑ ∑ (F F ) )* ∑ ∑ (F F ) K N y t K N x y ∑ ∑ (F F ) * ∑ ∑ (F F ) − ∑ ∑ (F F )* ∑ ∑ (F F ) ∑ ∑ (F F ) * ∑ ∑ (F F ) − ∑ ∑ (F F )* ∑ ∑ (F F ) K N x x K N y t K N x y K N x t K N x x K N y y K N x y K N x y Sollte die Determinante Null sein, sind vx und vy auch 0. Der Ansatz, die Summen über die Kanäle zu bilden, kommt daher, dass jeder Kanal für sich eine korrekte Repräsentation der Szene darstellt. Es gibt auch Versuche, bei denen anstelle von Farbbildern, welche nur wenig mehr Information als Graustufen-Bilder bieten, andere Aufnahmemethoden verwendet werden. Unter anderem wurde die Kombination der Aufnahme von klassischen Graustufen-Bildern und Infrarot-Bildern erwähnt. Je mehr Kanäle bzw. Aufnahmemedien vorhanden sind, umso grösser ist dadurch auch der Informationsgehalt. Basel, Januar 2006 Seite 13/42 Diplomarbeit Image Processing on GPU 4 Grundlagen (GP)GPU-Programmierung Normalerweise wird die GPU dazu gebraucht, 3D Spiele beschleunigen zu können. Somit wird die CPU entlastet und kann sich auf andere Aufgaben konzentrieren. In unserem Fall möchten wir die GPU dazu benützen, rechenintensive Bildverarbeitung auf einer handelsüblichen Consumer-Grafikkarte betreiben zu können. Für unsere Zwecke benützen wir lediglich Fragmentprogramme. Vertexprogramme werden in unserem Fall nicht benötigt, da wir nur Bilddaten von Texturen manipulieren wollen. Heutige Grafikprozessoren besitzen je nach Modell bis zu 24 Pixelpipelines (z.B. nVidia GeForce 7800 GTX). Dies bedeutet, dass ein Programm parallelisierbar sein muss, um die Leistung des Prozessors vollständig ausnutzen zu können. Filteroperationen, wie sie bei der Bildverarbeitung zahlreich vorkommen, sind dazu sehr häufig geeignet. Ein Beispiel des Canny Edge Filters wird im zweiten Unterkapitel gezeigt. Zu beachten ist, dass nicht alles von der GPU berechnet wird. Es werden lediglich die rechenintensiven Filteroperationen darauf gerechnet. Die CPU dient dazu, den Programmfluss zu steuern. Wie kann man nun ein einfaches Bildverarbeitungsprogramm von der GPU berechnen lassen? Das wollen wir hier in den nächsten beiden Unterkapiteln zeigen. Voraussetzung für das Verständnis ist allerdings eine gewisse Vorkenntnis über die Grafikkartenprogrammierung. Es wird hier keine Einführung in die Shaderprogrammierung gemacht, da dieses Thema in der Literatur[12] bestens erklärt wird. 4.1 Programmfluss mit der CPU Folgende Vorgehensweise wird empfohlen, um ein Bildverarbeitungsprogramm laufen zu lassen. 1. 2. 3. 4. 5. 6. 4.1.1 Laden der Textur Fragment Programm laden Setzen des Viewports und der orthogonalen Projektion Übergeben der Uniform Variablen Quad zeichnen Abspeichern der Textur Laden der Textur Es gibt eine Bibliothek namens DevIL, mit welcher Bilder ziemlich einfach in OpenGL eingebunden werden können. Dies kann mit folgenden Befehlen erreicht werden: ilInit(); ilLoadImage("BildnameIN.bmp"); if (ilGetInteger(IL_IMAGE_FORMAT)!=IL_BGRA) ilConvertImage(IL_BGRA, IL_UNSIGNED_BYTE); Danach folgen die gewohnten OpenGL Befehle, um das Bild als Textur anzulegen: glGenTextures(1, texName); glBindTexture(GL_TEXTURE_2D, texName); Basel, Januar 2006 Seite 14/42 Diplomarbeit Image Processing on GPU glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_NEAREST); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_NEAREST); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_S, GL_CLAMP); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_T, GL_CLAMP); glTexImage2D(GL_TEXTURE_2D, 0, GL_RGBA, width, height, 0, GL_BGRA, GL_UNSIGNED_BYTE, ilGetData()); Wichtig in diesem Zusammenhang ist, dass beim Parameter GL_TEXTURE_WRAP_S/T der Wert GL_CLAMP zugewiesen ist. Dies hat zur Folge, dass die Textur an den Kanten wiederholt wird. Wenn zum Beispiel ausserhalb der Textur gelesen wird, bekommt man die entsprechende Farbe des wiederholten Randes zurück. Das kann nützlich sein, wenn das Randproblem bei einer Filterung durch Wiederholen des Randes gelöst werden soll. Mit ilGetData() werden die Bilddaten des zuvor geladenen Bildes gelesen. Die Wahl des internen Farbformates hat einen direkten Zusammenhang mit der Geschwindigkeit. Von nVidia[8] wird empfohlen, das GL_BGRA Format zu verwenden, um eine möglichst hohe Datentransferrate zu erreichen. 4.1.2 Fragment Programm laden Mit den folgenden Codezeilen lässt sich ein Fragmentprogramm laden. progObj = glCreateProgramObjectARB(); fragObj = glCreateShaderObjectARB(GL_FRAGMENT_SHADER_ARB); glShaderSourceARB(fragObj, 1, (const GLcharARB **)&fragSrc, NULL); glCompileShaderARB(fragObj); glAttachObjectARB(progObj, fragObj); glLinkProgramARB(progObj); In der Methode glShaderSourceARB enthält fragSrc die Daten der Fragment Datei. Um Fehler beim Linken sichtbar zu machen, genügen folgende Zeilen. int len = 0; glGetObjectParameterivARB(progObj, GL_OBJECT_INFO_LOG_LENGTH_ARB, & len); if (len >1) { GLcharARB *log = new GLcharARB[len]; glGetInfoLogARB(progObj, len, 0, log); cerr << progName << " could not be linked:\n" << log << endl; exit(1); } 4.1.3 Setzen des Viewports und der orthogonalen Projektion Als erstes muss die Grösse des Bildschirmausschnitts festgelegt werden. glViewport(0, 0, width, height); Als nächstes muss die orthografische Projektion eingestellt werden. Diese bewirkt, dass alle Objekte in der Szene durch parallele Strahlen auf der Projektionsfläche abgebildet werden. glMatrixMode(GL_PROJECTION); glLoadIdentity(); gluOrtho2D(-1, 1, -1, 1); Basel, Januar 2006 Seite 15/42 Diplomarbeit Image Processing on GPU 4.1.4 Übergeben der Uniform Variablen Dem Shaderprogramm können verschiedene Werte übergeben werden, so zum Beispiel neben Integers oder Floats auch Texturen, Arrays und Vektoren. glUseProgramObjectARB(progObj); glUniform1iARB(glGetUniformLocationARB(progObj, "imageName"), 0); glUniform1ivARB(glGetUniformLocationARB(progObj, "intArrName"), 5, x); glUniform1fARB(glGetUniformLocationARB(progObj, "floatValName"), y); 4.1.5 Quad zeichnen Bis hierhin sind fast alle notwendigen Vorbereitungen getroffen. Um das Fragmentprogramm zu starten, muss ein Quad gezeichnet werden. glBegin(GL_QUADS); { glTexCoord2f(0, 0); glTexCoord2f(1, 0); glTexCoord2f(1, 1); glTexCoord2f(0, 1); } glEnd(); glVertex3f(-1, -1, -0.5f); glVertex3f( 1, -1, -0.5f); glVertex3f( 1, 1, -0.5f); glVertex3f(-1, 1, -0.5f); Mit diesem Vorgehen wird erreicht, dass die Textur in einem Bereich von 0 bis 1 angesprochen werden kann. Der Punkt (0/0) ist dabei in der linken unteren Ecke. 4.1.6 Abspeichern der Textur Das gerenderte Bild liegt nun im Framebuffer vor, sofern kein Framebuffer Objekt (FBO) verwendet wurde (siehe Kapitel 4.2.4). Um die Textur aus dem Buffer zu lesen, genügen folgende Zeilen. glBindTexture(GL_TEXTURE_2D, outTex); glCopyTexSubImage2D(GL_TEXTURE_2D, 0, 0, 0, 0, 0, width, height); Hiermit wird der Inhalt des Framebuffers in die Textur outTex geschrieben. Um die Textur abzuspeichern, können die folgenden DevIL Funktionen verwendet werden. ilEnable(IL_FILE_OVERWRITE); ilSaveImage("BildnameOUT.bmp"); Hinweis: Das Rendern in den Framebuffer funktioniert zwar gut, bringt aber einige Nachteile mit sich. Zum einen muss darauf geachtet werden, dass die Farbqualität der Bildschirmeinstellung auf 32bit gesetzt ist. Zum anderen können keine negativen Farbwerte ausgegeben werden. Ausserdem beträgt die maximale Grösse der Ausgabe soviel wie im System eingestellt ist. Und zu guter Letzt muss nach jeder Berechnung der Framebuffer in eine Textur zurückkopiert werden. Aus all diesen Gründen wird empfohlen, direkt in ein FBO zu rendern anstatt in den Framebuffer. Basel, Januar 2006 Seite 16/42 Diplomarbeit Image Processing on GPU 4.2 Fragmentprogramm Mit Fragmentprogrammen kann die eigentliche Bildverarbeitungslogik implementiert werden. Damit diese effizient ausgeführt werden können, sind einige Dinge zu beachten, die nachfolgend aufgelistet werden. 4.2.1 Simpler Vergleich von GPU und CPU Programmen CPU GPU for(int y=0; y<maxY ; ++y){ for(int x=0 ; x<maxX ; ++x){ // Berechnung pro Pixel } } /* Erhöhung von jedem Kanal um 30. Angenommen, das Bild liegt wie in einem Array vor (rgb rgb rgb rgb) */ Der Fragment-Shader beinhaltet bereits die 2 forSchleifen und macht diese dadurch überflüssig. glFragColor=texture2D(texName, gl_TexCoord[0].st)+30; outImg[(x+y*maxX)*3]=inImg[(x+y*maxX)*3]+30; outImg[(x+y*maxX)*3+1] =inImg[(x+y*maxX)*3+1]+30; outImg[(x+y*maxX)*3+2] =inImg[(x+y*maxX)*3+2]+30; // Zugriff auf Nachbarpixel (rgb-Kanäle) // z.b. x-1, y+1 nachbar[r]=inImg[(x-1+(y+1)*maxX)*3]; nachbar[g]=inImg[(x-1+(y+1)*maxX)*3+1]; nachbar[b]=inImg[(x-1+(y+1)*maxX)*3+2]; vec2 v=vec2(-1,1); //Verschiebung vec3 nachbar= texture2D(texName, gl_TexCoord[0].st+v).rgb; Es zeigt sich, dass der Shader-Code oft deutlich kürzer ist. Auch das Denken fällt einfacher, da man nicht auf jeden Kanal einzeln zugreifen muss, sondern wirklich das ganze Texel bzw. Pixel zur Verfügung hat. Jedoch muss man, sollte man die Kanäle „missbrauchen“ und z.B. 4 s/w Bilder in eine rgba-Textur füllen, berücksichtigen, dass man die richtigen Kanäle nimmt und kein Durcheinander veranstaltet. Es ist klar erkennbar, dass Pixeloperationen sehr einfach möglich sind. Die Schwäche kommt allerdings bei Operationen, wie z.B. dem durchschnittlichen Helligkeitswert eines s/w Bildes, zum Vorschein. Das ist normalerweise eine sehr einfache Funktion, welche alles aufsummiert und durch die Anzahl Pixel dividiert. Jedoch werden genau solche Operationen auf der GPU sehr komplex und dadurch auch langsam. Man arbeitet pro Pixel und hat keine Ausgabevariabel zu Verfügung. Die einzige Ausgabe erfolgt über den Framebuffer bzw. Texturen. Auch eine scheinbar einfache Aufgabe wie z.B. ein Bild auf der GPU horizontal zu spiegeln, ist ohne weiteres machbar, die Performance dürfte aber durch die sehr weiten Texturzugriffe deutlich sinken. 4.2.2 Binomial-Filter Beispiel Im Gegensatz zur klassischen Bildverarbeitung auf der CPU ist die Denkweise eines Fragmentprogramms ganz anders. Dies soll hier anhand eines einfachen Beispiels gezeigt werden. Basel, Januar 2006 Seite 17/42 Diplomarbeit Image Processing on GPU Zu beachten ist, dass das Randproblem bei diesem Beispiel vernachlässigt wurde und es alles andere als optimiert ist. Des Weiteren funktioniert das CPU Beispiel nur für Graustufenbilder, während dessen das GPU Beispiel auch für Farbbilder funktioniert. 4.2.2.1 Binomialfilter auf der CPU for (y=0; y<height; ++y) { for (x=0; x<width; ++x) { sum sum sum sum sum sum sum sum sum = += += += += += += += += inImg[POS(x-1, inImg[POS(x , inImg[POS(x+1, inImg[POS(x-1, inImg[POS(x , inImg[POS(x+1, inImg[POS(x-1, inImg[POS(x , inImg[POS(x+1, y-1)]; y-1)] * y-1)]; y )] * y )] * y )] * y+1)]; y+1)] * y+1)]; 2; 2; 4; 2; 2; outImg[POS(x,y)] = sum/16; } } Dieser Programmausschnitt sollte soweit selbsterklärend sein. 4.2.2.2 Binomialfilter auf der GPU uniform sampler2D inImg; void main(void) { vec4 sum; sum = texture2D(inImg, sum += texture2D(inImg, sum += texture2D(inImg, sum += texture2D(inImg, sum += texture2D(inImg, sum += texture2D(inImg, sum += texture2D(inImg, sum += texture2D(inImg, sum += texture2D(inImg, gl_TexCoord[0].xy gl_TexCoord[0].xy gl_TexCoord[0].xy gl_TexCoord[0].xy gl_TexCoord[0].xy gl_TexCoord[0].xy gl_TexCoord[0].xy gl_TexCoord[0].xy gl_TexCoord[0].xy + + + + + + + + + vec2(-step, vec2(0 , vec2(step , vec2(-step, vec2(0 , vec2(step , vec2(-step, vec2(0 , vec2(step , -step)); -step)) * -step)); 0 )) * 0 )) * 0 )) * step )); step )) * step )); 2.0; 2.0; 4.0; 2.0; 2.0; gl_FragColor = sum/16.0; } Mit uniform sampler2D inImg wird das Bild in Form einer Textur dem Fragment Programm übergeben. Mit texture2D wird auf die Textur zugegriffen. Gl_Coord[0].xy stellt die aktuelle Position dar, in der sich das Programm im Moment befindet. step ist die Distanz von Pixel zu Nachbarpixel. Gl_FragColor repräsentiert den Ausgabepixel. 4.2.2.3 Die Unterschiede Das Auffälligste ist, dass im Shaderprogramm keine for-Anweisung zu finden ist. Der Grund dafür ist, dass beim CPU-Programm Zeile für Zeile abgearbeitet wird. Beim GPU-Programm ist das anders. Dort bestimmt die GPU, welcher Ausgabepixel gerade berechnet wird. Aus diesem Grund wird Basel, Januar 2006 Seite 18/42 Diplomarbeit Image Processing on GPU Gl_Coord[0].xy benötigt, damit das Fragmentprogramm weiss, an welcher Position es sich gerade befindet. Ein weiterer Unterschied ist der, dass das Shaderprogramm für jeden Pixelwert einen 4 dimensionalen Vektor zur Verfügung hat, welcher die RGBA Werte enthält. Aus diesem Grund lassen sich Farbbilder auf der GPU mit wesentlich weniger Aufwand berechnen als auf der CPU, da mit einer Vektormultiplikation die 4 Werte auf einmal ausgerechnet werden. 4.2.3 Tipps & Tricks Während unserer Diplomarbeit sind wir auf einige wichtige Optimierungsmöglichkeiten gestossen, die wir hier auflisten möchten. 4.2.3.1 Möglichst einfacher Programmfluss Shaderprogramme sollten möglichst ohne if, else Anweisungen auskommen. Da die Grafikkarte diese Programme parallel abarbeiten lässt, könnten sie sich sonst gegenseitig ausbremsen. 4.2.3.2 Möglichst viel vorberechnen Muss im Fragmentprogramm zum Beispiel der Wert width*height bekannt sein, könnte man diesen Ausdruck so im Programm hinschreiben. Das bewirkt allerdings, dass diese Multiplikation für jeden Pixel ausgeführt wird, da das Fragmentprogramm für jeden Bildpunkt aufgerufen wird. Bei einem 512x512 Pixel Bild wären das bereits 262’144 Multiplikationen! Besser ist es, wenn dieser Wert einmal von der CPU berechnet und dann per Uniform Variable dem Shaderprogramm übergeben wird. 4.2.3.3 Framebuffer Objekte Normalerweise wird direkt in den Framebuffer gerendert. Dies bringt allerdings den Nachteil, dass wenn das Ausgabebild für einen weiteren Schritt benötigt wird, dieses vom Framebuffer zurück in eine Textur geschrieben werden muss. Mit Framebuffer Objekten kann dieser Nachteil behoben werden. Detaillierte Informationen dazu können dem Kapitel 4.2.5 entnommen werden. 4.2.3.4 Textur-Zugriffe Texturzugriffe können die Performance von Fragmentshader-Programmen stark beeinflussen. Man sollte möglichst wenig Texturzugriffe in einem Programm haben. Allfällige Offsets sollten wenn möglich als Vektor oder Array dem Programm übergeben und nicht jeweils berechnet werden (siehe 4.2.3.2). Lässt man z.B. die Offsets für einen Filter in einer For-Schleife berechnen, wird die Geschwindigkeit deutlich schlechter sein, als wenn man die Offsets als Uniform-Array bzw. Vektor übergibt. Basel, Januar 2006 Seite 19/42 Diplomarbeit Image Processing on GPU 4.2.4 Readback von der Textur oder des Framebuffers Für den Bereich Bildverarbeitung ist oft ein Zurücklesen von Informationen bzw. des Bildes nötig, da dieses meist nicht nur angezeigt, sondern auch abgespeichert oder auf der CPU weiter verarbeitet werden soll. Verschiedenste Möglichkeiten bieten sich dafür an. Die einfachste ist, wenn sich das Endergebnis auf dem Framebuffer befindet. Ein einfaches Auslesen des Framebuffers ist möglich, was auch relativ schnell ist. Jedoch muss dafür bei render-to-texture die Ausgabe am Schluss auf den Framebuffer erfolgen. Ausserdem ist man in der Grösse eingeschränkt. void glReadPixels(Glint x, Glint y, Glsizei width, GLsizei format, Glenum type, GLvoid *pixels); height, GLenum Direktes Auslesen einer Textur. Dabei ist man deutlich langsamer, jedoch nicht mehr abhängig vom Framebuffer und kann die vollen Texturgrössen lesen. Auch kann das via render-to-texture in die Textur geschriebene Ergebnis direkt gelesen werden: void glGetTexImage(Glenum target, Glint level, Glenum format, Glenum type, GLvoid *pixels); Auslesen des Framebuffer Object. Wird ein render-to-texture mit Framebuffer Object durchgeführt, kann anstatt direkt die Textur auszulesen auch der Buffer ausgelesen werden. Dafür muss der Buffer aktiviert werden und die richtige Textur zugeordnet sein. Danach einfach den Buffer auslesen. Diese Methode erwies sich als die schnellste. Bsp: GLubyte * data = new GLubyte[_iWidth*_iHeight*4]; glBindFramebufferEXT(GL_FRAMEBUFFER_EXT, fbo); glDrawBuffer(GL_COLOR_ATTACHMENT0_EXT); glReadPixels(0 ,0 , _iWidth, _iHeight, GL_RGBA, GL_UNSIGNED_BYTE, data); glBindFramebufferEXT(GL_FRAMEBUFFER_EXT, 0); Methoden: void GenFramebuffersEXT(sizei n, uint *framebuffers); void DeleteFramebuffersEXT(sizei n, const uint *framebuffers); void glBindFramebufferEXT(int target, int framebuffer); void glDrawBuffer(Glenum mode); void glReadPixels(Glint x, GLint y, Glsizei width, Glsizei height, Glenum format, Glenum type, GLvoid *pixels); Referenz zu Framebuffer Object Extension, siehe [5]. 4.2.4.1 Zeitmessungen am CannyEdge Der mit FBO implementierte CannyEdge-Filter wurde gemessen. Folgende Schritte wurden 100-mal durchlaufen: - Die Daten des Inputbildes werden auf die Textur geschrieben Basel, Januar 2006 Seite 20/42 Diplomarbeit Image Processing on GPU - Der CannyEdge-Filter läuft mit aktiviertem FBO darüber Der Readback findet statt (2 Arten) Anzahl Wiederholungen 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 100 Readback-Art Bildgrösse Kein Texture FBO openCV Kein Texture FBO openCV Kein Texture FBO openCV Kein Texture FBO openCV 512*512 512*512 512*512 512*512 1024*1024 1024*1024 1024*1024 1024*1024 2048*2048 2048*2048 2048*2048 2048*2048 4096*4096 4096*4096 4096*4096 4096*4096 Dauer Total Readback (sec) (sec) 0.53 3.52 0.85 2.06 1.30 14.50 2.36 7.40 4.24 59.00 8.25 26.50 16.15 xxxx 32.35 96.8 Durchschn. Readback 0.000 3.000 0.350 0.000 0.030 0.004 0.000 13.300 1.370 0.000 0.133 0.014 0.000 56.000 5.310 0.000 0.560 0.053 0.000 xxxx 21.700 0.000 xxxx 0.022 Durch einzelne Optimierungen wurden die Messwerte der GPU-Version noch deutlich verbessert. Unter anderem wurde der Zugriff auf die Texturen verbessert. Siehe dazu auch Kapitel 4.2.3. 4.2.5 Render-to-Texture Render-to-Texture soll die Möglichkeit bringen, direkt in eine Textur zu rendern. Man erspart sich so das Rendern in den Framebuffer, um die Daten von dort wieder auszulesen und diese dann für die Weiterverarbeitung in eine Textur zu schreiben. Für den Einsatz von Framebuffer-Objekten ist die Extension „EXT_framebuffer_object“ (String: GL_EXT_framebuffer_object) nötig. Basel, Januar 2006 Seite 21/42 Diplomarbeit Image Processing on GPU Textur 1 Textur Fragmentshader Textur 1 Framebuffer Object Framebuffer Input- und OutputTextur wählen Textur rendern Fragmentshader Displayanzeige Framebuffer für Ausgabe aktivieren Bild 6: Rendern in Textur ohne FramebufferObjekt Textur rendern Display Bild 5: Rendern in Textur mit Framebuffer-Objekt 4.2.5.1 Beispiel mit zwei Texturen und einem Framebuffer Object Benötigte Attribute (Header-File): GLuint fbo, color[2]; Anlegen des Framebuffer Object (Konstruktor): glGenFramebuffersEXT(1, &fbo); Basel, Januar 2006 Seite 22/42 Diplomarbeit Image Processing on GPU Anlegen von zwei leeren Texturen (können auch mit Daten gefüllt werden): glGenTextures(2, color); glBindTexture(GL_TEXTURE_2D, color[0]); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_NEAREST); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_NEAREST); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_S, GL_CLAMP); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_T, GL_CLAMP); glTexImage2D(GL_TEXTURE_2D, 0, GL_RGBA, _iWidth, _iHeight, 0, GL_BGRA, GL_UNSIGNED_BYTE, NULL); glBindTexture(GL_TEXTURE_2D, color[1]); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MIN_FILTER, GL_NEAREST); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_MAG_FILTER, GL_NEAREST); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_S, GL_CLAMP); glTexParameteri(GL_TEXTURE_2D, GL_TEXTURE_WRAP_T, GL_CLAMP); glTexImage2D(GL_TEXTURE_2D, 0, GL_RGBA, _iWidth, _iHeight, 0, GL_BGRA, GL_UNSIGNED_BYTE, NULL); Framebuffer Object aktivieren und Texturen an Color-Attachment anhängen, danach zurück zum Framebuffer als Ausgabe wechseln: glBindFramebufferEXT(GL_FRAMEBUFFER_EXT, fbo); glFramebufferTexture2DEXT(GL_FRAMEBUFFER_EXT, GL_TEXTURE_2D, color[0], 0); glFramebufferTexture2DEXT(GL_FRAMEBUFFER_EXT, GL_TEXTURE_2D, color[1], 0); glBindFramebufferEXT(GL_FRAMEBUFFER_EXT, 0); GL_COLOR_ATTACHMENT0_EXT, GL_COLOR_ATTACHMENT1_EXT, Render-to-Texture-Bereich: Framebuffer Object aktivieren: glBindFramebufferEXT(GL_FRAMEBUFFER_EXT, fbo); Ziel wird Color-Attachment1 -> Ergebnis befindet sich in Textur color[1]. Quell-Textur ist color[0]: glDrawBuffer(GL_COLOR_ATTACHMENT1_EXT); glBindTexture(GL_TEXTURE_2D, color[0]); Zum Wechseln bzw. Ändern, einfach Argumente austauschen: glDrawBuffer(GL_COLOR_ATTACHMENT0_EXT); glBindTexture(GL_TEXTURE_2D, color[1]); Ausgabe in Textur bzw. Framebuffer Object deaktivieren: glBindFramebufferEXT(GL_FRAMEBUFFER_EXT, 0); Danach kann ganz normal wieder auf den Framebuffer gerendert werden. Anstelle einer festen Zahl kann man auch zuerst den aktuellen Framebuffer auslesen und später wieder aktivieren. So wird im Falle mehrerer Werte eine Verwechslung verhindert: GLint _currentDrawBuf glGetIntegerv(GL_DRAW_BUFFER, &_currentDrawbuf); Anmerkungen: Die benötigten Texturen, welche an das Framebuffer Object angehängt werden, müssen bezüglich Format und Grösse identisch sein!!! Vorteile: Man wird unabhängig von der Display-Grösse und kann auch problemlos grössere Texturen rendern. Zusätzlich entfällt das Kopieren vom Framebuffer in Texturen. Basel, Januar 2006 Seite 23/42 Diplomarbeit Image Processing on GPU 5 Canny Edge auf der GPU Anhand vom Beispiel des CannyEdge-Filters soll etwas auf die Implementierung von Bildverarbeitung auf der GPU eingegangen werden. Es wird jedoch keine vollständige Implementation dargelegt, sondern nur auf die wichtigsten Punkte hingewiesen. Für den Einsatz der Bildverarbeitung wird der Ansatz genommen, dass Bilder durch 2D-Texturen dargestellt werden. Filter werden entweder durch Matrizen oder durch kleine 2D-Texturen repräsentiert, wobei Matrizen zu empfehlen sind. Das Ausgabe-Bild wird durch den Framebuffer oder durch eine an ein Framebuffer Object angehängte Textur dargestellt. Für jeden Pixel wird ein neuer Wert errechnet, in dem, wie auf der CPU, die gewünschten Pixel mit dem Filter verrechnet werden. Auch hier können, wie auf der CPU, separierbare Filter realisiert werden. Empfindlicher als auf die Anzahl Multiplikationen ist die GPU auf die Anzahl beanspruchter Nachbarschaftstexel bzw. wie weit diese voneinander entfernt sind. Je grösser ein Filter ist, umso langsamer wird die Berechnung. Dies nicht nur durch die erhöhte Anzahl Berechnungen, sondern durch die Texturzugriffe. Grundsätzlich gilt es, die Anzahl der Texturzugriffe zu minimieren. Für die Implementation des CannyEdge-Filters wird ein standardmässiges Gerüst für GPUProgramme, wie in Kapitel 4.1 erklärt wird, verwendet. Hier sollen nur die verwendeten Fragmentprogramme dargestellt werden. Gauss-Filterung in X-Richtung uniform vec4 offset; uniform sampler2D texUnit0; // (1.0/_iWidth, 2.0/_iWidth, 0.0, 0.0) // Inputbild void main(void){ vec2 coord=gl_TexCoord[0].st; // horizontale Filterung vec4 oneL, twoL, oneR, twoR, current; // Auslesen der Nachbarn und des aktuellen Pixels oneL = texture2D(texUnit0, coord - offset.xz); twoL = texture2D(texUnit0, coord - offset.yz); oneR = texture2D(texUnit0, coord + offset.xz); twoR = texture2D(texUnit0, coord + offset.yz); current = texture2D(texUnit0, coord); vec4 tmp = vec4(0.0625*twoL+0.25*oneL+0.375*current+0.25*oneR+0.0625*twoR); gl_FragColor=tmp; } Gauss-Filterung in Y-Richtung uniform vec4 offset; uniform sampler2D texUnit0; // (0.0, 1.0/_iHeight, 2.0/_iHeight, 0.0) // Inputbild void main(void){ vec2 coord = gl_TexCoord[0].st; // vertikale Filterung vec4 oneU, twoU, oneD, twoD, current; // Auslesen der Nachbarn und des aktuellen Pixels oneU = texture2D(texUnit0, coord + offset.xy); twoU = texture2D(texUnit0, coord + offset.xz); Basel, Januar 2006 Seite 24/42 Diplomarbeit Image Processing on GPU oneD = texture2D(texUnit0, coord - offset.xy); twoD = texture2D(texUnit0, coord - offset.xz); current = texture2D(texUnit0, coord); vec4 tmp = vec4(0.0625*twoU+0.25*twoU+0.375*current+0.25*oneD+0.0625*twoD); gl_FragColor = tmp; } Gradienten uniform sampler2D texGrad; // Inputbild uniform vec4 offset; // (1.0/_iWidth, 1.0/_iHeight, 0.0, -1.0/_iHeight) void main(void){ vec4 t,b,l,r,tl,tr,bl,br; vec2 coord = gl_TexCoord[0].st; // auslesen der 8 Nachbarn t = texture2D(texGrad, coord + offset.zy); b = texture2D(texGrad, coord - offset.zy); l = texture2D(texGrad, coord - offset.xz); r = texture2D(texGrad, coord + offset.xz); tl = texture2D(texGrad, coord - offset.xw); tr = texture2D(texGrad, coord + offset.xy); bl = texture2D(texGrad, coord - offset.xy); br = texture2D(texGrad, coord + offset.xw); // berechnen von der Ableitung nach x bzw. y vec3 gray = vec3(0.299, 0.587, 0.114); float tmp_gx = dot(((tr+br+2.0*r)-(tl+bl+2.0*l)).xyz, gray); float tmp_gy = dot(((tl+tr+2.0*t)-(bl+br+2.0*b)).xyz, gray); // berechnen der Länge des Gradienten float mag=sqrt(tmp_gx*tmp_gx+tmp_gy*tmp_gy); // gx und gy Normieren und zwischen 0 und 1 bringen tmp_gx = (((tmp_gx)/mag)+1.0)*0.5; tmp_gy = (((tmp_gy)/mag)+1.0)*0.5; gl_FragColor = vec4(tmp_gx,tmp_gy,mag, 0.0); } Non-Maximum-Suppression uniform sampler2D texUnit0; uniform float offsetX; uniform float offsetY; // Inputbild void main(void){ vec2 coord = gl_TexCoord[0].st; vec4 tmp = texture2D(texUnit0, coord); vec4 n1, n2; vec2 offset2; // tmp.x und tmp.y sind die Gradienten gx, gy zw. -1 und 1, // resized zu 0-1 offset2.x = offsetX*floor((2.0*tmp.x)-0.5); offset2.y = offsetY*floor((2.0*tmp.y)-0.5); // beide Nachbarn n1 =texture2D(texUnit0, coord + offset2); n2 = texture2D(texUnit0, coord - offset2); // belasse es wenn Maximum, ansonsten schwarz Basel, Januar 2006 Seite 25/42 Diplomarbeit Image Processing on GPU If (tmp.z>=n1.z && tmp.z>=n2.z) gl_FragColor=vec4(tmp.zzz, 1.0); else gl_FragColor=vec4(0.0); } Basel, Januar 2006 Seite 26/42 Diplomarbeit Image Processing on GPU 6 Optischer Fluss auf der GPU 6.1 Ablauf des Optischen Flusses auf der GPU In Kapitel 3 wurde beschrieben, wie der Optische Fluss in der Theorie funktioniert. In diesem Kapitel wird schematisch erklärt, wie die Implementation aussieht. Es wird nicht detailliert auf den Code eingegangen, da dieser in der entsprechenden Dokumentation genauer beschrieben wird. 6.1.1 Die Klasse OpticalFlowGPU Die wichtigste, öffentliche Methode ist displayMorphedImg(float dt, ...). Sie bewirkt, dass die vorgängig gesetzten Bilder zusammengemorpht werden. Der Parameter dt, welcher zwischen 0 und 1 liegen muss, bestimmt dabei das Mischverhältnis der beiden Bilder. Nach dem Aufruf dieser Methode wird die ganze Rechenmaschinerie angeworfen: Bild 7: Erstes Aktivitätsdiagramm Bei diesem Diagram ist ersichtlich, dass das Flussfeld für beide Eingabebilder nur einmal berechnet wird. Werden diese durch setImgs() ausgetauscht, wird die Variable flowComputed wieder auf false gesetzt, damit das Flussfeld neu berechnet wird. Da das Warpen der beiden Inputbilder jeweils rückwärts geschieht, müssen auch zwei Flussfelder berechnet werden, denn das Flussfeld, welches aus dem Bild 1 zum Bild 2 berechnet wurde, ist nicht gleich dem umgekehrten Flussfeld aus dem Bild 2 zum Bild 1! Aus Zeit und Performancegründen haben wir auf einen „richtigen“ Vorwärtswarp verzichtet und stattdessen zweimal den Rückwärtswarp angewendet. Basel, Januar 2006 Seite 27/42 Diplomarbeit Image Processing on GPU Bild 8: Zweites Aktivitätsdiagramm Normalerweise wird mit den Eingabebildern jeweils vorgängig eine Gausspyramide mit der Tiefe depth erstellt. Da wir allerdings nur 16 Texturen zur Verfügung haben, müssen wir die Gaussbilder der aktuellen Tiefe bei jedem Schleifendurchgang neu berechnen. Basel, Januar 2006 Seite 28/42 Diplomarbeit Image Processing on GPU 6.2 Benchmark Innerhalb unserer Demo-Applikation haben wir verschiedene Zeitmessungen durchgeführt. Die Berechnung des Flussfeldes stellt dabei die anspruchvollste Anwendung dar. Das reine Berechnen des Flusses auf der GPU ist extrem schnell. Jedoch wird für den ersten Aufruf sehr viel Zeit für den Aufbau der Shader und ähnlicher Dinge verbraucht. Dieses Phänomen ist aber bekannt und eine einmalige Berechnung auf der GPU deshalb nicht sinnvoll, sondern mehr sich wiederholende Algorithmen. Darum dürfte die Verbreitung der GPU für Video-Anwendung, wo jeder Frame berechnet wird, so breit sein. Für alle Zeitmessungen haben wir ein System mit folgender Ausstattung verwendet: - Pentium 4, 3.2 GHz - GeForce 7800 GTX, 256MB RAM, PCIe - 2 GB RAM Die benutzten Farbbilder hatten eine Kantenlänge von 512x512 Pixel. 6.2.1 Flussfeld Die Berechnung des Optischen Flusses (Methode calcFlow()) dauert auf der GPU rund 29ms. Der allererste Aufruf braucht ein Vielfaches davon. Die Berechnung auf der CPU ist um ein Vielfaches langsamer. Sie dauert rund 1 Sekunde. Bei dieser Betrachtung wurde, wie es üblich ist, nur die Berechnungszeit berücksichtigt. Der Anteil, welcher für den Textur-Download gebraucht wird, fehlt. 6.2.2 Bildinitialisierung Zum Vergleich wird hier deshalb noch die benötigte Zeit der Methode setImgs() berechnet. Diese setzt zwei neue Bilder, lädt diese in den Speicher und führt einige Kontrollberechnungen durch, wie z.B. die maximale Tiefe. Auf der GPU dauert diese Methode rund 170ms. Die CPU ist hier deutlich schneller mit rund 35ms. Hier spielt die CPU ihren Vorteil aus, dass der Bildtransfer in eine Textur fehlt. Des Weiteren finden auch alle Kontrollberechnungen auf der CPU statt. Deshalb hat die GPU-Version keine Möglichkeit, ihre Stärken auszuspielen. 6.2.3 Morphing Beim reinen Morphen treten auch deutliche Geschwindigkeitsunterschiede auf. Die CPU braucht für das reine Morphen 150ms. Die GPU glänzt hier mit Werten von unter 1ms! Basel, Januar 2006 Seite 29/42 Diplomarbeit Image Processing on GPU 7 Demo-Applikation Die Implementation des Optischen Flusses wurde in eine Demo-Applikation integriert. Diese bietet die Möglichkeit, zwei Bilder zu laden und diese zusammen zu morphen. Bild 9: Screenshot Demo-Applikation Basel, Januar 2006 Seite 30/42 Diplomarbeit Image Processing on GPU 7.1 Technischer Aufbau Die Demoapplikation besteht aus zwei Teilen. Einerseits aus der Recheneinheit, andererseits dem GUI. Als GUI Framework haben wir Qt 4 verwendet, da es sehr gut dokumentiert ist und in der Entwicklungsumgebung integriert werden kann. Zusätzlich wird bei aktuellen Entwicklungen der Uni Basel auch Qt 4 eingesetzt. Bild 10: Klassendiagramm der Demo-Applikation 7.1.1 Kurze Beschreibung des Aufbaus Auf eine detaillierte Beschreibung der Applikation wird hier verzichtet. Mehr Informationen dazu kann der Dokumentation des Quellcodes entnommen werden. Im Zentrum der Demo-Applikation steht die Klasse OpticalFlowDemo. Diese verwaltet alle nötigen Widgets. Eines davon ist GLWidget, welches dazu dient, den Framebuffer auszugeben. Diese Klasse besitzt ein OpticalFlowFactory Objekt. Dieses ist in der Lage, selbständig zu entscheiden, ob eine OpticalFlowGPU oder OpticalFlowCPU Instanz angelegt werden soll, je nachdem, ob und welche Grafikkarte im System vorhanden ist. OpticalFlowGPU und OpticalFlowCPU enthalten die eigentliche Logik. Beide implementieren die Methoden von OpticalFlow und können daher dasselbe tun. Die Klasse FlowWindow ist in der Lage, das berechnete Flussfeld auszugeben. Dazu wird das erste Eingabebild genommen und alle 10 Pixel eine Linie in die entsprechende Richtung mit korrekter Länge darüber gezeichnet. Mit dem ImageLoader können die zwei Eingabebilder ausgewählt werden. Unterstützt werden die Bildformate JPEG, PNG, BMP und GIF. Damit die berechneten Bilder zu einem Filmchen gerendert werden können, kann mittels BatchSave eine einstellbare Anzahl gemorphter Zwischenbilder abgespeichert werden. Wie funktioniert nun das Morphen? In der Mitte der Applikation befindet sich ein Slider. Dieser dient dazu, das Mischverhältnis der beiden Eingabebilder zu bestimmen. Wird dieser Slider bewegt, fordert das GLWidget-Objekt von OpticalFlow ein neues, gemorphtes Bild an und gibt dieses aus. Basel, Januar 2006 Seite 31/42 Diplomarbeit Image Processing on GPU Das rechenintensive Flussfeld wird im Übrigen nur dann berechnet, wenn neue Bilder gesetzt wurden. Danach wird für ein angefordertes, gemorphtes Bild mit dem berechneten Flussfeld weiter gearbeitet. 7.2 Funktionsumfang Unsere Demo-Applikation bietet verschiedenste Funktionalitäten, die es auch ermöglichen, die Details des Optischen Flusses besser zu verstehen. Bild 11: Menü File Obenstehendes Bild zeigt den Menüpunkt File, welcher eigentlich selbsterklärend ist. Load Images… Laden von neuen InputBildern. Save as… Speichern des aktuellen Ausgabebildes. Save Flowfield… Export… Quit Speichern des Flussfeld-Bildes. Exportiert eine Reihe von Ausgabebildern. Programm beenden. Der Menüpunkt Edit beinhaltet die wichtigen Punkte, um die Eigenschaften des Optischen Flusses zu erkunden bzw. zu ändern. Bild 12: Menü Edit Menü Automatic CPU GPU CannyEdgeDetection Amount Depth Decrease Depth Basel, Januar 2006 Beschreibung Wenn möglich wird alles auf der GPU gerechnet, sonst auf der CPU. Die Berechnung des Flusses und alles andere geschieht auf der CPU. Die Bildoperationen geschehen auf der GPU. Der Kantenfilter wird aktiviert bzw. deaktiviert. Die Berechnung findet abhängig von der Wahl auf der CPU bzw. GPU statt. Erhöht die aktuelle Zahl der verwendeten Auflösungspyramide um 1. Standardmässig ist der Wert zu Beginn auf 8 bzw. dem maximal möglichen Wert. Senkt die aktuelle Zahl der verwendeten Auflösungspyramide um 1. Seite 32/42 Diplomarbeit Image Processing on GPU Amount/Decrease Depth: Durch Veränderung der Tiefe der Auflösungspyramide lassen sich völlig unterschiedliche Resultate erzielen. Ein höherer Wert ermöglicht grössere Bewegungen, bietet aber auch Nachteile. So wird die Berechnungszeit deutlich höher und es können auch Fragmente entstehen. Ab einer gewissen Tiefe wird ausserdem oft keine grosse Verbesserung mehr festgestellt. Einsatz CannyEdge-Detection: Bild 13: Gemorphtes Bild ohne CannyEdge-Detection Bild 14: Gemorphtes Bild mit CannyEdge-Detection Bild 15: Menü View Der Menüpunkt View beinhaltet nur den Punkt „Show Flowfield“. Dieser ist aber sehr interessant, da er das aktuelle Flussfeld zwischen den beiden Inputbildern anzeigt. Dabei wird eine Auswahl von jedem 10. Verschiebungsvektor dargestellt. Der rote Punkt markiert den Beginn der Vektoren. Das Feld wird bei Änderungen der Eingabe-Bilder oder des Depth aktualisiert. Bild 16: Ausschnitt aus einem Flussfeld der Tramszene Basel, Januar 2006 Seite 33/42 Diplomarbeit Image Processing on GPU Bild 17: Menü Help Unter „Help“ befinden sich die verschiedenen „About’s“. Erwähnenswert ist hier nur das „About OpenGL“. Es bietet verschiedene Informationen über die verwendete Grafikkarte bzw. OpenGL Version. Basel, Januar 2006 Seite 34/42 Diplomarbeit Image Processing on GPU 8 8.1 Ausblick Einsatz bei Projekten von Thomas Vetter Unsere Diplomarbeit stellt für das Projekt von Thomas Vetter grundsätzlich nichts Neues dar. Es waren auch schon Ansätze vorhanden, die Performance des Algorithmus mittels GPU zu verbessern. Jedoch bieten die neuen Sprachen HLSL, Cg und GLSL deutliche Vereinfachungen gegenüber früher, als GPU-Programme in Assembler geschrieben wurden. Auch die unterstützten Instruktionen auf der GPU sind in den letzten Jahren vielfältiger geworden. Ein Grossteil von Berechnungen könnte deshalb auf die GPU ausgelagert werden, speziell natürlich alle Berechnungen, welche mit Bildern bzw. Texturen zu tun haben. Zu den Projekten von Thomas Vetter lässt sich sagen, dass die Machbarkeit wohl klar ist. Jedoch ist der Zeitpunkt für einen vollständigen Einsatz noch etwas zu früh. Das grösste Problem ist, dass momentan nur 16 Texturen in den Grafikkarten-Speicher geladen werden können und es auch nicht möglich ist, direkt in 3D-Texturen zu rendern (FBO). Jedoch sollte man die Entwicklung im Auge behalten und versuchen, den Anschluss nicht zu verpassen, um im richtigen Augenblick den Einsatz nochmals intensiv zu überprüfen. Für einen richtigen Einsatz muss aber die Kartenunabhängigkeit noch breiter werden. nVidia hat momentan wohl die Nase etwas vorne, da die Einsetzbarkeit höher ist. Allerdings liegen die Preise für die Top-Karten auch deutlich über denen der Konkurrenz. Dadurch wird der breite Einsatz etwas unwahrscheinlicher, da die Karten sehr teuer und zu schnell veraltet sind. 8.2 Image Processing on GPU Während unserer Diplomarbeit konnten wir auf diesem Gebiet viele Erfahrungen sammeln. Wie aus diesem Dokument ersichtlich ist, konnten wir gegenüber herkömmlichen CPU Implementationen erhebliche Geschwindigkeitssteigerungen realisieren. Auch die Wiederverwendbarkeit der geschriebenen Programme ist deutlich gestiegen. Dank GLSL ist sichergestellt, dass die nächsten Versionen von Grafik-Karten den Code unterstützen werden. Ältere Karten hingegen wohl kaum. Unser Code enthält keine herstellerspezifischen Anweisungen, jedoch müssen einige Extensions verfügbar sein. Diese sind scheinbar auf den ATI-Karten noch nicht verfügbar (zumindest waren sie dies nicht auf der getesteten ATI-Karte). Den Aspekt der Wiederverwendbarkeit kann man jedoch auch wieder anders drehen. Der Code wird zwar auf neuen Karten laufen, jedoch werden sich in nächster Zeit GLSL und die Extensions wohl noch deutlich weiterentwickeln. Deshalb ist es sehr wahrscheinlich, dass in kürzester Zeit unsere Implementierung nicht mehr dem aktuellen Stand der Technik entspricht und eine weitere Steigerung des Leistungsgewinns möglich wäre. Der Ansatz, durch die GPU Performance-Gewinne zu erhalten, ist sicher auf viele rechenintensive Projekte anwendbar und somit auch auf den Bereich der verschiedenen Projekte von Thomas Vetter. Momentan stellt die GPU eine deutlich höhere Performance zur Verfügung als die CPU. Jedoch wird ein Grossteil bei falschem Einsatz durch Texture-Down- und –Upload zu Nichte gemacht. Der Einsatz macht nur Sinn, wenn eine möglichst lange Kette von Berechnungen auf der GPU durchgeführt werden kann und höchstens einzelne Argumente bzw. Vektoren geändert werden müssen, nicht jedoch ganze Texturen. Bei komplizierteren Anwendungen kann man da auch unerwartet schnell an die Grenzen der Anzahl Texturen stossen, obwohl diese nicht so klein erscheint. Voraussichtlich sollte aber Besserung eintreten, sobald die Framebuffer-Objekte 3D-Texturen unterstützen. Basel, Januar 2006 Seite 35/42 Diplomarbeit Image Processing on GPU Grundsätzlich kann man die Ergebnisse der Arbeit sehr zwiespältig sehen. Einerseits ist die Umsetzung geglückt und auch ein Performance-Gewinn klar erkennbar. Anderseits herrschen immer noch deutliche Einschränkungen bei der GPU-Programmierung. Die Entwicklung ist momentan noch sehr stark in Bewegung und die Folgen nicht genau abschätzbar. Auch kann man den Ansatz der Parallelisierung auf der CPU langsam erkennen, da Dual-Core-Prozessoren höhere Leistungen versprechen und trotzdem viele Instruktionen besitzen. Dürfte der Ansatz der GPU auf die CPU übertragen werden, könnten die Vorteile der GPU sehr schnell verschwinden und Nachteile wie Download/Upload und Einschränkungen bezüglich Programmierung überwiegen. Schaffen es die GPU-Hersteller aber, eine stabile Situation in ihrem Markt durch klarere Standards und bessere Dokumentationen zu erreichen, ist den Grafikkarten noch ein grosses Potential zuzuschreiben. Da man meistens nicht das volle Risiko eingehen will und die Entwicklungen allfälliger Projekte parallel auf GPU und CPU macht, entsteht auch ein deutlich höherer Aufwand. Das Vertrauen in die CPU dürfte wohl momentan noch deutlich überwiegen. Basel, Januar 2006 Seite 36/42 Diplomarbeit Image Processing on GPU 9 Fazit Der Spassfaktor ist bei der Arbeit mit Bildverarbeitung auf der GPU relativ hoch, da man nebst technischen Erfolgen wie Performance-Gewinnen auch diverse optisch interessante und spassige Eindrücke gewinnen kann. Die Arbeit bot jedoch auch Schattenseiten. Die Einarbeitung und auch das Mithalten mit der technischen Entwicklung bezüglich der GPU ist sehr zeitintensiv und mühsam, da die Quellen oft schlecht bzw. rar sind. Auch das Einarbeiten für das Verständnis des Optischen Flusses ist aufwändig und die Komplexität des Algorithmus darf nicht unterschätzt werden. Die Umsetzung des Optischen Flusses bzw. allgemein von bildverarbeitenden Algorithmen auf der GPU ist zum heutigen Zeitpunkt grundsätzlich möglich. Einmal eingearbeitet, ist die Umsetzung von bekannten BV-Algorithmen auf die GPU schnell gemacht. Jedoch muss immer noch mit einigen Einschränkungen umgegangen werden. Diese sind im Vergleich zu früheren Arbeiten aber deutlich geringer. Das Potential der GPU für den allgemeinen Einsatz ist sicher weiterhin vorhanden und sogar gestiegen. Die schnelle Entwicklung lässt zudem auf viele weitere Möglichkeiten hoffen. Basel, Januar 2006 Seite 37/42 Diplomarbeit Image Processing on GPU A Screenshots Die nachfolgenden Screenshots zeigen 2 Originalbilder und ein berechnetes Bild. Zwei ähnliche Gesichter werden zusammen gemorpht. Bild 18: Gesicht 1 Bild 19: Zusammen gemorpht Bild 20: Gesicht 2 zu je 50% Interpolation einer Kopfdrehung zwischen zwei Kopfpositionen. Bild 21: Originalbild 1 Bild 22: Interpolation 50% Bild 23: Originalbild 2 Interpolation zwischen zwei Mimiken. Bild 24: Mimik „böse“ Bild 25: Interpolation 50% Bild 26: Mimik „freundlich“ entspricht „neutral“ Basel, Januar 2006 Seite 38/42 Diplomarbeit Image Processing on GPU Eine Landschaftsszene, in welche hinein gezoomt wurde. Bild 27: Landschaft ohne Zoom Bild 28: Landschaft mit Zoom Bild 29: Flussfeld vom ersten zum zweiten Bild Basel, Januar 2006 Seite 39/42 Diplomarbeit Image Processing on GPU Morphing zwischen realen, relativ unterschiedlichen Gesichtern. Bild 30: Clemens Bild 31: ☺ Cleminik ☺ Bild 32: Dominik Bei zwei so unterschiedlichen Gesichtern zeigen sich deutliche Schwächen des Algorithmus. Die Distanzen sind teilweise zu gross, so dass Artefakte entstehen können – siehe Mundbereich. Gleichwohl ist es erstaunlich, dass ein solch gutes Ergebnis, ohne Hilfe von manuell gesetzten Referenzpunkten, erzielt werden kann. Basel, Januar 2006 Seite 40/42 Diplomarbeit Image Processing on GPU Quellenverzeichnis Literatur [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] J.L. Barron and R. Klette. Quantitative Colour Optical Flow, Int. Conf. on Pattern Recognition (ICPR2002), Vol. 4, pp251-255, August 2002 J.R. Bergen and R. Hingorani. Hierachical Motion-Based Frame Rate Conversion, April 1990 M. Christen. http://www.clockworkcoders.com GPGPU http://www.gpgpu.org S. Green. The OpenGL Framebuffer Object Extension, NVIDIA Corporation, 2005 B. Jähne. Digitale Bildverarbeitung, Springer, S. 405-415, 2002 A. Nischwitz und P. Haberäckler, Masterkurs Computergrafik und Bildverarbeitung, Vieweg, 2004 NVidia Corportaion, Fast Texture Downloads and Readbacks using Pixel Buffer Objects in OpenGL, August 2005 NVidia Corporation, NVIDIA GPU Programming Guide Version 2.4.0, 2005 M. Phar and F. Randima, GPU Gems 2, Addison Wesley, 2005 D. Schreiner, M. Woo, J. Neider and T. Davis. OpenGL Programming Guide, 5th Edition, Addison Wesley, 2005 R. J. Rost. OpenGL Shading Language, Addison Wesley, 2004 Wikipedia. http://de.wikipedia.org/wiki/Optischer_Fluss Abbildungen Bilder 18 und 20 stammen von der Uni Basel. Bilder 21 und 23 sind Screenshots aus Porenut, Uni Basel (http://porenut.cs.unibas.ch). Alle anderen Bilder wurden von uns selbst erstellt bzw. fotografiert. Basel, Januar 2006 Seite 41/42 Diplomarbeit Image Processing on GPU Anhang: Ehrlichkeitserklärung Hiermit bestätigen die unterzeichnenden Autoren dieses Berichts, dass alle nicht klar gekennzeichneten Stellen von ihnen selbst erarbeitet und verfasst wurden. Ort und Datum Unterschrift Basel, 06.01.2006 Clemens Blumer Dominik Oriet Kontakte Clemens Blumer mail@clemensblumer.ch Dominik Oriet mail@doriet.ch Website zum Projekt: http://www.fhbb.ch/informatik/bvmm/index_projekte.html Uni Basel Prof. Dr. Thomas Vetter Bernoullistrasse 16 4056 Basel http://www.cs.unibas.ch Basel, Januar 2006 FHBB, Abteilung Informatik Hofackerstr. 73 4132 Muttenz informatik@fhbb.ch http://www.fhbb.ch/informatik Seite 42/42