Perceptual Rendering of Immersive Displays

Aufgrund der fortwährenden Nachfrage nach höherer Qualität sehen sich Display-Hersteller dazu veranlasst, die Funktionen neuer Anzeigegeräte – z. B. hohe räumliche und zeitliche Auflösung sowie Bilder mit hohem Dynamikumfang – ständig zu erweitern. Diese Entwicklungen stellen hohe Anforderungen an die Qualität von Computergrafik (CG)- Techniken. Gleichzeitig weist das menschliche Auge eine Reihe von Einschränkungen auf. Zum Beispiel kann es sehr hohe räumliche Details nur in der Fovea-Region wahrnehmen, und die hohe zeitliche Auflösung ist nur in bestimmten Situationen wichtig, z. B. für die Wahrnehmung sich schnell bewegender Objekte. Die Diskrepanz zwischen dem hohen Qualitätsanspruch auf der Display-Seite und den angeborenen Einschränkungen des menschlichen Auges wirft die Frage auf, ob die von den CG-Techniken angebotene Qualität immer perfekt auf die Funktionen von Displays zugeschnitten sein müssen oder ob sich die Qualität nach den Fähigkeiten des menschlichen Auges richten soll. In letzter Zeit entwickelte sich die Technologie zur Verfolgung der Augenbewegung (Eye Tracking) zu einer Gebrauchstechnologie, bei der bereits niedrigpreisige Eye Tracker qualitativ hochwertige Vorhersagen über die Blickrichtung treffen können – und das bei hohen Aktualisierungsraten, eingebaut in am Kopf getragenen Displays (Head-Mounted Displays, HMD). Solche Lösungen können nützliche Informationen über die Qualitätsanforderungen in verschiedenen Display-Regionen liefern und sorgen dafür, dass das Rendering entsprechend des sich ständig ändernden Fokus der Aufmerksamkeit oder sogar vorausschauend optimiert werden kann.

In diesem Projekt möchten wir die Funktionen aktueller Eye Tracking-Systeme nutzen, um das Rendering für neue Display-Technologien zu steuern. Wir untersuchen rechnergestützte Techniken, mit denen sich Blick, Augenbewegungen und Brennweite verfolgen lassen, und verwenden diese Daten, um die Anzeigequalität der Geräte auf die Fähigkeiten des menschlichen Auges abzustimmen. Dieser Ansatz hat einen doppelten Nutzen. Erstens spart er eine Menge Ressourcen ein, die sonst für die Erzeugung von Informationen genutzt würden, die der Betrachter nicht sehen kann. So ist z. B. das Rendering von hochauflösenden Bildern in peripheren Regionen zu vermeiden. Folglich werden die Rendering-Geräte leichter und energieeffizienter sein. Zweitens können mit einem solchen Ansatz Ressourcen in vorausschauender Weise neu zugewiesen werden, um die Bildqualität an entscheidenden Stellen zu verbessern, z. B. Stellen, von denen erwartet wird, das der Betrachter als nächstes seinen Blick darauf richtet. Wir betrachten verschiedene Anzeigegeräte, von normalen hochauflösenden 2D-Bildschirmen bis hin zu neu aufkommenden Head-Mounted Displays, die im Bereich der erweiterten und virtuellen Realität eingesetzt werden. Letztere werfen zusätzliche Fragen auf, z. B. die Gewichtsbeschränkung, aber auch die zusätzliche Bewegung des Kopfes.

In unserer ersten Arbeit haben wir Möglichkeiten erforscht, mit denen wir das eingeschränkte menschliche Sichtfeld nutzen können, um die Rendering- Geschwindigkeit zu erhöhen. Insbesondere haben wir ein Konzept erarbeitet, bei dem das foveale Rendering mit Optimierungen im Hinblick auf den Linsenastigmatismus des HMD verbunden wird [IEEE VR’16]. Astigmatismus ist eine optische Verzerrung, die sich durch Software nicht beseitigen lässt und zu dem Effekt führt, dass im HMD nur der mittlere Bereich mit hoher Sehschärfe wahrgenommen werden kann, während das Bild mit zunehmendem Abstand zum mittleren Bereich immer verschwommener wird. Wir haben eine von der Blickrichtung abhängige Sampling-Methode vorgeschlagen, bei der das Bild in der Mitte mit einer höheren Qualität und in den peripheren Regionen mit einer niedrigeren Qualität dargestellt wird. Basierend auf einer nur für den Linsenastigmatismus optimierten Standard-Sampling Map (Abb. 1, links) und einer Echtzeit-Berechnung der aktuellen fovealen Region (Abb. 1, Mitte) berechnet unsere Methode eine finale Sampling Map, indem der Mindestwert der Sampling Map für Linsenastigmatismus und der Mindestwert für die aktuelle Blickrichtung (Abb. 1, rechts) herangezogen wird. Diese Methode wurde mit einem Prototypsystem implementiert, das auf einem Oculus Rift DK2 mit integriertem PUPIL-Eye Tracker basiert. Damit konnte die Rendering-Geschwindigkeit um bis zu 20 % erhöht werden.

In einem anderen Arbeitsfeld haben wir eine Methode vorgeschlagen, die zwei weitere in HMDs vorkommende Effekte ausnutzt: Beim Linsenfehler sind je nach Entfernung des Blicks von der Mitte bestimmte Bereiche des Bildschirms zum Rand hin für den Nutzer nicht mehr sichtbar. Und beim Wahrnehmungseffekt kann der Nutzer, wenn er in eine Richtung schaut, große Bereiche des Bildschirms auf der gegenüberliegenden Seite nicht mehr sehen [ACM VRST’16]. Unsere Methode berechnet diese nicht sichtbaren Bereiche in Echtzeit, lässt diese beim Rendern aus und verwendet stattdessen die Pixelfarben aus dem vorherigen Frame erneut (Abb. 2). Des Weiteren haben wir eine einmalige Kalibrierungsroutine eingeführt, um beide Effekte für einen bestimmten Nutzer und ein HMD zu messen. Wir haben gezeigt, dass sich die Ge-schwindigkeit mit dieser Methode bis auf das Zweifache erhöhen lässt. Derzeit dauert die Kalibrierung ungefähr zwei Minuten. In Zukunft könnten wir ein generisches Modell für ein spezifisches HMD entwickeln, das mit einer optionalen kurzen Kalibrierung zur Feinabstimmung bei den meisten Nutzern gut funktioniert.

 

 

In einem dritten Arbeitsfeld haben wir ein Modell vorgestellt, mit dem vorausberechnet wird, wohin sich der Blick eines Nutzers in grafischen Benutzeroberflächen richtet und auch wann dies jeweils erfolgt [ACM CHI’16, Best Paper-Ehrenpreis]. Wie vergleichbare Bottom-Up-Ansätze zur Vorhersage des Aufmerksamkeitsfokuses, die es im Bereich der Computervision bereits gibt, benötigt unser Modell keine Eye Tracking-Ausrüstung. Stattdessen berechnet es die gerichtete Aufmerksamkeit allein anhand der Informationen, die seitens der Benutzeroberfläche vorliegen, insbesondere dem Input der Nutzer und die Komponenten der Oberfläche, mit denen sie interagieren. Wir haben gezeigt, dass unser Modell die Maps zum Aufmerksamkeitsfokus genauer vorausberechnet als hochmoderne Methoden dies vermögen. Als Nächstes planen wir, dieses Modell bei HMD-Schnittstellen einzusetzen und es mit Blick auf andere Aufgaben und Eingabemodalitäten, die eher in VR-Umgebungen üblich sind (z. B. Handgesten) zu generalisieren. Außerdem möchten wir die Nutzung von Eye Tracking untersuchen, um anderen Eingabemodalitäten zu ergänzen oder zu ersetzen.

 

 

(copy 3)

In einem vierten Arbeitsfeld gehen wir das Problem der Latenz in blickrichtungsabhängigen Rendering- Systemen an. Am gravierendsten ist das Problem bei schnellen Augenbewegungen (Sakkaden), wenn die Vorausberechnung zur aktuellen Blickrichtung hinter der tatsächlichen Blickrichtung hinterherhinkt. Folglich liefert das blickrichtungsabhängige. Rendering keine Bilder, die den Anforderungen des menschlichen Auges entsprechen. Beim fovealen Rendering zum Beispiel entspricht die mit hoher Qualität berechnete Region nicht der tatsächlichen Stelle, auf die der Nutzer seinen Blick richtet. Diese Qualitätsdiskrepanz ist erkennbar und erschwert die Anpassung von blickrichtungsabhängigen Techniken. Um dieses Problem zu lösen, schlagen wir eine neue Methode für das blickrichtungsabhängige Rendering vor, bei der Bilder während der Sakkade aktualisiert werden. Das Rendering erfolgt nicht entsprechend der Eye Trackerbasierten Vorausberechnung der aktuellen Blickrichtung. Stattdessen berechnet unsere Methode voraus, wo die Sakkade voraussichtlich endet und liefert ein Bild für die neue Fixationsstelle, sobald die Voraussage zur Verfügung teht (Abb. 4 links). Während die Qualitätsdiskrepanz während der Sakkade aufgrund der sakkadischen Suppression unbemerkt bleibt, wird ein korrektes Bild für die neue Fixationsstelle zur Verfügung gestellt, bevor die Fixation feststeht. Um solche Aktuali-sierungen zu ermöglichen, leiteten wir ein Modell ab, mit dem die Landepositionen von Sakkaden im Voraus rmittelt werden, und wir zeigen, wie es beim blickrichtungsabhängigen Rendering eingesetzt werden kann, um den Einfluss der Systemlatenz uf die wahrgenommene Qualität zu reduzieren. Wir möchten sowohl ein personalisiertes Modell als auch ein Modell mit Durchschnittswerten einsetzen, das sich auf viele Betrachter stützt. Wir haben unsere Methode in einer Reihe von Experimenten validiert, wobei verschiedene Kombinationen von Bildwiederholfrequenzen und Abtastraten es Eye Trackers verwendet wurden (Abb. 4, rechts).

(copy 4)

[Translate to deutsch:]

Project Team

Principal Investigators
Dr. Andreas Bulling

Dr. Piotr Didyk

Dr. Karol Myszkowski