Wie ein künstliches Gehirn das Träumen lernt (Von Christian Honey)

Text Practice Mode

created Apr 30th 2017, 14:31 by NathanSchaar

Rating

1209 words

15 completed

00:00

Selten haben sich Computer so schön geirrt wie zuletzt die in Googles Labor. Mitte Juni hatten Google-Forscher eindrucksvoll demonstriert, welch fantastische Bilder künstliche neuronale Netze erzeugen, wenn man ihnen ihre verborgenen Suchmuster entlockt. Die surrealen Werke gingen um die Welt, woraufhin Google einen Code veröffentlichte, mit dem sich diese Netzwerke auch am heimischen Rechner simulieren lassen. Seither gibt es geradezu einen Wettstreit um die spektakulärsten Foto- und sogar Videomanipulationen, auf Twitter werden sie verbreitet unter dem Hashtag #DeepDream. Ein wenig in den Hintergrund gerückt ist die Frage, was die Google-Forscher mit ihren "Traumbildern" eigentlich bezweckten. Dabei ist die Antwort ebenso faszinierend: Sie wollten besser verstehen, wie die von ihnen selbst geschaffene künstliche Intelligenz überhaupt funktioniert. Inception heißt das Netzwerk, das die zauberhaften Welten geschaffen hat. Im vorigen Jahr hat Inception den Large Scale Visual Recognition Challenge gewonnen, in dem neuronale Netze darum wettstreiten, die meisten Fotos richtig zu klassifizieren; ist es ein Gesicht, ein Hund, ein Vogel, ein Auto, eine Landschaft? Bei dieser Sortierarbeit setzte das Netzwerk von Google "einen neuen Standard", wie die Schöpfer von Inception stolz in einem Fachartikel schrieben. "Dabei gibt es die Art von Netzwerken schon lange," sagt Aditya Khosla, Forscher am Labor für Computerwissenschaften und künstliche Intelligenz des Massachusetts Institute of Technology (MIT). Khosla hat ein zweites Netzwerk mitentwickelt, das die Google-Forscher neben Inception verwendet haben, um ihre Traumbilder zu erschaffen. Er weiß also genau, was neuronale Netzwerke können. "Klar, es gab in den letzten paar Jahren massive Verbesserungen bei der Kategorisierung von Objekten, neuerdings auch einige von Google und Facebook. Aber wirklich neu oder überraschend ist an der Visualisierung von Google nichts", sagt er. Das Konzept neuronaler Netze erdachten die Neurowissenschaftler Warren McCullogh und Walter Pitts von der Universität Chicago im Jahr 1943. Statt Transistoren schlugen McCullogh und Pitts als Recheneinheiten künstliche Nervenzellen (Neurone) vor, die miteinander zu Schaltkreisen verbunden sind. Anders als bei Transistoren, die Nullen und Einsen verrechnen, schicken künstliche Neurone erst dann ein Signal ab, wenn die Summe ihrer Inputs einen gewissen Schwellenwert überschreitet. Sie arbeiten also nicht mit binärer Logik, wie jeder heutige Computer, sondern mit Schwellenwert-Logik. Allerdings werden heutige künstliche neuronale Netze auf Computern simuliert, die binäre Logik stellt also die Schwellenwert-Logik dar. Wer verstehen will, wie Inception und ähnliche Netzwerke arbeiten, schaut sich am besten den generellen Aufbau künstlicher neuronaler Netze an. Ihre Architektur folgt fast immer denselben Prinzipien: Hunderte oder Tausende künstliche Neuronen sitzen in übereinanderliegenden Schichten und sind über (simulierte) Leitungen verbunden. Ein Neuron kann die Nachbarn in seiner eigenen Schicht und Zellen der darüberliegenden Schicht über seine Leitungen aktivieren. Die oberste oder Input-Schicht funktioniert gleichsam als Sensor, der mit jenen Daten gefüttert wird, die das Netzwerk sortieren soll. Im Fall von Inception sind das Bilder, in anderen Netzwerken können das aber auch Geräusche sein. Jeder Bildpunkt aktiviert genau ein Neuron in der Input-Schicht. Die tiefste oder Output-Schicht dagegen hat meist nur eine Handvoll Neurone, für jede Bild-Kategorie eins. Diese Neurone zeigen an, zu welcher Kategorie ein Bild gehört, das der Input-Schicht präsentiert wurde. Training für das Netzwerk Doch bevor so ein Netzwerk diese Aufgabe gut erledigt, muss es trainiert werden. "Mit jedem Bild läuft eine Aktivitätswelle durch das ganze Netzwerk, von der Input- zur Output-Schicht", sagt Khosla. "Wenn die Output-Schicht das Bild aber der falschen Kategorie zuordnet, bekommt sie das mitgeteilt und schickt ein Fehler-Signal zurück durch das Netzwerk. Das nennt man beaufsichtigtes Lernen." Das Fehler-Signal führe dazu, das sich die Leitungen zwischen den Neuronen im gesamten Netzwerk so anpassen, dass der Fehler weniger wahrscheinlich wird. Durch diese Fehlerbehebung werden die künstlichen Neurone sozusagen auf bestimmte Bildeigenschaften abgerichtet. Googles Inception gehört zu den sogenannten Konvolutionsnetzwerken. In dieser Art von Netzwerk reagieren die Neurone der zweiten Schicht nach erfolgreichem Training auf Hell-Dunkel-Kontraste in einer bestimmten Orientierung, also etwa auf die geraden Kanten eines Hausumrisses oder von Fenstern. Die nächsttiefere Schicht reagiert auf Kombinationen dieser Kanten, zum Beispiel hausähnliche Konturen und so weiter. Je tiefer die Schicht im Netzwerk, desto komplexer sind die Strukturen im Bild, auf die dann die Neurone reagieren. Bei tiefen neuronalen Netzwerken (Deep Neural Networks) wie Inception mit seinen 22 Schichten ist jedoch oft nicht klar, auf welche Formen genau sich die Neurone in den tieferen Schichten einschießen. Das ist der Punkt, an dem die Google-Forscher nicht genau vorhersagen können, was ihre künstliche Intelligenz tut. Im neuronalen Netz sind zwar alle Regeln definiert und mathematisch simpel. Jedes Neuron aber vollführt eine nicht-lineare Funktion: Es kann auf kleine Input-Änderungen mit starken Output-Änderungen reagieren. So verhält sich das gesamte Netzwerk auf nicht-lineare Weise, und es lässt zwar in der Summe, aber nicht im Einzelnen vorherberechnen, was im Netzwerk beim Training geschieht. "Deshalb haben viele Gruppen in den letzten Jahren Methoden entwickelt, um die Eigenschaften der tiefen Neurone visuell darzustellen," sagt Khosla. So wollen sie verstehen, wann und wie Fehlinterpretationen ausgelöst werden."Dabei zeigt man einem gut trainierten Netzwerk ein Bild und lässt die Aktivitätswelle durch das Netz laufen. Anstatt aber ein Fehlersignal zurückzuschicken, überaktiviert man die Zellen in jener tiefen Schicht, deren Eigenschaften einen interessieren. Das so manipulierteSignal läuft dann durch das Netzwerk zurück bis zur Input-Schicht." So werden im Originalbild genau jene Eigenschaften überzeichnet, die die tiefe Schicht am stärksten angesprochen haben. So erzeugen auch die Google-Programmierer ihre "Deep-Dream"-Bilder, mit einer kleinen Abwandlung: Sie füttern dem Netzwerk das überzeichnete Bild mit den visualisierten Eigenschaften der gewählten Schicht erneut. Die Neurone in der Schicht bekommen also in dem überzeichneten Bild mehr von den Formen zu "sehen", auf die sie ohnehin schon spezialisiert waren, und überzeichnen diese Eigenschaften ein weiteres Mal. Dieser Prozess wird so lange wiederholt, bis die Formen, welche die gewählte Schicht "erkennt", ganz klar auf dem Originalbild erscheinen. So macht das Visualisierungswerkzeug von Google aus Wolken Vögel und aus Bäumen Gebäude. Ist eine Schicht im Netzwerk auf Vogelformen spezialisiert, reagiert sie auf alles im Wolken-Bild was auch nur im geringsten nach einem Vogel aussieht. Mit jedem Update des Bildes wird dann die Region im Originalbild, die nach einem Vogel aussieht, etwas mehr zum Vogel umgezeichnet. Nach vielen Wiederholungen ersteht so aus einer Wolke etwas, das an einen Kakadu erinnert. "Dadurch sehen die Bilder spektakulär aus," sagt Khosla. "Ich würde diese Methode aber eher als Spielzeug bezeichnen." Google leiste zwar sehr gute Arbeit bei der Kategorisierung von Bildern, aber eine große Errungenschaft sei die Visualisierung nicht. "Mir jedenfalls hat das in meinem Verständnis von Konvolutionsnetzwerken nicht sehr geholfen." Forscher kennen solche Fantasiebilder schon länger Die Methode, tiefe Schichten zu aktivieren, um die Lieblingsformen der dort versteckten Neurone zu überzeichnen, wurde auch nicht von Google erfunden, sondern von einer Forschungsgruppe aus Oxford und im Jahr 2013 erstmals vorgestellt. "Solche oder ähnliche Bilder gibt es schon länger. Ich glaube sie sind erst jetzt so bekannt geworden, weil es Google war, das sie vorgestellt hat. Menschen außerhalb meines Forschungsgebietes sehen in den Bilder etwas Spektakuläres, auch weil der Name Inception an den gleichnamigen Kinofilm erinnert. Innerhalb der Forschungsgemeinde beeindruckt das aber eigentlich niemanden." Bedenken, die Bilder der Netzwerk-"Träume" deuteten darauf hin, dass Maschinen zum menschlichen Geist aufschließen, seien ebenfalls unangebracht. Zwar ließ sich Professor Kunihiko Fukushima aus Tokio, als er Anfang der achtziger Jahre die Konvolutionsnetzwerke vorschlug, vom Aufbau des visuellen Gehirns inspirieren. Aber von denkenden Maschinen mit Bewusstsein und Intention sind Netzwerke wie Inception noch immer so weit entfernt wie zu Zeiten Fukushimas", sagt Khota.

Selten haben sich Computer so schön geirrt wie zuletzt die in Googles Labor. Mitte Juni hatten Google-Forscher eindrucksvoll demonstriert, welch fantastische Bilder künstliche neuronale Netze erzeugen, wenn man ihnen ihre verborgenen Suchmuster entlockt. Die surrealen Werke gingen um die Welt, woraufhin Google einen Code veröffentlichte, mit dem sich diese Netzwerke auch am heimischen Rechner simulieren lassen.

Seither gibt es geradezu einen Wettstreit um die spektakulärsten Foto- und sogar Videomanipulationen, auf Twitter werden sie verbreitet unter dem Hashtag #DeepDream. Ein wenig in den Hintergrund gerückt ist die Frage, was die Google-Forscher mit ihren "Traumbildern" eigentlich bezweckten. Dabei ist die Antwort ebenso faszinierend: Sie wollten besser verstehen, wie die von ihnen selbst geschaffene künstliche Intelligenz überhaupt funktioniert.

Inception heißt das Netzwerk, das die zauberhaften Welten geschaffen hat. Im vorigen Jahr hat Inception den Large Scale Visual Recognition Challenge gewonnen, in dem neuronale Netze darum wettstreiten, die meisten Fotos richtig zu klassifizieren; ist es ein Gesicht, ein Hund, ein Vogel, ein Auto, eine Landschaft? Bei dieser Sortierarbeit setzte das Netzwerk von Google "einen neuen Standard", wie die Schöpfer von Inception stolz in einem Fachartikel schrieben.
"Dabei gibt es die Art von Netzwerken schon lange," sagt Aditya Khosla, Forscher am Labor für Computerwissenschaften und künstliche Intelligenz des Massachusetts Institute of Technology (MIT). Khosla hat ein zweites Netzwerk mitentwickelt, das die Google-Forscher neben Inception verwendet haben, um ihre Traumbilder zu erschaffen. Er weiß also genau, was neuronale Netzwerke können. "Klar, es gab in den letzten paar Jahren massive Verbesserungen bei der Kategorisierung von Objekten, neuerdings auch einige von Google und Facebook. Aber wirklich neu oder überraschend ist an der Visualisierung von Google nichts", sagt er.

Das Konzept neuronaler Netze erdachten die Neurowissenschaftler Warren McCullogh und Walter Pitts von der Universität Chicago im Jahr 1943. Statt Transistoren schlugen McCullogh und Pitts als Recheneinheiten künstliche Nervenzellen (Neurone) vor, die miteinander zu Schaltkreisen verbunden sind. Anders als bei Transistoren, die Nullen und Einsen verrechnen, schicken künstliche Neurone erst dann ein Signal ab, wenn die Summe ihrer Inputs einen gewissen Schwellenwert überschreitet. Sie arbeiten also nicht mit binärer Logik, wie jeder heutige Computer, sondern mit Schwellenwert-Logik. Allerdings werden heutige künstliche neuronale Netze auf Computern simuliert, die binäre Logik stellt also die Schwellenwert-Logik dar.

Wer verstehen will, wie Inception und ähnliche Netzwerke arbeiten, schaut sich am besten den generellen Aufbau künstlicher neuronaler Netze an. Ihre Architektur folgt fast immer denselben Prinzipien: Hunderte oder Tausende künstliche Neuronen sitzen in übereinanderliegenden Schichten und sind über (simulierte) Leitungen verbunden. Ein Neuron kann die Nachbarn in seiner eigenen Schicht und Zellen der darüberliegenden Schicht über seine Leitungen aktivieren. Die oberste oder Input-Schicht funktioniert gleichsam als Sensor, der mit jenen Daten gefüttert wird, die das Netzwerk sortieren soll. Im Fall von Inception sind das Bilder, in anderen Netzwerken können das aber auch Geräusche sein. Jeder Bildpunkt aktiviert genau ein Neuron in der Input-Schicht. Die tiefste oder Output-Schicht dagegen hat meist nur eine Handvoll Neurone, für jede Bild-Kategorie eins. Diese Neurone zeigen an, zu welcher Kategorie ein Bild gehört, das der Input-Schicht präsentiert wurde.

Training für das Netzwerk

Doch bevor so ein Netzwerk diese Aufgabe gut erledigt, muss es trainiert werden. "Mit jedem Bild läuft eine Aktivitätswelle durch das ganze Netzwerk, von der Input- zur Output-Schicht", sagt Khosla. "Wenn die Output-Schicht das Bild aber der falschen Kategorie zuordnet, bekommt sie das mitgeteilt und schickt ein Fehler-Signal zurück durch das Netzwerk. Das nennt man beaufsichtigtes Lernen." Das Fehler-Signal führe dazu, das sich die Leitungen zwischen den Neuronen im gesamten Netzwerk so anpassen, dass der Fehler weniger wahrscheinlich wird. Durch diese Fehlerbehebung werden die künstlichen Neurone sozusagen auf bestimmte Bildeigenschaften abgerichtet.

Googles Inception gehört zu den sogenannten Konvolutionsnetzwerken. In dieser Art von Netzwerk reagieren die Neurone der zweiten Schicht nach erfolgreichem Training auf Hell-Dunkel-Kontraste in einer bestimmten Orientierung, also etwa auf die geraden Kanten eines Hausumrisses oder von Fenstern. Die nächsttiefere Schicht reagiert auf Kombinationen dieser Kanten, zum Beispiel hausähnliche Konturen und so weiter. Je tiefer die Schicht im Netzwerk, desto komplexer sind die Strukturen im Bild, auf die dann die Neurone reagieren.
Bei tiefen neuronalen Netzwerken (Deep Neural Networks) wie Inception mit seinen 22 Schichten ist jedoch oft nicht klar, auf welche Formen genau sich die Neurone in den tieferen Schichten einschießen. Das ist der Punkt, an dem die Google-Forscher nicht genau vorhersagen können, was ihre künstliche Intelligenz tut. Im neuronalen Netz sind zwar alle Regeln definiert und mathematisch simpel. Jedes Neuron aber vollführt eine nicht-lineare Funktion: Es kann auf kleine Input-Änderungen mit starken Output-Änderungen reagieren. So verhält sich das gesamte Netzwerk auf nicht-lineare Weise, und es lässt zwar in der Summe, aber nicht im Einzelnen vorherberechnen, was im Netzwerk beim Training geschieht.

"Deshalb haben viele Gruppen in den letzten Jahren Methoden entwickelt, um die Eigenschaften der tiefen Neurone visuell darzustellen," sagt Khosla. So wollen sie verstehen, wann und wie Fehlinterpretationen ausgelöst werden."Dabei zeigt man einem gut trainierten Netzwerk ein Bild und lässt die Aktivitätswelle durch das Netz laufen. Anstatt aber ein Fehlersignal zurückzuschicken, überaktiviert man die Zellen in jener tiefen Schicht, deren Eigenschaften einen interessieren. Das so manipulierteSignal läuft dann durch das Netzwerk zurück bis zur Input-Schicht." So werden im Originalbild genau jene Eigenschaften überzeichnet, die die tiefe Schicht am stärksten angesprochen haben.

So erzeugen auch die Google-Programmierer ihre "Deep-Dream"-Bilder, mit einer kleinen Abwandlung: Sie füttern dem Netzwerk das überzeichnete Bild mit den visualisierten Eigenschaften der gewählten Schicht erneut. Die Neurone in der Schicht bekommen also in dem überzeichneten Bild mehr von den Formen zu "sehen", auf die sie ohnehin schon spezialisiert waren, und überzeichnen diese Eigenschaften ein weiteres Mal. Dieser Prozess wird so lange wiederholt, bis die Formen, welche die gewählte Schicht "erkennt", ganz klar auf dem Originalbild erscheinen.

So macht das Visualisierungswerkzeug von Google aus Wolken Vögel und aus Bäumen Gebäude. Ist eine Schicht im Netzwerk auf Vogelformen spezialisiert, reagiert sie auf alles im Wolken-Bild was auch nur im geringsten nach einem Vogel aussieht. Mit jedem Update des Bildes wird dann die Region im Originalbild, die nach einem Vogel aussieht, etwas mehr zum Vogel umgezeichnet. Nach vielen Wiederholungen ersteht so aus einer Wolke etwas, das an einen Kakadu erinnert.

"Dadurch sehen die Bilder spektakulär aus," sagt Khosla. "Ich würde diese Methode aber eher als Spielzeug bezeichnen." Google leiste zwar sehr gute Arbeit bei der Kategorisierung von Bildern, aber eine große Errungenschaft sei die Visualisierung nicht. "Mir jedenfalls hat das in meinem Verständnis von Konvolutionsnetzwerken nicht sehr geholfen."
Forscher kennen solche Fantasiebilder schon länger

Die Methode, tiefe Schichten zu aktivieren, um die Lieblingsformen der dort versteckten Neurone zu überzeichnen, wurde auch nicht von Google erfunden, sondern von einer Forschungsgruppe aus Oxford und im Jahr 2013 erstmals vorgestellt. "Solche oder ähnliche Bilder gibt es schon länger. Ich glaube sie sind erst jetzt so bekannt geworden, weil es Google war, das sie vorgestellt hat. Menschen außerhalb meines Forschungsgebietes sehen in den Bilder etwas Spektakuläres, auch weil der Name Inception an den gleichnamigen Kinofilm erinnert. Innerhalb der Forschungsgemeinde beeindruckt das aber eigentlich niemanden."

Bedenken, die Bilder der Netzwerk-"Träume" deuteten darauf hin, dass Maschinen zum menschlichen Geist aufschließen, seien ebenfalls unangebracht. Zwar ließ sich Professor Kunihiko Fukushima aus Tokio, als er Anfang der achtziger Jahre die Konvolutionsnetzwerke vorschlug, vom Aufbau des visuellen Gehirns inspirieren. Aber von denkenden Maschinen mit Bewusstsein und Intention sind Netzwerke wie Inception noch immer so weit entfernt wie zu Zeiten Fukushimas", sagt Khota.

saving score / loading statistics ...

Text Practice Mode