Magische KI: Das sind die optischen Täuschungen, die Computer austricksen, täuschen und durcheinander bringen
Es gibt eine Szene in William Gibsons Roman von 2010Null Geschichte, in dem ein Charakter, der sich auf einen Raid mit hohen Einsätzen einlässt, das anzieht, was der Erzähler als die . bezeichnethässlichstes T-Shirtin Existenz — ein Kleidungsstück, das ihn für CCTV unsichtbar macht. In Neal StephensonsSchnee-Crash, zuBitmap-Bildwird verwendet, um einen Virus zu übertragen, der die Gehirne von Hackern durcheinander bringt und durch computerverstärkte Sehnerven springt, um den Verstand des Ziels zu verderben. Diese und viele andere Geschichten greifen auf eine wiederkehrende Science-Fiction-Trope zurück: dass ein einfaches Bild die Macht hat, Computer zum Absturz zu bringen.
Aber das Konzept ist keine Fiktion – jedenfalls nicht vollständig. Letztes Jahr konnten Forscher ein kommerzielles Gesichtserkennungssystem täuschen, indem sie nur eine gemusterte Brille trugen, um zu glauben, jemand anderes zu sein. Auf den Rahmen der Brille wurde ein Sticker-Overlay mit einem halluzinogenen Aufdruck geklebt. Die Drehungen und Kurven des Musters sehen für den Menschen zufällig aus, aber für einen Computer, der Nasen, Münder, Augen und Ohren erkennen sollte, ähnelten sie den Konturen eines Gesichts – jedes Gesicht, das die Forscher tatsächlich wählten. Diese Brille löscht Ihre Anwesenheit nicht von CCTV wie Gibsons hässliches T-Shirt, aber sie kann eine KI dazu bringen, zu denken, dass Sie der Papst sind. Oder wen du magst.

Diese Arten von Angriffen werden in eine breite Kategorie der KI-Cybersicherheit eingeordnet, die als kontradiktorisches maschinelles Lernen bekannt ist, das so genannt wird, weil es die Existenz eines Gegners voraussetzt – in diesem Fall eines Hackers. In diesem Bereich manifestieren sich die Science-Fiction-Tropen von hässlichen T-Shirts und hirnzerstörenden Bitmaps als gegnerische Bilder oder täuschende Bilder, aber gegnerische Angriffe können Formen annehmen, einschließlich Audio und vielleicht sogar Text. Die Existenz dieser Phänomene wurde Anfang der 2010er Jahre von einer Reihe von Teams unabhängig voneinander entdeckt. Sie zielen normalerweise auf eine Art maschinelles Lernsystem ab, das als Klassifikator bekannt ist, etwas, das Daten in verschiedene Kategorien einsortiert, wie die Algorithmen in Google Fotos, die Bilder auf Ihrem Telefon als Essen, Urlaub und Haustiere kennzeichnen.
Für einen Menschen mag ein täuschendes Bild wie ein zufälliges Batikmuster oder ein Ausbruch von Fernsehrauschen aussehen, aber wenn Sie es einem KI-Bildklassifikator zeigen, wird es mit Zuversicht sagen: Ja, das ist ein Gibbon, oder mein, was ist das? glänzendes rotes Motorrad. Genau wie bei dem Gesichtserkennungssystem, das von der psychedelischen Brille getäuscht wurde, erfasst der Klassifikator visuelle Merkmale des Bildes, die so verzerrt sind, dass ein Mensch sie nie erkennen würde.
motorola verveones
Diese Muster können auf vielfältige Weise verwendet werden, um KI-Systeme zu umgehen, und haben erhebliche Auswirkungen auf zukünftige Sicherheitssysteme, Fabrikroboter und selbstfahrende Autos – alles Orte, an denen die Fähigkeit der KI, Objekte zu identifizieren, entscheidend ist. Stellen Sie sich vor, Sie sind beim Militär und verwenden ein System, das autonom entscheidet, worauf es ankommt, Jeff Clune, Co-Autor von a2015 Papier über täuschen Bilder, erzähltDer Rand. Was Sie nicht wollen, ist, dass Ihr Feind ein gegnerisches Image über ein Krankenhaus legt, damit Sie dieses Krankenhaus treffen. Oder wenn Sie dasselbe System verwenden, um Ihre Feinde zu verfolgen; Sie möchten sich nicht leicht täuschen lassen [und] mit Ihrer Drohne dem falschen Auto folgen.

Diese Szenarien sind hypothetisch, aber durchaus realisierbar, wenn wir unseren derzeitigen Weg der KI-Entwicklung fortsetzen. Es ist ein großes Problem, ja, sagt Clune, und ich denke, es ist ein Problem, das die Forschungsgemeinschaft lösen muss.
Die Herausforderung, sich gegen gegnerische Angriffe zu verteidigen, ist zweierlei: Wir sind nicht nur unsicher, wie wir bestehenden Angriffen effektiv begegnen können, sondern entdecken auch immer effektivere Angriffsvarianten. Die von Clune und seinen Co-Autoren Jason Yosinski und Anh Nguyen beschriebenen täuschenden Bilder sind für Menschen leicht zu erkennen. Sie sehen aus wie optische Täuschungen oder frühe Webkunst, alle mit Blockfarben und überlappenden Mustern, aber es gibt weitaus subtilere Ansätze.
Störungen können genauso einfach auf Fotos angewendet werden wie Instagram-FilterEine Art von gegnerischem Bild – von Forschern als Störung bezeichnet – ist für das menschliche Auge so gut wie unsichtbar. Es existiert als eine Welle von Pixeln auf der Oberfläche eines Fotos und kann so einfach wie ein Instagram-Filter auf ein Bild angewendet werden. Diese Störungen wurden erstmals 2013 beschrieben und in einem Artikel aus dem Jahr 2014 mit dem TitelGegnerische Beispiele erklären und nutzen, zeigten Forscher, wie flexibel sie waren. Dieser pixelige Schimmer ist in der Lage, eine ganze Reihe verschiedener Klassifikatoren zu täuschen, sogar solche, für die er nicht trainiert wurde. Eine kürzlich überarbeitete Studie namensUniverselle gegnerische Störungenhaben diese Funktion explizit gemacht, indem sie die Störungen erfolgreich gegen eine Reihe verschiedener neuronaler Netze getestet haben – was im letzten Monat viele Forscher begeistert hat.
neue Laptops

Die Verwendung von täuschenden Bildern zum Hacken von KI-Systemen hat seine Grenzen: Erstens dauert es länger, verschlüsselte Bilder so zu erstellen, dass ein KI-System denkt, ein bestimmtes Bild zu sehen, anstatt einen zufälligen Fehler zu machen. Zweitens benötigen Sie oft – aber nicht immer – Zugriff auf den internen Code des Systems, das Sie manipulieren möchten, um die Störung überhaupt zu erzeugen. Und drittens sind Angriffe nicht durchgehend effektiv. Wie in Universal Adversarial Perturbations gezeigt, kann das, was ein neuronales Netzwerk in 90 Prozent der Fälle täuscht, in einem anderen Netzwerk nur eine Erfolgsquote von 50 oder 60 Prozent haben. (Aber selbst eine 50-prozentige Fehlerquote könnte katastrophal sein, wenn der fragliche Klassifikator einen selbstfahrenden Sattelschlepper steuert.)
Um die KI besser gegen irreführende Bilder zu verteidigen, unterziehen Ingenieure sie einem gegnerischen Training. Dabei wird einem Klassifikator gegnerische Bilder zugeführt, damit er sie identifizieren und ignorieren kann, wie ein Türsteher, der die Fahndungsfotos von Leuten lernt, die aus einer Bar verbannt sind. Leider, wie Nicolas Papernot, ein Doktorand an der Pennsylvania State University, der eine Reihe von Artikeln über gegnerische Angriffe geschrieben hat, erklärt, ist selbst diese Art von Training gegen rechenintensive Strategien (d. h. Wurf) schwachgenugBilder auf dem System und es wird schließlich fehlschlagen).

Um die Schwierigkeit zu erhöhen, ist es nicht immer klarWarumbestimmte Angriffe funktionieren oder scheitern. Eine Erklärung ist, dass gegnerische Bilder eine Funktion nutzen, die in vielen KI-Systemen zu finden ist, die als Entscheidungsgrenzen bekannt sind. Diese Grenzen sind die unsichtbaren Regeln, die vorschreiben, wie ein System beispielsweise zwischen einem Löwen und einem Leoparden unterscheiden kann. Ein sehr einfaches KI-Programm, das seine ganze Zeit damit verbringt, nur diese beiden Tiere zu identifizieren, würde schließlich eine mentale Karte erstellen. Betrachten Sie es als ein X-Y-Flugzeug: Oben rechts sind alle Leoparden, die es jemals gesehen hat, und unten links die Löwen. Die Linie, die diese beiden Sektoren trennt – die Grenze, an der der Löwe zum Leoparden wird oder der Leopard zum Löwen – wird als Entscheidungsgrenze bezeichnet.
Das Problem mit dem Entscheidungsgrenzen-Ansatz zur Klassifizierung, sagt Clune, ist, dass er zu absolut, zu willkürlich ist. Alles, was Sie mit diesen Netzwerken tun, ist, sie darin zu trainieren, Linien zwischen Datenclustern zu ziehen, anstatt tief zu modellieren, was es heißt, ein Leopard oder ein Löwe zu sein. Systeme wie diese können von einem entschlossenen Gegner auf alle möglichen Arten manipuliert werden. Um den Löwen-Leoparden-Analysator zu täuschen, könnten Sie ein Bild eines Löwen machen und seine Züge ins groteske Extrem treiben, ihn aber trotzdem als normalen Löwen registrieren lassen: ihm Krallen wie Grabausrüstung geben, Pfoten in der Größe von Schulbussen und a Mähne, die wie die Sonne brennt. Für einen Menschen ist es nicht wiederzuerkennen, aber für eine KI, die ihre Entscheidungsgrenzen überprüft, ist es nur ein extrem löwenartiger Löwe.
Wir arbeiten hart daran, bessere Abwehrkräfte zu entwickeln.Soweit wir wissen, wurden gegnerische Bilder nie verwendet, um realen Schaden anzurichten. Aber Ian Goodfellow, ein Forscher bei Google Brain und Co-Autor von Explaining and Harnessing Adversarial Example, sagt, dass sie nicht ignoriert werden. Die Forschungsgemeinschaft im Allgemeinen und insbesondere Google nehmen dieses Thema ernst, sagt Goodfellow. Und wir arbeiten hart daran, bessere Abwehrkräfte zu entwickeln. Eine Reihe von Gruppen, wie die von Elon Musk finanzierteOpenAI, führen derzeit Forschungen zu feindlichen Angriffen durch oder fordern sie dazu auf. Die Schlussfolgerung ist bisher, dass es keine Wunderwaffe gibt, aber die Forscher sind sich nicht einig, wie groß die Bedrohung dieser Angriffe in der realen Welt ist. Es gibt bereits viele Möglichkeiten, zum Beispiel selbstfahrende Autos zu hacken, die nicht auf die Berechnung komplexer Störungen angewiesen sind.
Papernot sagt, dass eine so weit verbreitete Schwäche in unseren KI-Systemen keine große Überraschung ist – Klassifikatoren werden darauf trainiert, eine gute durchschnittliche Leistung zu haben, aber nicht unbedingt eine Worst-Case-Leistung – was normalerweise aus Sicherheitssicht angestrebt wird. Das heißt, die Forscher machen sich weniger Sorgen darüber, wie oft das System katastrophal versagt, als darüber, wie gut es im Durchschnitt funktioniert. Eine Möglichkeit, mit zwielichtigen Entscheidungsgrenzen umzugehen, so Clune, besteht darin, einfach Bildklassifizierer zu erstellen, die eher darauf hindeutennichtwissen, was etwas ist, anstatt immer zu versuchen, Daten in die eine oder andere Kategorie einzuordnen.
In der Zwischenzeit laden gegnerische Angriffe auch zu tieferen, konzeptionelleren Spekulationen ein. Die Tatsache, dass die gleichen täuschenden Bilder die Köpfe von KI-Systemen durcheinander bringen können, die unabhängig von Google, Mobileye oder Facebook entwickelt wurden, offenbart Schwächen, die anscheinend für die gesamte zeitgenössische KI endemisch sind.
Stoppen Sie die schlechte App
Es ist, als würden all diese verschiedenen Netzwerke herumsitzen und sagen, warum diese dummen Menschen nicht erkennen, dass diese statische Aufladung tatsächlich ein Seestern ist, sagt Clune. Das ist zutiefst interessant und mysteriös; dass alle diese Netzwerke darin übereinstimmen, dass diese verrückten und unnatürlichen Bilder tatsächlich vom gleichen Typ sind. Dieses Maß an Konvergenz überrascht die Leute wirklich.
Das ist zutiefst interessant und mysteriös.Für Clunes Kollege Jason Yosinski weist die Erforschung der Bildtäuschung auf eine unwahrscheinliche Ähnlichkeit zwischen künstlicher Intelligenz und von der Natur entwickelter Intelligenz hin. Er stellte fest, dass die gleichen Kategoriefehler, die von KI gemacht werden, und ihre Entscheidungsgrenzen auch in der Welt der Zoologie existieren, wo Tiere von dem, was Wissenschaftler nennen, ausgetrickst werdenübernatürliche Reize.
Diese Reize sind künstliche, übertriebene Versionen von Eigenschaften der Natur, die für Tiere so verlockend sind, dass sie ihre natürlichen Instinkte außer Kraft setzen. Dieses Verhalten wurde erstmals in den 1950er Jahren beobachtet, als Forscher es nutzten, um Vögel dazu zu bringen, ihre eigenen Eier zugunsten von Fälschungen mit helleren Farben zu ignorieren, oder um rotbauchige Stichlinge dazu zu bringen, Müllstücke zu bekämpfen, als wären sie rivalisierende Männchen. Der Fisch würde gegen Müll kämpfen, solange er einen großen roten Bauch darauf gemalt hatte. Einige Leute haben vorgeschlagen, dass menschliche Süchte wie Fast Food und Pornografie ebenfalls Beispiele für übernatürliche Reize sind. Vor diesem Hintergrund könnte man sagen, dass die Fehler, die KIs machen, nur natürlich sind. Leider brauchen wir sie, um besser zu sein.