Faulheit, Cybersicherheit und Maschinelles Lernen

Es ist wie es ist: der Mensch ist ein faules Wesen. Ist es möglich, nichts zu tun, dann tut er auch nichts. Jedoch ist das paradoxerweise eine gute Sache, da Faulheit… der Motor des Fortschritts ist! Was? Wie das? Nun, gilt ein Job als zu hart oder langwierig oder komplex für Menschen, geben bestimmte faule (aber gewissenhafte) Menschen (Homo Bequemis? 😀 ) den Job einer Maschine! In der Cybersicherheit nennen wir das Optimierung.

Analyse von Millionen von schädlichen Dateien und Webseiten jeden Tag, „Impfungen“ gegen zukünftige Bedrohungen entwickeln, für immer proaktiven Schutz verbessern und dutzende anderer kritischer Aufgaben lösen – all das ist ohne Automation einfach unmöglich. Und maschinelles Lernen ist eins der Hauptkonzepte in der Automation.

Maschinelles Lernen wurde in der Cybersicherheit über mehr als ein Jahrzehnt angewandt – nur ohne Marketingfanfaren.

Automation gibt es in der Cybersicherheit schon seit Beginn (der Cybersicherheit an sich). Ich erinnere mich z. B. daran, wie ich in den frühen 2000ern einen Code für einen Roboter schrieb, um eingehende Malwarebeispiele zu analysieren: der Roboter schiebt die entdeckten Dateien in die entsprechenden Ordner unserer wachsenden Malware-Sammlung, die auf seinem (des Roboters) Urteil bezüglich ihrer (die Dateien!) Eigenschaften basiert. Es war schwer, sich vorzustellen – selbst damals – dass ich das manuell machen musste!

Heutzutage ist es nicht genug, Robotern präzise Anweisungen für Aufgaben zu geben, die sie verrichten sollen. Stattdessen müssen die Anweisungen für Aufgaben ungenau gegeben werden. Ja, ganz genau!

Zum Beispiel: „Finde die menschlichen Gesichter auf diesem Foto“. Hierfür beschreiben Sie nicht, wie menschliche Gesichter ausgesucht werden und wie man menschliche Gesichter von denen von Hunden unterscheidet. Stattdessen zeigen Sie dem Roboter mehrere Fotos und fügen hinzu: ‚Diese Dinge hier sind Menschen und das hier sind Hunde; und jetzt mach deine Arbeit‘! Und das ist kurz gesagt die ‚Freiheit der Kreativität‘, die sich selbst maschinelles Lernen nennt.

25ccd2f400000578-2958597-image-a-27_1424270103152

ML + CS = Liebe

Ohne maschinelles Lernen (ML) hätte kein einziger Cybersicherheitsanbieter in diesem Jahrzehnt überlebt (es sei denn, die Erkennung wurde einfach von anderen kopiert). Jedoch präsentieren einige Start-ups ML als eine neue Revolution in der Cybersicherheit (CS) – eine Revolution, die sie, em, „begannen und einführen“. Aber tatsächlich wird ML seit mehr als einem Jahrzehnt in der Cybersicherheit angewandt – nur ohne Marketingfanfaren.

Maschinelles Lernen ist eine Disziplin, zu der Tausende von PhD-Dissertationen und Lehrbücher geschrieben wurden, also wird das schwer in einen einzigen Blogeintrag zu kriegen sein. Selbst nicht in mehrere Posts. Aber brauchen Sie, lieber Leser, wirklich all diese akademischen, technischen Details? Natürlich nicht. Also werde ich Ihnen stattdessen etwas viel Nützlicheres erzählen – und das in diesen Blog hier passt: die leckersten, saftigsten, wichtigsten und atemberaubensten Elemente dieses sogenannten maschinellen Lernens – aus unserer (KL) Perspektive.

Zu Beginn der „Reise“ verwendeten wir verschiedene mathematische Modelle der Automation nur zum internen Gebrauch; z. B. zur Automation einer Workstation eines Malwareanalysten (um die wichtigsten Teile des Informationsflusses herauszupicken), zur Bildung von Clustern (Objekte nach Attributen ordnen) und zur Optimierung von Webcrawlern (die Priorität und Intensität des Crawlings durch Millionen von URLs bestimmen, die auf Gewichtungen verschiedener Faktoren basieren).

Beim Anwenden von Methoden von maschinellem Lernen auf echte Aufgaben treten viele Schwierigkeiten und Nuancen auf.

Später wurde klar, dass ohne die Einführung solcher intelligenten Technologien in unsere Produkte, der Fluss von Cyberdreck uns überrollen würde. Was wir brauchten, waren Roboter, die auf solche komplexen Fragen schnell und akkurat antworten könnten, wie: ‚Hey Roboter, zeig mir die verdächtigsten Dateien, wie von dir aufgrund dieser Beispiele festgelegt wurde‘. Oder: ‚Hör mal, Roboter, so sehen wirklich coole heuristische Prozeduren aus – sobald Tausende Objekte erkannt wurden. Du musst nur einige gemeinsame Eigenschaften in anderen Malware-Beispielen finden – nur bei verschiedenen Objekten‘.

Einen Moment mal…

Bevor Sie denken, dass das alles hier ein Zuckerschlecken ist: Wenn Methoden von maschinellem Lernen auf wahre Aufgaben angewandt werden, treten viele Schwierigkeiten und Nuancen auf. Besonders bei Cybersicherheit: der Cyberuntergrund erfindet unaufhaltsam neue Angriffe, also, ganz egal, wie gut ein mathematisches Modell ist, es muss immer verbessert werden. Und das ist die grundsätzliche Schwierigkeit am maschinellen Lernen in der Cybersicherheit: wir arbeiten in einem dynamischen und rauen Umfeld, in dem maschinelles Lernen stets gegen etwas kämpfen muss.

Seit Mitte der 2000er integriert Kaspersky Lab maschinelles Lernen in seine Endnutzerprodukte

Zunächst müssen all diese neuen Angriffe gefunden werden. Natürlich senden uns die Cyberkriminellen nicht ihre Waren, damit wir uns mit ihrer Entdeckung unterhalten… ganz im Gegenteil: sie arbeiten stark daran, sie so lange wie möglich geheim zu halten, damit sie länger kriminelles Einkommen haben. Die angehende Suche nach solchen Angriffen ist kostspielige Expertenarbeit mit der Verwendung von hochkomplexen Instrumenten und Intelligenz.

Zweitens müssen Analysten einen Roboter trainieren, damit er korrekt ausführt, was wichtig ist, und was nicht. Und das ist wirklich schwierig, mit den sprichwörtlichen Harken, die über die Wiese verteilt sind, und nur darauf warten, dass jemand auf sie tritt. Nur ein Beispiel: das Problem der Überanpassung.

machine-learning-ai-artificial-intelligence-e1462471461626

Ein klassisches Beispiel für Überanpassung ist das Folgende: Mathematiker erstellten ein Modell zum Erkennen von Bildern von Kühen, indem viele Fotos von diesem Tier benutzt wurden. Und, ja, das Modell begann, Kühe zu erkennen! Aber sobald sie damit begannen, die Bilder komplizierter zu gestalten, erkannte das Modell…nichts. Also mussten sie einen Blick darauf werfen, was los war. Was sie herausfanden, war, dass der Algorithmus „zu clever“ geworden war (so in der Art) und begann, sich selbst zu täuschen: – er trainierte sich darauf, das grüne Feld zu erkennen, auf dem die Kühe abgebildet waren!

Also ist das Einfügen von „Gehirnen“ in Technologien eine schwierige Angelegenheit; es ist ein langer und harter Weg von Versuch und Irrtum, der eine Kombination aus mindestens zwei Arten von Fachwissen benötigt – in Datenwissenschaften und Cybersicherheit. Mitte 2000 besaßen wir genug beider Fachwissen und begannen, maschinelles Lernen in unsere „Kampf-“ Technologien in Produkten einzubauen.

Seitdem hat sich Automation in unseren Produkten sprungweise entwickelt. Verschiedene mathematische Ansätze wurden in Produkte und Komponenten eingeführt: in Antispam (Klassifizierung von E-Mails aufgrund des Grads ihres Spams); Antiphishing (heuristische Erkennung von Phishingseiten); in Kindersicherungen (unerwünschten Inhalt heraussuchen); in Antibetrug; in Schutz gegen gezielte Angriffe; in Aktivitätsüberwachung usw.

 

Nicht so schnell, Mr. Smith

Nachdem alles zum Erfolg des maschinellen Lernens gelesen wurde, kann die Versuchung aufkommen, so einen intelligenten Maschinenalgorithmus direkt auf den Computer des Kunden zu installieren und ihm freien Lauf zu lassen: da der Algorithmus intelligent ist, lassen wir ihn doch lernen. Jedoch ist im Spiel des maschinellen Lernens kein Platz für Einzelgänger. Hier finden Sie den Grund:

Zunächst ist solch ein Ansatz auf die Leistungsfähigkeit beschränkt. Der Nutzer benötigt ein vernünftiges Gleichgewicht zwischen der Qualität des Schutzes und der Geschwindigkeit, und der Entwicklung der bereits vorhandenen Technologien und das Hinzufügen neuer Technologien – ganz egal wie intelligent – wird unumgänglich wertvolle Systemressourcen aufbrauchen.

Leistung, Stabilität des Schutzes und Selbstschutz sind Gründe gegen isoliertes maschinelles Lernen.

Zweitens senkt so ein ‚Isolationismus‘ – keine Updates, kein neues Studienmaterial – unausweichlich die Qualität des Schutzes. Der Algorithmus muss regelmäßig über ganz neue Arten von Cyberangriffen informiert werden; andernfalls sind seine Erfassungsfähigkeiten veraltet, noch bevor Sie „die Bedrohungslandschaft ändert sich immer“ sagen können.

Drittens gibt eine Konzentration von allen „Kampf-“ Technologien auf einem Computer den Cyberkriminellen bessere Möglichkeiten, um genauere Details des Schutzes und die Entwicklungsmetoden zu studieren, um dann Methoden zu entwickeln, um gegen sie zu arbeiten.

Das sind die drei Hauptgründe, aber es gibt noch viel mehr.

Also was muss getan werden?

Es ist alles recht einfach: nehmen Sie alle großen Waffen – die strapazierfähigsten und ressourcenreichesten Technologien zu maschinellem Lernen – viel entwickelter als Computer von Usern! – um ein „Remote-Hirn“ zu erstellen, das durch Daten aus Millionen von Client-Rechnern schnell und akkurat einen Angriff erkennen und den benötigten Schutz bereitstellen kann…

 

Kleine, weiche Clouds

Nun, vor 10 Jahren erstellten wir KSN (17 Patente und Patentanmeldungen) – die ein „Remote-Hirn“ benötigte. KSN ist eine Cloud-Technologie mit fortgeschrittener Infrastruktur und ist mit jedem geschützten Computer verbunden, der kaum Endpunktressourcen nutzt und die Qualität des Schutzes erhöht.

Im Wesentlichen ist KSN eine russische Puppe: die Cloud enthält viele andere intelligente Technologien für den Kampf gegen Cyberangriffe. Es stellt auch „Kampf-“ Systeme und sich konstant entwickelnde Versuchsmodelle bereit. Ich habe bereits über eine von ihnen geschrieben – Astraea (Patente US7640589, US8572740, US7743419), das seit 2009 automatisch Ereignisse auf geschützten Computern analysiert, um unbekannte Bedrohungen aufzudecken. Heute verarbeitet Astraea mehr als eine Milliarden Ereignisse an einem Tag.

Obwohl Cloud-Technologien gezeigt haben, wie überlegen sie sind, sind sie aber auch autonome, isolierte Systeme, die verkauft werden. Sie haben bereits ein vorläufiges maschinelles Lernen durchgeführt und werden selten aktualisiert, da sie sich auf Client-Rechnern befinden. Stellen Sie sich das mal vor.

Moment mal.

99,9% der Cyberbedrohungen werden von uns mit infrastrukturellen Algorithmen analysiert, die mit maschinellem Lernen funktionieren

Die Unternehmen, die diese isolierten Lösungen anbieten, behaupten, dass sie, dank maschinellem Lernen, „neue Malware-Generationen“ ohne regelmäßige Updates erkennen können. Aber diese Erkennung interessiert keinen, da sie unbedeutende „Oberflächen“ schützt, die Kriminellen unzureichenden Gewinn versprechen (zu wenige Nutzer = kein Interesse). Vielleicht finden sie ab und zu dies und das, aber Sie werden nie davon hören. Es ist nicht so, als hätten sie jemals etwas Großes entdeckt – wie fortschrittliche Spionageangriffe, wie Duqu, Flame oder Equation.

Heute analysieren wir 99,9% der Cyberbedrohungen mit infrastrukturellen Algorithmen, die mit maschinellem Lernen funktionieren. Der Zeitabstand zwischen dem Entdecken von verdächtigem Verhalten auf einem geschütztem Gerät und dem Problem des betreffenden neuen „Tablets“ liegt bei durchschnittlich 10 Minuten. Das jedoch nur, wenn das Objekt nicht bereits von unserem proaktiven Schutz gefasst wurde (z. B. automatischer Schutz gegen Exploits). Es gab Momente, in denen es von dem Fund eines verdächtigen Objekts bis zum Update nur 40 Sekunden gedauert hat. Das führte zu viel Getuschel in Untergrundforen: ‚Wie können uns diese Typen so verdammt schnell finden? Da können wir nicht Schritt halten!‘.

Um zusammenzufassen: Cloud-Infrastruktur + maschinelles Lernen = umwerfend effektiver Schutz. Selbst zuvor haben wir in unabhängigen Tests niemals schlecht abgeschnitten; aber seit KSN – sind wir zur unangefochtenen Nr. 1 geworden. Darüber hinaus haben wir eine sehr niedrige Rate von falschpositiven Ergebnissen und bezüglich Geschwindigkeit haben wir die besten Indikatoren der Industrie.

 

Alter Wein vs. neues Gesöff

Es scheint, als wenn hier zumindest – ein Allheilmittel gegen alle Cyberbedrohungen gefunden wurde! Ein Leichtgewicht-Client-Fänger am Endpunkt und all die schwere Arbeit wird in der Cloud getan. Aber nein. Wenn es jemals Netzwerkprobleme geben sollte, wäre der Endpunkt ungeschützt. Tatsächlich hat die Praxis gezeigt, dass die ideale Umgebung für intelligente Technologien zwischen zwei Extremen liegt – mit einer Kombination aus autonomer und Cloud-Landschaft.

Dann gab es da die Idee, dass maschinelles Lernen alle anderen Ansätze in den totalen Sicherheitsparadigmen einnehmen könnte. Auch bekannt als: alles auf eine Karte setzen.

Aber…was geschieht, wenn die Kriminellen verstehen, wie die Algorithmen funktionieren und lernen, wie sie den Schutz umgehen können? Das würde bedeuten, dass alle mathematischen Modelle angepasst werden müssten. Und während das Modell angepasst wird und das Update gesendet/empfangen wird, bleibt der Nutzer allein mit dem Cyberangriff – ohne Schutz.

Maschinelles Lernen ist keine Silberkugel: Der beste Schutz ist eine Kombination verschiedener Technologien, auf allen Ebenen, unter Berücksichtigung aller Angriffsvektoren.

Die Schlussfolgerung ist offensichtlich: der beste Schutz ist eine Kombination verschiedener Technologien auf allen Ebenen, unter Berücksichtigung aller Angriffsvektoren.

Und schließlich das Wichtigste: maschinelles Lernen wird von Menschen erstellt – Experten auf höchstem Niveau in Datenanalyse und Cybergefahren. Sie gehören zusammen. Es geht alles um menschliche Intelligenz.

Und es ist ein langjähriger Prozess von Versuch und Irrtum. Es ist wie ein alter Wein – er ist immer besser als ein Gesöff aus dem vergangenen Jahr, ganz egal, wie schön das Etikett des Gesöffs ist. Wer sich als erstes auf den langen und kurvigen Weg des maschinellen Lernens macht, wird erfahrenere Experten, bessere Technologien und verlässlicheren Schutz haben. Und das ist nicht nur meine Meinung. Es wurde in Tests, Forschungen und von Kunden bestätigt.

 

Bonustrack: O tempora o mores!

Das Geschäftsmodell einiger IT-Sicherheits-Start-ups ist klar: ‚Es geht nicht darum, wie viel man verdient, es geht darum, wie viel Sie wert sind‚. Ihr Ziel ist ein Wirrwarr intensiver Marketingaktivität, die aus Provokationen, Manipulationen und Fälschung besteht – alles, um Blasen mit Hoffnung zu vergrößern.

Wenn ein Start-up nicht auf Tricks basiert, wird es sicher bemerken, dass ohne vielschichtigen Schutz, ohne die Anwendung aller modernen Schutztechnologien und ohne die Entwicklung eines eigenen Fachwissens – es verloren ist; da die Geldanlagen und der „Vertrauenszuschuss“ der User an ihr Ende kommen.

Auf der anderen Seite ist die Erstellung eines guten Sicherheitsprodukts aus dem Nichts, das alle Erwartungen erfüllt, heutzutage schwierig, wenn nicht unmöglich. Man braucht neben Geld auch Verstand und Zeit. Jedoch denke ich, dass die meisten Startups sich dazu entscheiden, klein anzufangen und dann zu wachsen.

machine-learning-robots-dilbert

Ich bin mir sicher, dass früher oder später „revolutionäre“ Start-ups eigens getestete und bewährte Technologien einführen werden, die ihre Effizienz beweisen. Und die besten der jungen Start-ups, die echte Erfahrrungen machen und ihr eigenes Fachwissen ansammeln, ihr Schutzarsenal verbreiten werden, die potentielle Angriffsszenarien zunehmend verringern werden. Indem sie schrittweise ihre Produkte auf ein professionelles Niveau bringen, werden sie den Zusammenhang von objektiven Qualitätskriterien in wahrer Cybersicherheit zeigen.

#MachinenellesLernen ist fundamental für die #Cybersicherheit. @e_kaspersky gibt mehr interessante Fakten dazu#AI_OILTWEET

Kommentare lesen 0
Hinterlassen Sie eine Nachricht.