In den letzten Jahren ist die Anzahl der Angriffe auf IT-Systeme aller Art stetig und rapide angestiegen. Die immer undurchsichtigere und unsicherere weltpolitische Lage wirkt sich auch auf den digitalen Raum aus. Ausgangspunkt für einen Großteil der Angriffe sind nach wie vor E-Mails. Dabei nutzen Angreifer immer geschicktere Methoden, um ihre Absichten zu verschleiern. Diese bösartigen E-Mails trennscharf und in Echtzeit zu erkennen stellt eine große Herausforderung dar. Mit 32Guards hat Net at Work deshalb einen Service entwickelt, der Metadaten von Millionen E-Mails täglich analysiert und daten-gestützt Bedrohungstrends erkennt.
Der Vortrag gibt einen kurzen Einblick in aktuelle Bedrohungsmuster. Der Schwerpunkt ist dabei allerdings das Thema aus dem Data Science Blickwinkel zu beleuchten. Es werden Herausforderungen geschildert und daraus gewonnene Lektionen vorgestellt. Themen wie Datengewinnung, Datenqualität, Entscheidungen in Echtzeit und die Kombination verschiedener Machine-Learning Ansätze werden vor dem Hintergrund des Praxisbeispiel aus der E-Mail-Security betrachtet.
Tim Lenzen ist als Data Scientist und Teamleiter bei Net at Work tätig. Mit seinem Team entwickelt er den Dienst 32Guards stetig weiter und macht somit E-Mail Kommunikation jeden Tag ein Stück sicherer.
Über den Tellerrand hinaus. Es heißt zwar Nachdenken, aber man sollte es trotzdem vorher tun
Beim Trainieren von KI-Modellen sind DataScientists sehr geübt darin, formelle Evaluationen durchzuführen. Im Sinne eines wissenschaftlichen und empirisch validen Vorgehens, ist es nur logisch, Modellentscheidungen auf Basis solcher Evaluationen zu fällen. Um aus einem KI-Modell ein nutzbares Produkt zu machen, sind jedoch noch weitere Schritte nötig. Kriterien, die sich auf Hosting, Wartung und das tatsächliche Nutzer*innenerlebnis auswirken, werden dabei nur selten mitgedacht, sollten jedoch von Anfang an berücksichtigt werden. In diesem Talk sollen typische Fallstricke betrachtet werden, die sich vermeiden lassen, wenn man ihre Herausforderungen bereits auf Modellebene berücksichtigt. Auch wenn es nachdenken heißt, lohnt es sich, es vorher zu tun.
Dorian Drost ist seit 2020 als DataScientists bei Diamant Software tätig und beschäftigt sich mit dort mit der Erfassung und Analyse von Trainingsdaten für KI-Anwendungen. Er hat an der Universität Bielefeld Kognitive Informatik studiert und schreibt Artikel für TowardsDataScience, in denen er interessierten Leser*innen Konzepte aus den Bereichen Statistik, KI und Maschinellem Lernen näher bringt.