TUM Logo

Incremental One-Class Support Vector Machine with Minor Supervised Labels

In modern cyber systems, large-scale anomaly detection is usually a difficult learning task because labeled data is either only available in minor amounts or not available at all. With constantly changing data and anomaly patterns, detection systems require to incrementally incorporate new data to the existing training set. Training all data as batch each time on arriving of a new data instance poses a computational challenge with increasing number of data.This thesis develops an online semi-supervised algorithm targeting large-scale data sets with minor supervised labels. We extend the unsupervised algorithm one-class support vector machine (OCSVM) to support labeled data and to incrementally train new data. The incremental algorithm is based on an existing solution for support vector machine. In order to support our claim, we apply our algorithm on real-world data sets to evaluate its performance and efficiency. Our contribution is threefold: Firstly, the extension of OCSVM for incremental training, secondly the integration of additional minor labeled data, and finally a large-scale evaluation of the algorithm to prove our claims.In modernen Cyber-Systemen lassen sich groß angelegte Anomalie Erkennungen gewöhnlich nicht ohne Probleme realisieren, wenn die gesuchten Muster entweder nicht bekannt oder nur in kleiner Menge vorhanden sind. Des Weiteren müssen Systeme zur Anomalie Erkennung ständig neue Daten zu ihrem Trainingssatz hinzufügen, da sich Angriffsmuster stetig ändern können. Das Trainieren von neuen Datensätzen kann rechenintensiv und ineffizient sein, wenn alle Daten jedes Mal neu trainiert werden müssen.Diese Arbeit konzentriert sich auf die Analyse und den Entwurf eines inkrementellen Online-Algorithmus basierend auf der inkrementellen Ein-Klassen Support Vector Maschine (EKSVM) Methode. Dafür erweitern wir den vorhanden inkrementellen Lernalgorithmus um EKSVM zu unterstützten. Die Durchführbarkeit und Performance prüfen wir anhand unserer eigenen Implementation und testen diese in der Umgebung eines Angrifferkennungssystem. Der Beitrag unserer Arbeit besteht aus drei Teilen: die Erweiterung der inkrementellen EKSVM Methode, die Integration von einer kleinen Menge von markierten Datensätzen sowie die Evaluation an reellen Daten.

Incremental One-Class Support Vector Machine with Minor Supervised Labels

Supervisor(s):
Status: finished
Topic: Machine Learning Methods
Author: Dieu Linh Tran
Submission: 2015-12-15
Type of Thesis: Masterthesis
Proof of Concept No

Astract:

In modern cyber systems, large-scale anomaly detection is usually a difficult learning task because labeled data is either only available in minor amounts or not available at all. With constantly changing data and anomaly patterns, detection systems require to incrementally incorporate new data to the existing training set. Training all data as batch each time on arriving of a new data instance poses a computational challenge with increasing number of data.This thesis develops an online semi-supervised algorithm targeting large-scale data sets with minor supervised labels. We extend the unsupervised algorithm one-class support vector machine (OCSVM) to support labeled data and to incrementally train new data. The incremental algorithm is based on an existing solution for support vector machine. In order to support our claim, we apply our algorithm on real-world data sets to evaluate its performance and efficiency. Our contribution is threefold: Firstly, the extension of OCSVM for incremental training, secondly the integration of additional minor labeled data, and finally a large-scale evaluation of the algorithm to prove our claims.In modernen Cyber-Systemen lassen sich groß angelegte Anomalie Erkennungen gewöhnlich nicht ohne Probleme realisieren, wenn die gesuchten Muster entweder nicht bekannt oder nur in kleiner Menge vorhanden sind. Des Weiteren müssen Systeme zur Anomalie Erkennung ständig neue Daten zu ihrem Trainingssatz hinzufügen, da sich Angriffsmuster stetig ändern können. Das Trainieren von neuen Datensätzen kann rechenintensiv und ineffizient sein, wenn alle Daten jedes Mal neu trainiert werden müssen.Diese Arbeit konzentriert sich auf die Analyse und den Entwurf eines inkrementellen Online-Algorithmus basierend auf der inkrementellen Ein-Klassen Support Vector Maschine (EKSVM) Methode. Dafür erweitern wir den vorhanden inkrementellen Lernalgorithmus um EKSVM zu unterstützten. Die Durchführbarkeit und Performance prüfen wir anhand unserer eigenen Implementation und testen diese in der Umgebung eines Angrifferkennungssystem. Der Beitrag unserer Arbeit besteht aus drei Teilen: die Erweiterung der inkrementellen EKSVM Methode, die Integration von einer kleinen Menge von markierten Datensätzen sowie die Evaluation an reellen Daten.