Incremental One-Class Support Vector Machine with Minor Supervised Labels

In modern cyber systems, large-scale anomaly detection is usually a difficult learning task because labeled data is either only available in minor amounts or not available at all. With constantly changing data and anomaly patterns, detection systems require to incrementally incorporate new data to the existing training set. Training all data as batch each time on arriving of a new data instance poses a computational challenge with increasing number of data.This thesis develops an online semi-supervised algorithm targeting large-scale data sets with minor supervised labels. We extend the unsupervised algorithm one-class support vector machine (OCSVM) to support labeled data and to incrementally train new data. The incremental algorithm is based on an existing solution for support vector machine. In order to support our claim, we apply our algorithm on real-world data sets to evaluate its performance and efficiency. Our contribution is threefold: Firstly, the extension of OCSVM for incremental training, secondly the integration of additional minor labeled data, and finally a large-scale evaluation of the algorithm to prove our claims.In modernen Cyber-Systemen lassen sich groß angelegte Anomalie Erkennungen gewöhnlich nicht ohne Probleme realisieren, wenn die gesuchten Muster entweder nicht bekannt oder nur in kleiner Menge vorhanden sind. Des Weiteren müssen Systeme zur Anomalie Erkennung ständig neue Daten zu ihrem Trainingssatz hinzufügen, da sich Angriffsmuster stetig ändern können. Das Trainieren von neuen Datensätzen kann rechenintensiv und ineffizient sein, wenn alle Daten jedes Mal neu trainiert werden müssen.Diese Arbeit konzentriert sich auf die Analyse und den Entwurf eines inkrementellen Online-Algorithmus basierend auf der inkrementellen Ein-Klassen Support Vector Maschine (EKSVM) Methode. Dafür erweitern wir den vorhanden inkrementellen Lernalgorithmus um EKSVM zu unterstützten. Die Durchführbarkeit und Performance prüfen wir anhand unserer eigenen Implementation und testen diese in der Umgebung eines Angrifferkennungssystem. Der Beitrag unserer Arbeit besteht aus drei Teilen: die Erweiterung der inkrementellen EKSVM Methode, die Integration von einer kleinen Menge von markierten Datensätzen sowie die Evaluation an reellen Daten.

Incremental One-Class Support Vector Machine with Minor Supervised Labels

Supervisor(s):
Status:	finished
Topic:	Machine Learning Methods
Author:	Dieu Linh Tran
Submission:	2015-12-15
Type of Thesis:	Masterthesis
Proof of Concept	No
Astract: In modern cyber systems, large-scale anomaly detection is usually a difficult learning task because labeled data is either only available in minor amounts or not available at all. With constantly changing data and anomaly patterns, detection systems require to incrementally incorporate new data to the existing training set. Training all data as batch each time on arriving of a new data instance poses a computational challenge with increasing number of data.This thesis develops an online semi-supervised algorithm targeting large-scale data sets with minor supervised labels. We extend the unsupervised algorithm one-class support vector machine (OCSVM) to support labeled data and to incrementally train new data. The incremental algorithm is based on an existing solution for support vector machine. In order to support our claim, we apply our algorithm on real-world data sets to evaluate its performance and efficiency. Our contribution is threefold: Firstly, the extension of OCSVM for incremental training, secondly the integration of additional minor labeled data, and finally a large-scale evaluation of the algorithm to prove our claims.In modernen Cyber-Systemen lassen sich groß angelegte Anomalie Erkennungen gewöhnlich nicht ohne Probleme realisieren, wenn die gesuchten Muster entweder nicht bekannt oder nur in kleiner Menge vorhanden sind. Des Weiteren müssen Systeme zur Anomalie Erkennung ständig neue Daten zu ihrem Trainingssatz hinzufügen, da sich Angriffsmuster stetig ändern können. Das Trainieren von neuen Datensätzen kann rechenintensiv und ineffizient sein, wenn alle Daten jedes Mal neu trainiert werden müssen.Diese Arbeit konzentriert sich auf die Analyse und den Entwurf eines inkrementellen Online-Algorithmus basierend auf der inkrementellen Ein-Klassen Support Vector Maschine (EKSVM) Methode. Dafür erweitern wir den vorhanden inkrementellen Lernalgorithmus um EKSVM zu unterstützten. Die Durchführbarkeit und Performance prüfen wir anhand unserer eigenen Implementation und testen diese in der Umgebung eines Angrifferkennungssystem. Der Beitrag unserer Arbeit besteht aus drei Teilen: die Erweiterung der inkrementellen EKSVM Methode, die Integration von einer kleinen Menge von markierten Datensätzen sowie die Evaluation an reellen Daten.

Incremental One-Class Support Vector Machine with Minor Supervised Labels

Astract: