Research Group of Prof. Dr. M. Griebel
Institute for Numerical Simulation
maximize
Nächste Seite: Stand der Wissenschaft und Aufwärts: Mustererkennung mit Dünnen Gittern Vorherige Seite: Mustererkennung mit Dünnen Gittern

Ziele des Projektes

Wir wollen uns mit der Klassifikation von Daten in hochdimensionalen Merkmalsräumen beschäftigen, wie sie sich im Bereich der Mustererkennung ergeben. Es soll ein neuartiges Klassifikationsverfahren entwickelt werden, welches die schnelle Klassifikation großer Datensätze ermöglicht.

Gute konventionelle Verfahren wie Neuronale Netze oder Support Vector Maschinen (SVM) eignen sich meist nur für kleine Datensätze und sind somit für Data Mining, d.h. die Analyse großer Datenbanken wie sie insbesondere im Bereich der Finanzmathematik oftmals auftreten, kaum geeignet. In den wichtigsten Fällen läßt sich die Klassifikation nach eventueller Regularisierung als Interpolations-, Approximations- oder least square Aufgabe in hochdimensionalen Räumen auffassen [9]. Die meisten herkömmlichen Mustererkennungsverfahren nutzen hierfür über den Datenpunkten definierte Basisfunktionen mit globalen Trägern. Zwar erlaubt dieser Ansatz die Bearbeitung hochdimensionaler Daten, er ist jedoch auf eine geringe Anzahl an Datensätzen beschränkt, da hier vollständig besetzte Matrizen entstehen. In der Praxis des Data Mining ist jedoch meist das entgegengesetzte Problem anzutreffen: Die Daten sind relativ niedrigdimensional (ca. 5 - 100 Dimensionen), die Anzahl der Daten ist aber sehr hoch (ca. $ 10^4 - 10^9$). Auch der Einsatz klassischer Approximationsverfahren wie Finiter Elemente Methoden ist nicht praktikabel, da aufgrund der hohen Dimensionen der Aufwand $ O(N^d)$ ist, wobei N die Anzahl der Daten und d die Dimension des Merkmalsraumes bezeichnet. Darüber hinaus sind die von herkömmlichen Mustererkennungsverfahren konstruierten Klassifikationsfunktionen meist sehr umfangreich, nicht selten in der Größenordnung der Zahl der Datensätze. Gelänge es, die Klassifikationsfunktionen effizient darzustellen, würde auch die on-line Klassifikation neuer Daten enorm beschleunigt.

Wir schlagen deswegen die Verwendung von Dünngitter-Techniken zur Klassifikation vor, wie sie zur Approximation und insbesondere zum Lösen von Differentialgleichungen entwickelt wurden. Der Vorteil des Dünngitter-Ansatzes ist, daß der Aufwand zur Lösung hochdimensionaler variationeller Probleme von der Dimension nahezu unabhängig ist [20,13], und sich Verfahren mit dem Aufwand $ O(N \ln(N)^{d-1})$ ergeben. Hochdimensionale Probleme (bis zu ca. 15 Dimensionen) für große Datensätze, wie sie sich beim Data Mining ergeben, und die ansonsten weit außerhalb der Leistungsfähigkeit heutiger Großrechner stehen, sind damit wieder lösbar. Da Dünngitter-Techniken auf hierarchischen Basen beruhen, und hier auch Wavelet-Basen zur Verfügung stehen, sind die hiermit konstruierten Klassifikatorfunktionen zugleich effizient repräsentiert und somit auf große Datensätze on-line anwendbar.

Das auf Dünngittertechniken basierende Klassifikationsverfahren soll anhand großer Datensätze vorrangig aus dem Bereich der Finanzmathematik getestet werden und für die Kursprognose auf der Basis untertägiger Tick-Daten und in verwandten Bereichen des Data Mining wie dem Direkt-Marketing eingesetzt werden.


Nächste Seite: Stand der Wissenschaft und Aufwärts: Mustererkennung mit Dünnen Gittern Vorherige Seite: Mustererkennung mit Dünnen Gittern
Jochen Garcke
2000-12-14