Kolloquium über anwendungsorientierte Statistik
Universität und ETH Zürich
Seminar für Statistik, ETHZ

Data Mining: Theoretische Aspekte und Anwendungen

Prof. Gholamreza Nakhaeizadeh, DaimlerChrysler Research & Technology, Ulm

6. April 2000, 16.15 - ca. 17.30
Hauptgebäude der Universität, Hörsaal E 18

Abstract

Die Extraktion von verwertbarem Wissen aus Daten ist ein Thema, dasangesichts der Menge des zur Zeit verfügbaren Datenmaterials mehr und mehr an Aktualität gewinnt. In vielen Unternehmen und wissenschaftlichen Institutionen existieren sehr große Datenbestände, deren genauere Analyse direkt nutzbare Erkenntnisse verspricht. Oft genug bleiben die Daten jedoch ungenutzt, da die Menge und ihr permanent wachsendes Volumen die Auswertung erschwert. Schätzungsweise werden lediglich 5 bis 10% der gesammelten und generierten Daten analysiert. Die Anwendung geeigneter Verfahren zur Wissensentdeckung in großen Datenbeständen wird als Data Mining (DM) bezeichnet und ist der Kern eines Prozesses, der in der Literatur als ``Knowledge Discovery in Databases'' (KDD) beschrieben wird. Data Mining und KDD haben sowohl interessante Forschungs- als auch Anwendungsaspekte. Sie bringen einerseits als interdisziplinäre Wissenschaft neue Herausforderungen für die Forschung auf Gebieten wie Statistik, maschinelles Lernen und Datenbanken. Andererseits sind sie für verschiedene praktische Anwendungen wie etwa Marketing, Risk Management, Customer & Supplier Relationship Management, Konstruktion, Produktionsmanagement, Logistik und Qualitätssicherung von großer Bedeutung.

Sind die Daten jedoch verteilt, ist aus politischen, unternehmerischen und rechtlichen Gründen der Aufbau eines Data Warehouse und daher der Einsatz des klassischen DM nicht immer möglich. Insbesondere geographisch verteilte Unternehmen benötigen einen dezentralisierten Ansatz zur Extraktion von verwertbarem Wissen aus ihren verteilten Datenbanken. Distributed Data Mining (DDM) bietet eine Lösung zu diesem Problem. DDM kann auf verschiedenen Gebieten eingesetzt werden und macht in manchen Fällen den Aufbau eines Data Warehouses überflüssig. In diesem Beitrag werden zuerst einige theoretische Aspekte und Anwendungsmöglichkeiten des klassischen DM dargestellt. Darüber hinaus werden die Grenzen der klassischen DM Technologie zur Analyse verteilter Datenbanken aufgezeigt. Es wird ferner beschrieben, wie DDM in solchen Fällen eingesetzt werden kann. Einige potentielle Anwendungsmöglichkeiten des DDM werden diskutiert, und abschließend ein Ausblick auf weitere Forschungsthemen im Umfeld des DM und DDM gegeben.

Sie sind herzlich eingeladen.

Further information: Christina Künzli, Statistics Seminar of ETH Zurich