Kolloquium über anwendungsorientierte Statistik
Universität und ETH Zürich
Seminar für Statistik, ETHZ
Data Mining: Theoretische Aspekte und Anwendungen
Prof. Gholamreza Nakhaeizadeh, DaimlerChrysler Research & Technology, Ulm
6. April 2000, 16.15 - ca. 17.30
Hauptgebäude der Universität, Hörsaal E 18
Abstract
Die Extraktion von verwertbarem Wissen aus Daten ist ein Thema, dasangesichts der Menge des zur Zeit verfügbaren Datenmaterials mehr und mehr
an Aktualität gewinnt. In vielen Unternehmen und wissenschaftlichen
Institutionen existieren sehr große Datenbestände, deren genauere Analyse
direkt nutzbare Erkenntnisse verspricht. Oft genug bleiben die Daten jedoch
ungenutzt, da die Menge und ihr permanent wachsendes Volumen die Auswertung
erschwert. Schätzungsweise werden lediglich 5 bis 10% der gesammelten und
generierten Daten analysiert. Die Anwendung geeigneter Verfahren zur
Wissensentdeckung in großen Datenbeständen wird als Data Mining (DM)
bezeichnet und ist der Kern eines Prozesses, der in der Literatur als
``Knowledge Discovery in Databases'' (KDD) beschrieben wird. Data Mining und
KDD haben sowohl interessante Forschungs- als auch Anwendungsaspekte. Sie
bringen einerseits als interdisziplinäre Wissenschaft neue
Herausforderungen für die Forschung auf Gebieten wie Statistik,
maschinelles Lernen und Datenbanken. Andererseits sind sie für verschiedene
praktische Anwendungen wie etwa Marketing, Risk Management, Customer &
Supplier Relationship Management, Konstruktion, Produktionsmanagement,
Logistik und Qualitätssicherung von großer Bedeutung.
Sind die Daten jedoch verteilt, ist aus politischen, unternehmerischen und
rechtlichen Gründen der Aufbau eines Data Warehouse und daher der Einsatz
des klassischen DM nicht immer möglich. Insbesondere geographisch verteilte
Unternehmen benötigen einen dezentralisierten Ansatz zur Extraktion von
verwertbarem Wissen aus ihren verteilten Datenbanken. Distributed Data
Mining (DDM) bietet eine Lösung zu diesem Problem. DDM kann auf
verschiedenen Gebieten eingesetzt werden und macht in manchen Fällen den
Aufbau eines Data Warehouses überflüssig. In diesem Beitrag werden zuerst
einige theoretische Aspekte und Anwendungsmöglichkeiten des klassischen DM
dargestellt. Darüber hinaus werden die Grenzen der klassischen DM
Technologie zur Analyse verteilter Datenbanken aufgezeigt. Es wird ferner
beschrieben, wie DDM in solchen Fällen eingesetzt werden kann. Einige
potentielle Anwendungsmöglichkeiten des DDM werden diskutiert, und
abschließend ein Ausblick auf weitere Forschungsthemen im Umfeld des DM und
DDM gegeben.
Sie sind herzlich eingeladen.
Further information:
Christina Künzli,
Statistics Seminar of ETH Zurich