Data Mining gegen OLAP
Sowohl Data Mining als auch OLAP sind zwei der gängigen Business Intelligence (BI) -Technologien. Business Intelligence bezieht sich auf computerbasierte Methoden zum Identifizieren und Extrahieren nützlicher Informationen aus Geschäftsdaten. Data Mining ist das Gebiet der Informatik, bei dem aus großen Datenmengen interessante Muster extrahiert werden. Es kombiniert viele Methoden aus künstlicher Intelligenz, Statistiken und Datenbankverwaltung. OLAP (Online Analytical Processing) ist, wie der Name vermuten lässt, eine Zusammenstellung von Möglichkeiten zum Abfragen mehrdimensionaler Datenbanken.
Data Mining wird auch als Knowledge Discovery in Data (KDD) bezeichnet. Wie bereits erwähnt, handelt es sich um ein Gebiet der Informatik, das sich mit der Extraktion von bisher unbekannten und interessanten Informationen aus Rohdaten befasst. Aufgrund des exponentiellen Wachstums von Daten, insbesondere in Bereichen wie der Geschäftswelt, ist Data Mining ein sehr wichtiges Instrument geworden, um diese große Datenmenge in Business Intelligence umzuwandeln, da das manuelle Extrahieren von Mustern in den letzten Jahrzehnten scheinbar unmöglich geworden ist. Zum Beispiel wird es derzeit für verschiedene Anwendungen verwendet, wie z. B. Analyse sozialer Netzwerke, Betrugserkennung und Marketing. Data Mining umfasst normalerweise die folgenden vier Aufgaben: Clustering, Klassifizierung, Regression und Assoziation. Clustering identifiziert ähnliche Gruppen aus unstrukturierten Daten. Klassifizierung sind Lernregeln, die auf neue Daten angewendet werden können und normalerweise folgende Schritte umfassen: Vorverarbeitung von Daten, Entwerfen der Modellierung, Lernen / Merkmalsauswahl und Bewertung / Validierung. Regression ist das Finden von Funktionen mit minimalem Fehler beim Modellieren von Daten. Und die Assoziation sucht nach Beziehungen zwischen Variablen. Data Mining wird normalerweise verwendet, um Fragen zu beantworten, wie die wichtigsten Produkte aussehen könnten, die im nächsten Jahr in Wal-Mart hohen Gewinn erzielen können.
OLAP ist eine Klasse von Systemen, die Antworten auf mehrdimensionale Abfragen liefern. In der Regel wird OLAP für Marketing, Budgetierung, Prognose und ähnliche Anwendungen verwendet. Es versteht sich von selbst, dass die für OLAP verwendeten Datenbanken für komplexe und Ad-hoc-Abfragen mit einer schnellen Performance konfiguriert sind. Normalerweise wird eine Matrix verwendet, um die Ausgabe eines OLAP anzuzeigen. Die Zeilen und Spalten werden von den Dimensionen der Abfrage gebildet. Sie verwenden häufig Aggregationsmethoden für mehrere Tabellen, um Zusammenfassungen zu erhalten. Zum Beispiel kann es verwendet werden, um sich über den Umsatz dieses Jahres in Wal-Mart im Vergleich zum Vorjahr zu informieren. Was ist die Prognose für den Umsatz im nächsten Quartal? Was kann man über den Trend sagen, wenn man die prozentuale Veränderung betrachtet?
Obwohl es offensichtlich ist, dass Data Mining und OLAP sich ähnlich verhalten, weil sie mit Daten arbeiten, um Informationen zu gewinnen, besteht der Hauptunterschied darin, wie sie mit Daten arbeiten. OLAP-Tools bieten multidimensionale Datenanalysen und Zusammenfassungen der Daten. Im Gegensatz dazu konzentriert sich Data Mining auf Verhältnisse, Muster und Einflüsse im Datensatz. Dies ist ein OLAP-Deal mit Aggregation, der sich auf die Verarbeitung von Daten durch Addition bezieht, aber Data Mining entspricht "Division". Ein weiterer bemerkenswerter Unterschied besteht darin, dass Data Mining-Tools zwar Daten modellieren und durchführbare Regeln zurückgeben, OLAP jedoch Vergleichs- und Kontrasttechniken entlang der Geschäftsdimension in Echtzeit durchführt.