Data Mining vs. Data Warehousing
Data Mining und Data Warehousing sind sowohl sehr leistungsfähige als auch beliebte Techniken zur Datenanalyse. Benutzer, die zu Statistiken neigen, verwenden Data Mining. Sie verwenden statistische Modelle, um nach versteckten Mustern in Daten zu suchen. Data Miner sind daran interessiert, nützliche Beziehungen zwischen verschiedenen Datenelementen zu finden, was letztendlich für Unternehmen rentabel ist. Andererseits verwenden Datenexperten, die die Dimensionen des Geschäfts direkt analysieren können, Data Warehouses.
Data Mining wird auch als Knowledge Discovery in Data (KDD) bezeichnet. Wie bereits erwähnt, handelt es sich um ein Gebiet der Informatik, das sich mit der Extraktion von bisher unbekannten und interessanten Informationen aus Rohdaten befasst. Aufgrund des exponentiellen Wachstums von Daten, insbesondere in Bereichen wie der Geschäftswelt, ist Data Mining ein sehr wichtiges Instrument geworden, um diese große Datenmenge in Business Intelligence umzuwandeln, da das manuelle Extrahieren von Mustern in den letzten Jahrzehnten scheinbar unmöglich geworden ist. Zum Beispiel wird es derzeit für verschiedene Anwendungen verwendet, wie z. B. Analyse sozialer Netzwerke, Betrugserkennung und Marketing. Data Mining umfasst normalerweise die folgenden vier Aufgaben: Clustering, Klassifizierung, Regression und Assoziation. Clustering identifiziert ähnliche Gruppen aus unstrukturierten Daten. Klassifizierung sind Lernregeln, die auf neue Daten angewendet werden können und normalerweise folgende Schritte umfassen: Vorverarbeitung von Daten, Entwerfen der Modellierung, Lernen / Merkmalsauswahl und Bewertung / Validierung. Regression ist das Finden von Funktionen mit minimalem Fehler beim Modellieren von Daten. Und die Assoziation sucht nach Beziehungen zwischen Variablen. Data Mining wird normalerweise verwendet, um Fragen zu beantworten, wie die wichtigsten Produkte aussehen könnten, die im nächsten Jahr in Wal-Mart hohen Gewinn erzielen können?
Wie bereits erwähnt, wird Data Warehousing auch für die Analyse von Daten verwendet, jedoch von verschiedenen Benutzergruppen und einem etwas anderen Ziel. Im Einzelhandel sind Data-Warehousing-Benutzer beispielsweise eher damit beschäftigt, welche Arten von Käufen bei den Kunden beliebt sind, sodass die Ergebnisse der Analyse den Kunden helfen können, indem sie das Kundenerlebnis verbessern. Data Miner vermuten jedoch zunächst eine Hypothese, beispielsweise, welche Kunden einen bestimmten Produkttyp kaufen und die Daten analysieren, um die Hypothese zu testen. Data Warehousing könnte von einem großen Einzelhändler durchgeführt werden, der seine Filialen zunächst mit den gleichen Produktgrößen bestückt, um später herauszufinden, dass die Filialen in New York wesentlich schneller als in Chicago verkaufen. Mit diesem Ergebnis kann der Einzelhändler den Laden in New York mit kleineren Größen im Vergleich zu den Geschäften in Chicago auf Lager halten.
Wie Sie deutlich sehen können, scheinen diese beiden Analysearten dem bloßen Auge gleichartig zu sein. Beide sind besorgt über die Steigerung der Gewinne auf der Grundlage der historischen Daten. Aber es gibt natürlich wesentliche Unterschiede. In einfachen Worten, Data Mining und Data Warehousing dienen dazu, unterschiedliche Arten von Analysen bereitzustellen, jedoch definitiv für verschiedene Arten von Benutzern. Mit anderen Worten, Data Mining sucht nach Korrelationen und strukturiert die statistische Hypothese. Data Warehousing beantwortet jedoch eine vergleichsweise breitere Frage, und die Daten werden von dort aus in Scheiben geschnitten, um Verbesserungsmöglichkeiten in der Zukunft zu erkennen.