KDD vs Data Mining
KDD (Knowledge Discovery in Databases) ist ein Gebiet der Informatik, das Werkzeuge und Theorien umfasst, um Menschen dabei zu unterstützen, nützliche und bisher unbekannte Informationen (d. H. Wissen) aus großen Sammlungen digitalisierter Daten zu extrahieren. KDD besteht aus mehreren Schritten, und Data Mining ist einer davon. Data Mining ist die Anwendung eines bestimmten Algorithmus, um Muster aus Daten zu extrahieren. Trotzdem werden KDD und Data Mining austauschbar verwendet.
Was ist KDD??
Wie bereits erwähnt, ist KDD ein Gebiet der Informatik, das sich mit der Extraktion von bisher unbekannten und interessanten Informationen aus Rohdaten befasst. KDD ist der gesamte Prozess, bei dem versucht wird, Daten durch die Entwicklung geeigneter Methoden oder Techniken zu verstehen. Dieser Prozess befasst sich mit der Abbildung von Low-Level-Daten in andere Formen, die kompakter, abstrakter und nützlicher sind. Dies wird erreicht, indem kurze Berichte erstellt, der Prozess der Datengenerierung modelliert und Vorhersagemodelle entwickelt werden, die zukünftige Fälle vorhersagen können. Aufgrund des exponentiellen Wachstums von Daten, insbesondere in Bereichen wie der Geschäftswelt, ist KDD zu einem sehr wichtigen Prozess geworden, um diese große Datenmenge in Business Intelligence umzuwandeln, da das manuelle Extrahieren von Mustern in den letzten Jahrzehnten scheinbar unmöglich geworden ist. Beispielsweise wird es derzeit für verschiedene Anwendungen verwendet, wie z. B. Analyse sozialer Netzwerke, Betrugserkennung, Wissenschaft, Investitionen, Herstellung, Telekommunikation, Datenreinigung, Sport, Informationsabruf und weitgehend für Marketingzwecke. KDD wird normalerweise verwendet, um Fragen zu beantworten, wie die wichtigsten Produkte sein könnten, die im nächsten Jahr in Wal-Mart hohen Gewinn erzielen können. Dieser Prozess umfasst mehrere Schritte. Es beginnt mit der Entwicklung eines Verständnisses der Anwendungsdomäne und des Ziels und dem Erstellen eines Zieldatensatzes. Anschließend werden Daten gereinigt, vorverarbeitet, reduziert und projiziert. Der nächste Schritt besteht in der Verwendung von Data Mining (nachstehend erklärt), um das Muster zu identifizieren. Schließlich wird das entdeckte Wissen durch Visualisierung und / oder Interpretation konsolidiert.
Was ist Data Mining??
Wie bereits erwähnt, ist Data Mining nur ein Schritt innerhalb des gesamten KDD-Prozesses. Es gibt zwei Hauptziele für Data Mining, die durch das Ziel der Anwendung definiert werden, und zwar die Überprüfung oder Ermittlung. Bei der Überprüfung wird die Hypothese des Benutzers zu Daten überprüft, während bei der Erkennung automatisch interessante Muster gefunden werden. Es gibt vier wichtige Data Mining-Aufgaben: Clustering, Klassifizierung, Regression und Assoziation (Zusammenfassung). Clustering identifiziert ähnliche Gruppen aus unstrukturierten Daten. Klassifizierung sind Lernregeln, die auf neue Daten angewendet werden können. Regression ist das Finden von Funktionen mit minimalem Fehler beim Modellieren von Daten. Und die Assoziation sucht nach Beziehungen zwischen Variablen. Dann muss der spezifische Data Mining-Algorithmus ausgewählt werden. Je nach Ziel können verschiedene Algorithmen wie lineare Regression, logistische Regression, Entscheidungsbäume und Naive Bayes ausgewählt werden. Dann werden Muster von Interesse in einer oder mehreren Darstellungsformen gesucht. Schließlich werden Modelle entweder mit Vorhersagegenauigkeit oder Verständlichkeit bewertet.
Was ist der Unterschied zwischen KDD und Data Mining??
Obwohl die beiden Begriffe KDD und Data Mining stark austauschbar verwendet werden, beziehen sie sich auf zwei verwandte, jedoch etwas unterschiedliche Konzepte. KDD ist der Gesamtprozess zur Gewinnung von Wissen aus Daten, während Data Mining ein Schritt innerhalb des KDD-Prozesses ist, der sich mit der Identifizierung von Mustern in Daten befasst. Mit anderen Worten, Data Mining ist nur die Anwendung eines bestimmten Algorithmus, der auf dem Gesamtziel des KDD-Prozesses basiert.