Data Mining (Buch) 4. Auflage

In den riesigen Datenbergen moderner Datenbanken steckt unentdecktes Wissen, das ohne geeignete Hilfsmittel kaum zu Tage gefördert werden kann. Hier setzt das Data Mining an und liefert Methoden und Algorithmen, um bisher unbekannte Zusammenhänge zu entdecken.

Das Buch deckt den Stoff einer einsemestrigen Vorlesung zu Data Mining an Universitäten und Fachhochschulen ab und ist als klassisches Lehrbuch konzipiert.

Kapitel 1 - Einführung

Kapitel 1 - Einführung

Dieses Kapitel gibt eine allgemeine Einführung in das Gebiet des Data Mining und klärt einige grundlegende Begriffe.

  • Was ist, was kann Data Mining?
  • Struktur des Buchs
  • Ablauf einer Datenanalyse
  • Interdisziplinarität
  • Tools

Dateien

  • [1] Wetterdaten, numerisch, [2] Wetterdaten, nominal
  • [3] Knime-Wetterworkflow Abb 1.6 / 1.8 (evtl. müssen Sie den FileReader konfigurieren)
  • [4] Irisdaten, arff-Format
  • [5] Knime-Loops Abb. 1.13 (evtl. müssen Sie den FileReader konfigurieren)

Tools

Wettbewerbe

Datensammlungen

Hier einige Hinweise zu den Aufgaben im Buch.

Kapitel 2 - Grundlagen

Kapitel 2 - Grundlagen

Dieses Kapitel klärt einige grundlegende Begriffe.                               

  • Grundbegriffe
  • Datentypen
  • Ähnlichkeits- / Abstandsmaße
  • Grundlagen Künstlicher Neuronaler Netze
  • Logik
  • Überwachtes und unüberwachtes Lernen
Kapitel 3 - Anwendungsklassen

Kapitel 3 - Anwendungsklassen

Dieses Kapitel gibt einen Überblick über die Anwendungsklassen im Data Mining.

  • Cluster-Analyse
  • Klassifikation
  • Numerische Vorhersage
  • Assoziationsanalyse
  • Text Mining
  • Web Mining

 

Kapitel 4 - Wissensrepräsentation

Kapitel 4 - Wissensrepräsentation

Dieses Kapitel gibt einen Überblick über die Möglichkeiten der Repräsentation von (DM-)Wissen auf einem Computer.

  • Entscheidungstabelle
  • Entscheidungsbäume
  • Regeln
  • Assoziationsregeln
  • Instanzenbasierte Darstellung
  • Repräsentation von Clustern
  • Neuronale Netze als Wissensspeicher
Kapitel 5 - Klassifikation

Kapitel 5 - Klassifikation

Dieses Kapitel gibt einen Überblick über grundlegende Klassifikationsverfahren.

  • k-Nearest Neighbour
  • Entscheidungsbäume
  • Naive Bayes
  • Vorwärtsgreichtete NN
  • SVM

Dateien

  • [1] Einkommensdaten
  • [2] Knime-KNN-Einkommen (evtl. müssen Sie den FileReader konfigurieren)
  • [3] Wetterdaten (nominal, csv)
  • [4] Knime-NaiveBayes-Wetter (evtl. müssen Sie den FileReader konfigurieren)
  • [5] Personaldaten (csv)
  • [6] Knime-SVM Personaldaten (evtl. müssen Sie den FileReader konfigurieren)
Kapitel 6 - Clusteranalyse

Kapitel 6 - Clusteranalyse

Dieses Kapitel gibt einen Überblick über grundlegende Clusterverfahren.

  • k-Means
  • k-Medoid
  • Erwartungsmaximierung
  • Dichtebasiertes Clustern
  • SOM
  • Neuronale Gase
  • ART-Netze

Dateien

  • [1] Irisdaten, arff-Format
  • [2] Knime-KMeans Abb. 6.15 (evtl. müssen Sie den FileReader konfigurieren)
  • [3] Datei für String Replace-Knoten
Kapitel 7 - Assoziationsanalyse

Kapitel 7 - Assoziationsanalyse

Dieses Kapitel gibt einen Überblick über grundlegende Verfahren zur Assoziationsanalyse.

  • A-Priori
  • Frequent Pattern Growth

Dateien

Kapitel 8 - Datenvorbereitung

Kapitel 8 - Datenvorbereitung

Dieses Kapitel gibt einen Überblick über grundlegende Techniken der Datenvorbereitung.

  • Datenselektion und -integration
  • Datensäuberung
  • Datenreduktion
  • Datentransformation

Dateien

  • [1] Iris-Daten, arff-Format
  • [2] Gesund/Krank-Daten, csv-Format (Bspl. 8.7)
  • [3] KNIME-Workflow 1, KNN ohne Normierung
  • [4] KNIME-Workflow 2, KNN mit Normierung
Kapitel 9 - Bewertung

Kapitel 9 - Bewertung

Dieses Kapitel gibt einen Überblick über grundlegende Möglichkeiten der Bewertung von Resultaten sowie der Visualisierung.

  • Interessantheitsmaße
  • Gütemaße und Fehlerkosten
  • Test- und Valisierungsmengen
  • Visualisierung

Dateien

  • [1] GnuPlot-Datei Abb. 9.6
  • [2] GnuPlot-Datei Abb. 9.14
Kapitel 10 - Beispiel

Kapitel 10 - Beispiel

Dieses Kapitel diskutiert mögliche Vorgehensweisen beim Data Mining Cup 2002.

Bestwert im DM-Cup 2002

  • 12.12.13 Tanja Ciernioch (Hochschule Wismar): 7771,80

Dateien

  • Die Aufgabe des Data-Mining-Cups 2002.
  • [2]Knime-Workflow für den ersten Versuch (Abb. 10.1).
  • [3]Knime-Workflow für kNN (Abb. 10.5).
  • [4]Knime-Workflow für Naive Bayes (Abb. 10.6).
  • [5]Knime-Workflow 1 für DecTree (Abb. 10.7).
  • [6]Knime-Workflow 2 für DecTree (Abb. 10.8).
  • [7]Knime-Workflow 1 für NN (Abb. 10.9).

Fehler (1. Auflage)

  • S. 261: Beim Naive Bayes Learner (Abb. 10.6) muss das "k=3" weg.
Korrekturen

Korrekturen

Gibt es ein Buch ohne Fehler? Leider nein. Hier einige Korrekturen für die 3. Auflage:

  • S 105: In Abbildung 5.8 muss es Kredithistorie heißen, und nicht Kreditwürdigkeit.
  • S. 108: In Abb. 5.11 muss im Zweig 15-35 / gut als Wert mittel stehen.
  • S. 112: Die Gain-Werte sind vertauscht: Bei Variante 1 ergibt sich 0,65, bei Variante 2 0,44.
  • S. 131, Formel 5.21: Das erste t-1 muss ein t sein.
  • S. 229ff.: Hier wollten wir eigentlich klar zwischen den Umwandlungen nominal -> metrisch und umgekehrt (Diskretisierung) trennen. Bei den Beispielen springen wir dann doch zwischen beiden Umwandlungen hin und her.
  • S. 241, letzter Absatz: Wir wollen einen Entscheidungsbaum mittels ID3 für den Bildungsabschluss (nicht das Jahresgehalt) generieren. Weiterhin müssten wir die Daten nicht transformieren, wenn wir den C4.5 anwenden wollten.
  • S. 251, Beispiel 9.3: Der Support der Regel ist natürlich 20%, nicht 15%.

4. Auflage

  • S. 116. Beispiel 5.6. Bei der SplitInfo fehlen die Minuszeichen. Also SplitInfo1 = - 5/12 * ....