Daten und Data-Mining

Daten sind Alles, und Daten ergeben in Strukturen ihre Bestimmung und erhalten eine (Be-) Deutung. Daten gehen nicht verloren und werden sichtbar, z.B. durch Zeichen, Zahlen, Symbole, Buchstaben, Bilder etc., Daten sind elementare Grundlage der Natur, der Universen, des menschlichen Daseins und Handelns.

Daten stehen in Beziehungen zueinander, sie bilden Formationen und durch Art der Betrachtung ergeben sich Informationen. Bsp.: Name Rocky. Hier sind zwei Daten(einheiten) in einer bestimmten Form(ation) miteinander verknüpft und so zusammen betrachtet bilden diese eine Information, nämlich das der "Name Rocky" ist. Beachtenswert ist, dass diese Form willkürlich festgelegt werden kann. Das menschliche Gehirn ist ein Meister darin, Daten in Formationen zu bringen und zu Informationen zu verarbeiten. Bsp.: Ein Glas ist zur Hälfte mit Wasser gefüllt. Die Art der Betrachtung legt nun fest, welche Information entsteht. Es kann die Information entstehen, dass das Glas halb voll ist, oder die Information, dass das Glas halb leer ist. Beide Informationen haben die gleiche Datengrundlage und sind plausibel!

Hat man eine Menge von Informationen (verstanden), nennt man diese Menge Wissen. Menschen, die sich dem "in Form bringen" von vielen Daten widmen, nennt man Wissenschaftler. Sie schaffen Wissen, in dem sie letztendlich viele Daten in eine (bestimmte) Form bringen, aufbewahren und verbreiten (wollen). Auf wenn.de finden Sie z.B. Wissen zu kaufmännischen oder gesundheitlichen Themen.

Verbreitet werden Daten durch Menschen meist verpackt in Form von Informationen. Es sollte daher für den Empfänger immer die erste Regel sein, zu überprüfen, WER die Daten zu Informationen verpackt, d.h. verarbeitet hat, WARUM er diese Informationen genau so verarbeitet und in Umlauf bringt und verbreitet. Dann kann man darauf schließen, ob die Informationen die zu Grunde liegenden Daten wiedergeben oder nicht. Je nach Interesse (z.B. halb volles oder halb leeres Glas) kann man bei der Informationsbildung Daten weglassen, hinzufügen, verändert darstellten u.v.m., die Informationen müssen nicht die Daten wiederspiegeln. Und in vielen Fällen tun sie dies auch nicht (zu 100%). Über Methoden wie Reverse Engineering oder Hacking werden die auf den Informationen basierenden Daten wieder sichtbar.

Große Datenmengen = BIG DATA

Mit BIG DATA bezeichnet man grosse Mengen von Daten, die durch allerlei möglichen Aktionen und Prozesse anfallen und gespeichert werden (können). Diese (gespeicherten) Daten können dann z.B. mit Hilfe von Data Mining Verfahren verarbeitet, d.h. z.B. auf und nach Mustern analysiert und zur Verwendung weitergegeben werden. Moderne, schnelle Hardware und intelligente Software-Algorithmen machen dies in relativ kurzer Zeit möglich, je nach Menge der Daten teilweise bereits nahezu in Echtzeit.

Menschen tendieren allerdings eher dazu, aus Daten falsche bzw. fehlerhafte Informationen zu generieren, nur um zu wollen, dass diese den eigenen Erwartungen und Wünsche entsprechen. Dadurch können Schattenwelten entstehen, welche Daten und Datenspuren nicht ans Licht kommen lassen, sondern durch Falschinformationen maximal verschleiert werden. Riesige Schattenwelten dürfte es demzufolge in den Bereichen Geheimdienste, der (Digital-)Wirtschaft und (Organisierten) Kriminalität geben. In diesen Bereichen werden Daten so genutzt, dass Geld vermehrt und / oder Macht (-Einflüsse) erhalten bleibt.

Unternehmen und Organisationen, auch Staaten, tragen die Verantwortung, in und um ihrem Geschäftsbetrieb alle relevanten Daten zu berücksichtigen. Eine Berücksichtigung sämtlicher Daten erscheint zunächst utopisch und weniger für den laufenden Geschäftsbetrieb notwendig. Werden die Zusammenhänge dann aber klar, können Geschäftsprozesse effizienter gestaltet und die Zufriedenheit der Beteiligten gesteigert werden.

Zufriedenheit erzeugen und zu erhalten ist die Grundlage jeden Erfolges. Die richtigen Daten als Zutaten für den Erfolg zu kennen - wer will das nicht? Nur: Was sind die richtigen Daten? Welche Daten führen zum Erfolg? Wo kann man sie finden?

» BIG DATA Analysen ergeben Theorie vom Sinn des Lebens

Data Mining Verfahren

Data Mining sind Analyseverfahren, mit welchem sich aus sehr großen Datenmengen (Big Data) semi-automatisch Zusammenhänge, Abweichungen, Abhängigkeiten oder etwaige Datenmuster erkennen lassen. Anders gesagt extrahiert Data Mining bis dahin unerkanntes Wissen aus vorliegenden Datenbeständen.

Data Mining erfolgt durch statistische Methoden in Verbindung mit Datenbanksystemen. Im Unterschied zu klassischen Statistikverfahren werden mit Data Mining oft sehr große Gesamt- oder Teildatenbestände systematisch untersucht, was spezielle Anforderungen an die Performance der Data Mining Algorithmen stellt.

Dem Data Mining liegen folgende Annahmen zugrunde:

Muster in der Vergangenheit haben auch in Zukunft noch Gültigkeit.
Es sind ausreichend umfangreiche Daten vorhanden.
Die vorhandenen Daten können ausgewertet werden.
Die Daten enthalten das, was man auswerten will.

Die wichtigsten Aufgaben des Data Minings sind die folgenden:

Clustering und Entdecken von Ausreißern
Klassifikation
Generalisierung
Assoziations- bzw. Sequenzanalyse. Hier werden typische Sequenzmuster ermittelt. Die in den Daten enthaltenen Assoziationsregeln werden entdeckt, d.h. die Menge von Abhängigkeiten zwischen Objekten werden identifiziert. Solche Regeln sind Wenn-Dann-Regeln mit einer gewissen Eintrittswahrscheinlichkeit, wie z.B.
- Wenn im Nahen Osten gekämpft wird, dann steigen die Preise für Benzin an der Tankstelle.
- Wenn man ein schlechtes Immunsytem hat, dann wird man eher krank.
Prognose

Dabei werden verschiedene statistische Verfahren genutzt. Die Verfahren lassen sich in zwei verschiedene Kategorien einteilen, das überwachte und das unüberwachte Lernen.

Dem überwachten Lernen liegen bereits Trainingsbeispiele vor, für die eine richtige Klassifikation bekannt ist. Das Verfahren besteht dann aus zwei Schritten: Zunächst muss das lernende System anhand der Trainingsbeispiele eine Klassifikation erlernen und diese im zweiten Schritt auf die Gesamtmenge der Objekte anwenden.

Dem unüberwachten Lernen liegen noch keine Trainingsbeispiele vor und das System muss ohne Vorgaben neue Zusammenhänge innerhalb der Daten erlernen. Dafür stehen wiederum zwei unterschiedliche Ansätze zur Auswahl: Segmentierung und Assoziation. Bei der Segmentierung wird jeder Datensatz einem Segment zugeordnet. Bei der Assoziation werden Beziehungen bzw. Hypothesen für Beziehungen zwischen den Datensätzen hergestellt, mit deren Hilfe dann die Datensätze zugeordnet werden.

Phasen im Data Mining Prozess (nach CRISP-DM):

Geschäftsmodell verstehen: In diesem Schritt wird das Geschäftsmodell untersucht und Data Mining Ziele festgelegt.
Daten verstehen: Die wesentlichen Datenquellen werden ermittelt, die sich daraus ergebenden Daten werden untersucht und mögliche Erkenntnisse abgeleitet. Schließlich wird das für die Erkenntnisse notwendige Niveau der Datenqualität beschrieben.
Daten aufbereiten: Zunächst werden hier die einzubeziehenden Daten ausgewählt. Dann werden die relevanten Daten erfasst, über eine Totalerhebung oder mittels Stichproben (stochastisch oder anhand von Auswahlkriterien). Es folgt die Bereinigung um Ausreißer und Fehler sowie die Gruppierung, Aggregation und Transformation der Werte.
Modellierung: Nun gilt es, ein geeignetes Date Mining Verfahren auszuwählen.
Evaluation: In diesem Schritt wird das Data Mining Verfahren angewendet und die Resultate bezüglich der gesetzten Ziele evaluiert.
Einsatz: In diesem Schritt wird der weitere Einsatz des Data Mining Modells geplant.

Maschinelles Lernen

Während das Data Mining häufig den Schwerpunkt auf die Musterkennung bei vergangenen und abgeschlossenen Geschäftsvorfällen legt, liegt der Schwerpunkt der Anwendung des maschinellen Lernens auf künftigen Geschäftsvorfällen im Sinne von Prognosen. In diesem Zusammenhang wird auch der Begriff Predictive Analytics verwendet. Streng genommen lassen sich die Verfahren zum maschinellen Lernen den Verfahren des Data Minings zuordnen. Andererseits wird in der Praxis und daher auch hier eine Unterscheidung zum Data Mining vorgenommen. Dies liegt daran, dass Data Mining in der Praxis häufig eher auf vergangenheitsbezogene Geschäftsvorfälle bezieht, währenddessen sich das maschinelle Lernen eher auf zukunftsbezogene Fragen konzentriert.

» Zur Startseite