In der deskriptiven Statistik werden Daten beschrieben, zum Beispiel durch eine Tabelle, durch Grafiken oder durch Kennzahlen wie dem Mittelwert. Der Datensatz wird nur beschrieben, es wird keine Schlussfolgerung abgeleitet.
In der explorativen Statistik werden Daten erkundet, unbekannte Zusammenhänge entdeckt und Hypothesen geformt, aber sie erlaubt keine Generalisierung der Erkenntnisse. Die explorative Statistik ist beispielsweise im Data Mining weit verbreitet.
In der induktiven Statistik versucht man Gesetzmässigkeiten oder eine Generalisierung für die Grundgesamtheit abzuleiten. Meist wird aus einer kleineren Anzahl von Erhebungen, also aus einer Stichprobe, Rückschluss auf alle Betroffenen, also auf die Grundgesamtheit gezogen.
Die Grundgesamtheit (engl. Population) ist die Menge aller für eine Untersuchung relevanten statistischen Einheiten, zum Beispiel alle Wohnungen im Kanton Luzern, alle Einwohner der Stadt Zürich.
Die Teilgesamtheit ist eine Teilmenge der Grundgesamtheit, die irgendeine bestimmte Eigenschaft erfüllt, z.B. alle Einwohner der Stadt Zürich über 25 Jahre, alle Mietwohnungen mit mehr als 60 Quadratmeter.
Eine Stichprobe (engl. Sample) sind die statistischen Einheiten, welche letztendlich für die Untersuchung, die man durchführt, verwendet werden. Im Idealfall ist eine Stichprobe zufällig ausgewählt.
Ein Merkmal ist die untersuchte Eigenschaft beziehungsweise die Grösse, die uns interessiert, also das, was wir wissen wollen. Beim Erstellen eines Mietspiegels könnten dies folgende Merkmale sein: Wie gross ist die Wohnung in Quadratmeter? Wie hoch ist die Miete in CHF? Wo befindet sich die Wohnung?
Eine Merkmalsausprägung ist ein konkreter Wert eines Merkmals für eine statistische Einheit. Beim Erstellen eines Mietspiegels könnte eine untersuchte Wohnung folgende Merkmalsausprägungen haben: die Wohnung ist 55 Quadratmeter gross, die Miete beträgt CHF 1000.– und die Wohnung befindet sich in der Stadt Luzern.
Bei qualitativen Merkmalen können die Merkmale in Kategorien geteilt werden. Man kann damit aber keine sinnvollen Berechnungen durchführen. Ein Beispiel für ein qualitatives Merkmal sind Schülernamen oder Schulnoten. Qualitative Merkmale lassen sich in nominale und ordinalskalierte Merkmale unterteilen.
Quantitative Merkmale werden durch Zahlen ausgedrückt und es sind Berechnungen möglich. Es kann zum Beispiel der Mittelwert berechnet sowie das Minimum oder das Maximum bestimmt werden. Beispiele dafür sind: Körpergrösse, der Jahresumsatz oder die Dauer in Stunden. Quantitative Merkmale sind im Grunde genommen immer metrisch.
Nominale Merkmale sind Namen oder Bezeichnungen. Sie können nicht geordnet und auch nicht verglichen werden. Beispiele hierfür sind Namen von Personen, Orten etc. Auch die Nummer einer Buslinie ist nominal. Es ist zwar eine Zahl, aber der Bus Nummer 42 ist nicht doppelt so schnell oder fährt nicht eine doppelt so lange Strecke wie der Bus Nummer 21.
Ordinale Merkmale können geordnet oder verglichen werden, wie z.B. Schuhgrössen. Die Schuhgrösse 42 ist grösser als die Schuhgrösse 41 und die ist wiederum grösser als die Schuhgrösse 40. Was bei ordinalen Merkmalen aber nicht möglich ist, ist das direkte Verrechnen. Der Abstand zwischen Schuhgrösse 42 und 41 ist zwar 1, aber es ist nicht derselbe Abstand wie zwischen Schuhgrösse 41 und 40. Ein anderes Beispiel für ein ordinales Merkmal sind Schulnoten. Wir können sie nach der Reihe sortieren. Die Schulnote 6 ist im Schweizer Schulsystem die beste Note, dann kommt die 5, die 4, die 3, die 2 und die 1. Aber die 4 ist nicht doppelt so gut wie die 2, oder die 6 nicht dreifach so gut wie die 2.
Merkmale, die miteinander verrechnet werden können, heissen metrische Merkmale. Beispiele hierfür sind: die Geschwindigkeit oder die Körpergrösse. Wenn eine erwachsene Person 1.80 Meter ist, ist er dreifach so gross wie ein Kind, das 60 Zentimeter misst.
Diskrete Merkmale sind eine Untergruppe von metrisch skalierten Merkmalen. Ein diskretes Merkmal hat abzählbar viele Ausprägungen. Ein Beispiel ist der Würfel. Mögliche Ausprägungen sind die Zahlen 1 bis 6, das heisst, es gibt sechs Ausprägungen.
Stetige Merkmale (auch kontinuierlich genannt) sind eine Untergruppe von metrisch skalierten Merkmalen. Bei einem stetigen Merkmal ist die Anzahl der möglichen Ausprägungen nicht abzählbar. Ein Beispiel für ein stetiges Merkmal ist die Körpergrösse. Die Körpergrösse kann alle möglichen Werte annehmen, besonders wenn wir sie zum Beispiel auf Millimeter oder Mikrometer oder noch genauer angeben, kann sie eigentlich auch unendlich viele Werte annehmen. Ein anderes Merkmal, das stetig ist, ist der Umsatz. Der Jahresumsatz in einem Unternehmen kann auch alle Werte annehmen, insbesondere wenn wir ihn auf Rappen genau angeben.
Die absolute Häufigkeit zählt, wie häufig eine bestimmte Merkmalsausprägung im Datensatz vorkommt. Beispiel: Die Noten aller Schüler in einer Prüfung sind das Merkmal, das uns interessiert. Um einen Überblick zu erhalten, zählen wir, wie häufig jede Note vorkommt. Wir zählen dabei die absolute Häufigkeit jeder Schulnote. Die Note 6 trat viermal auf, die Note 5 kam sechsmal vor und so weiter. Absolute Häufigkeiten werden für ordinalskalierte oder nominalskalierte Merkmale bestimmt.
Die relative Häufigkeit kann bestimmt werden, wenn wir die Anzahl an Beobachtungen, also die absolute Häufigkeit, durch die Gesamtanzahl aller Beobachtungen teilen. Alle relativen Häufigkeiten summiert ergeben 100 Prozent. Beispiel: Wenn wir wissen wollen, welcher prozentuale Anteil an Schülern in der Prüfung die Note 5 hatte, dann fragen wir nach der relativen Häufigkeit. Wurde die Note 5 insgesamt sechsmal vergeben, dann ergibt das bei 30 Schülern in der Klasse (6 von 30 Schülern hatten die Note 5) einen Fünftel oder 20 Prozent.
Bei einem Kreisdiagramm entspricht die Fläche eines Kreissektors der Häufigkeit. Ohne weitere Angabe kann aus einem Kreisdiagramm die relative Häufigkeit abgelesen werden, jedoch nicht die absolute Häufigkeit. Vielfach ist es empfehlenswert, anstatt eines Kreisdiagramms ein Säulen- oder Balkendiagramm zu verwenden, da die Unterschiede besser erkennbar sind.
Bei einem Säulendiagramm werden auf der x-Achse die Merkmalsausprägungen dargestellt, auf der y-Achse die absolute Häufigkeit zur Merkmalsausprägung. Die Höhe einer Säule entspricht also den absoluten Häufigkeiten.
Das Balkendiagramm entspricht einem Säulendiagramm, nur um 90 Grad gedreht. Das heisst, die y-Achse gibt die Merkmalsausprägungen wieder und die x-Achse die Häufigkeiten.
Das Histogramm wird verwendet, um die Häufigkeiten von metrischen Grössen abzutragen. Direkt können metrische Grössen nicht als Säulendiagramm visualisiert werden. Dafür gäbe es zu viele Ausprägungen, also zu viele Säulen. Daher werden die Daten zuerst in Klassen gruppiert und anschliessend wird gezählt, wie viele Datenpunkte in jeder Klasse enthalten sind. Das heisst, eigentlich sind die Daten dann nicht mehr metrisch, sondern ordinal skaliert. Die Fläche jeder Säule gibt die relative Häufigkeit wieder, d.h. alle Flächen von einem Histogramm addiert, müssen 100 Prozent ergeben.
Für den Mittelwert (auch Durchschnitt, Mittel oder arithmetisches Mittel genannt) eines metrischen Merkmals werden alle Beobachtungen aufsummiert und durch die Anzahl an Beobachtungen geteilt. Als Beispiel dient uns ein Fussballverein mit 20 Spielern. Wir betrachten pro Spieler die Anzahl an Tore, die er am Ende der Saison erzielt hat. Spieler 1 hat sechs Tore erzielt, Spieler 2 hat 15 Tore erzielt, usw. Wir summieren alle erzielten Tore auf und teilen die entstandene Summe durch die Anzahl an Spieler, was in unserem Fall 20 ist. So erhalten wir den Mittelwert aller erzielten Tore am Ende der Saison. Ein Nachteil des Mittelwerts ist, dass er von extremen Beobachtungen, von Ausreissern, beeinflusst wird. Hätte beispielsweise der Spieler 2 statt 15 Tore während der Saison 45 Tore erzielt, wäre der Mittelwert des gesamten Fussballvereins angestiegen, obwohl nur ein einziger Spieler eine deutlich höhere Anzahl an Toren erzielt hat.
Für metrische, ordinale und nominale Merkmale ist der Modus die Ausprägung mit der höchsten Häufigkeit, also der Wert, der am häufigsten vorkommt.
Der Median gibt die mittlere Stelle in einer Auflistung von metrischen oder ordinalen Merkmalen an, wenn diese der Grösse nach sortiert sind. Falls die Anzahl an Beobachtungen ungerade ist, das heisst, n ist ungerade, dann kann man den Median direkt ablesen. Das ist zum Beispiel bei 7 Werten der vierte Wert. Ist die Anzahl der Beobachtungen gerade, dann nimmt man die beiden Werte, die in der Mitte liegen, summiert sie und teilt sie durch 2. Zum Beispiel bei 20 Beobachtungen addiert man den zehnten und den elften Wert und teilt die Summe durch 2. Der Median ist eine gute Alternative zum Mittelwert, da er robust gegenüber Ausreissern ist.
Ein Quantil teilt eine Anzahl von Messungen in zwei Teilmengen auf. Um zum Beispiel das 20%-Quantil zu bestimmen, sortieren wir die Messungen der Grösse nach und finden den Wert, wo 20 Prozent kleiner sind und 80 Prozent grösser. Allgemein ausgedrückt gibt also ein Quantil Qp den Wert an, bei dem der Anteil p der Daten kleiner gleich dem Quantil Qp ist und der Anteil 1-p der Daten grösser gleich dem Quantil Qp.
Die Varianz (auch empirische Varianz genannt) ist eine Masszahl für die Streuung von Daten und sie misst die mittlere quadratische Abweichung vom Mittelwert. Für das Berechnen der Varianz bildet man von jedem Wert den Abstand zum Mittelwert und quadriert diesen Abstand. Anschliessend werden alle quadrierten Werte aufsummiert und die Gesamtsumme durch die Anzahl N der Beobachtungen geteilt. Zum Beispiel können wir die Varianz der erzielten Tore eines Fussballvereins mit 20 Spielern berechnen. Wir nehmen an, dass am Ende der Saison der Mittelwert der erzielten Tore aller Spieler 6.75 ist. Wir ziehen für jeden Spieler die Anzahl erzielter Tore vom Mittelwert ab und quadrieren die entstehende Zahl. Das heisst z.B. Spieler 1 erzielte 6 Tore minus den Mittelwert von 6.75 im Quadrat plus Spieler 2 erzielte 15 Tore minus 6.75 im Quadrat usw. Die entstehenden Summanden werden alle addiert und die Gesamtsumme durch 20 geteilt, weil wir 20 Beobachtungen (Spieler) haben.
Die Standardabweichung wird aus der Varianz berechnet und ist die positive Wurzel davon. Die absolute Grösse einer Standardabweichung sagt jedoch für sich allein nichts aus. Die kann gross sein, wenn die Zahlen an sich gross sind, z.B. wenn es um Jahreseinkommen geht. Das heisst, erst wenn mehrere Gruppen miteinander verglichen werden, kann man auch die Standardabweichungen miteinander vergleichen. Dies gilt für alle Streuungsmasse.
Der Variationskoeffizient ist ein massstabunabhängiges Streuungsmass, das berechnet wird, indem man die Varianz durch den Mittelwert teilt. Hierfür muss der Mittelwert aber grösser als Null sein, sonst ist der Variationskoeffizient nicht definiert. Mit dem Variationskoeffizienten kann man die Streuung zwischen Gruppen vergleichen, bei denen der Mittelwert deutlich unterschiedlich ist.
Eine Dichtekurve (auch Dichtefunktion genannt) ist anschaulich ein durch eine Kurve geglättetes Histogramm. Es ist eine Funktion, die angibt, welche Ereignisse wie häufig auftreten, bzw. die Form der Datenverteilung darstellt. Wie beim Histogramm ist die Fläche unterhalb einer Dichtekurve 1. Das bedeutet, 100 Prozent aller Ereignisse, die auftreten können, sind von der Dichtekurve beschrieben. Daher ist diese immer positiv.
Die Verteilungsfunktion entsteht auf Basis einer bestehenden Dichtekurve. Um die Verteilung festzustellen, zählt man von links bis zu einem gewissen x-Wert (man aufintegriert die Dichte), geht bei diesem Wert nach oben bis zur Funktionsgeraden und liest den dazugehörigen y-Wert ab. Aus der Verteilungsfunktion kann beispielsweise das 75%-Quantil abgelesen werden. Dazu schauen wir, welcher x-Wert zu y = 0.75 gehört.
Eine rechtsschiefe Verteilung (einer Dichtekurve) ist links sehr steil und nach rechts fällt sie schief ab. Für rechtsschiefe Verteilungen gilt immer, dass der Modus kleiner als der Median und dieser wiederum kleiner als der Mittelwert ist.
Eine linksschiefe Verteilung (einer Dichtekurve) steigt von links schief auf und fällt rechts sehr steil ab. Für linksschiefe Verteilungen gilt immer: Der Mittelwert ist kleiner als der Median und dieser ist wiederum kleiner als der Modus.
Für eine symmetrische Verteilung (einer Dichtekurve) gilt, dass der Modus ungefähr so gross ist wie der Median und auch ungefähr so gross wie der Mittelwert. Ein Beispiel für eine symmetrische Verteilung ist die Normalverteilung.
Die Normalverteilung (auch Gauss-Verteilung oder Gausssche Glockenkurve genannt) ist die wohl bekannteste Verteilung. Sie wurde 1809 von Carl Friedrich Gauss beschrieben. Eine Besonderheit der Normalverteilung ist, dass die Summe von unabhängigen Zufallsvariablen meist annähernd normalverteilt ist. Als ein Beispiel können wir einen Würfelwurf betrachten. Die einzelnen Augenzahlen sind gleichverteilt, jede Zahl, die 1, 2, 3 etc. kommt gleich häufig vor. Wenn man aber die Summe von z.B. vier geworfenen Würfeln zusammenzählt und man wiederholt dieses Experiment hundertmal, das heisst, man wirft hundertmal vier Würfel, dann ist die Summe von diesen vier Würfeln normalverteilt. Sehr selten ergibt die Summe von vier Würfeln die 4 (kleinst mögliche Ausprägung) oder die 24 (grösst mögliche Ausprägung). Am häufigsten ist ein Wert zwischen 12 und 16. Dies macht die Besonderheit der Normalverteilung aus: Die Summe von Zufallsvariablen strebt gegen die Normalverteilung. Auch viele Merkmale aus der Natur folgen dieser Verteilung. Beispiele hierfür sind die Körpergrösse oder Fussgrösse.
Die Fünf-Punkte-Zusammenfassung (visuell dargestellt als Boxplot) besteht aus dem Minimum, dem 1. Quartil, (25%-Quantil), dem Median (50%-Quantil oder auch 2. Quartil), dem 3. Quartil (75%-Quantil) und dem Maximum. Diese fünf Punkte ergeben eine gute Zusammenfassung der vorliegenden Daten.
Text Mining lässt sich als eine Form des Data Minings verstehen und umfasst verschiedene Algorithmen für die Analyse von unstrukturierten oder nur schwach strukturierten Textdaten. Mittels linguistischer und statistischer Verfahren werden Muster und unbekannte Informationen aus Dokumenten oder natürlich-sprachlichen Quellen extrahiert und für den Nutzer visuell aufbereitet. Dies wird beispielsweise im Unternehmenskontext genutzt, um textbasierte Dokumente, E-Mails oder Nachrichten in sozialen Netzwerken effizient zu verarbeiten und gewonnenes Wissen im Sinne unternehmerischer Ziele zu nutzen.
Die Berechnung der jeweiligen Streuungskennzahl wird bestimmt durch das entsprechende Skalenniveau.
Vollerhebung: Alle Elemente der relevanten Grundgesamtheit werden einbezogen. «Vollständiges Bild», aber selten ökonomisch effizient bzw. überhaupt realisierbar.
Teilerhebung: Nur ein Teil der Elemente der relevanten Grundgesamtheit wird einbezogen (Stichprobe). Ergebnisse liegen schnell vor. Daraus folgt i.d.R. auch eine höhere Aktualität. Der Aufwand ist geringer und die Erhebung dadurch kostengünstiger.
Entscheidend für die Berechnung der jeweiligen Kennzahl sind die entsprechenden Skalenniveaus.