Stochastik
1.) Statistik - Auswertung von Tabellen mit mathematischen Mitteln
2.) Wahrscheinlichkeitsrechnung - Aus einem Experiment werden Prognosen für die Zukunft abgegeben.
Zufallsexperiment
1.) Durchführung unter genau festgelegten Vorschriften
2.) Beliebig oft wiederholbar unter völlig gleichen Bedingungen
3.) Mindestens zwei Mögliche Ergebnisse
4.) Ergebnis nicht vorhersagbar
Heißt: Zufallsexperiment
Wird beschrieben durch
1.) Ergebnisse, die auftreten können
2.) die Grundgesamtheit der Menge S aller möglichen Ergebnisse
3.) Die Wahrscheinlichkeit mit der jedes Ergebnis eintritt
1.) Einstufiges Zufallsexperiment
1.1.) Münze
1.2.) Würfel
1.3.) Skatkarte
2.) Mehrstufiges
2.1.) Zweimal werfen einer Münze
2.2.) Ziehne ohne Zurücklegen
Beschreibung:
1.) Ergebnismenge
2.) Baumdiagramm
1.) Ereignis
2.) Elementarereignis
3.) Ergebnismenge
Ein Zufallsexperiment habe die Ergebnismenge S. Jede Teilmenge A von S ist ein Ereignis
Ein Ereignis ist eingetreten, wenn eines ihrer Ergebnisse bei der Durchführung des Experiments als Ergebnis aufgetreten ist
Sicheres Ereignis: Tritt bei jeder Durchführung ein
Unmögliches Ereignis: Tritt niemals ein
Elementareignis: Nur ein Element
Gegenereignis
Verknüpfung von Ereignissen
1.) Geschnitten
2.) Vereinigt
Vereinigungsmenge E1 oder E2 E1 CUP E2
Schnittmenge E1 CAP E2 E1 und E2
Unvereinbare Ereignisse
Wahrscheinlichkeit
Absolute Häufigkeit H: Die Anzahl der Fälle, in der E eintritt
Relative Häufigkeit: h(E) = H/n absolute Häufigkeit/Stichprobenumfang
Die relative Häufigkeit liegt zwischen 0 und 1
Die summe der relativen Häufigkeiten e1 bis en ist 1 bzw 100%
Gegenereignis: h(E) + NOT h(E) = 1
Definition der Wahrscheinlichkeit
Gesetz der großen Zahlen
Wird ein Zufallsexperiment sehr oft durchgeführt, dann stabilisieren sich die relativen Häufigkeiten um einen festen Wert
P(B) = 1-P(A)
Eigenschaften:
1.) Nichtnegativität
2.) Normiertheit
Laplace-Experiment: Wenn für alle Ergebnisse eines Zufallsexperiments, die gleiche Wahrscheinlichkeit angenommen werden kann
Laplace-Formel
Ereignisse E: P(E) = Anzahl der Ergebnisse, bei denen E eintritt / Anzahl der möglichen Ereignisse
P(E) = g/m = günstig / möglich
Pfadmultiplikationsregel: Im Baumdiagramm ist die Wahrscheinlichkeit eines Pfades gleich dem Produkt der Wahrscheinlichkeit auf den Teilstrecken des Pfades
Pfadadditionsregel: In einem Baumdiagramm ist die Wahrscheinlichkeit eines Ereignisses gleich der Summe der Wahrscheinlichkeiten der in diesem Ereignis enthaltenen Ergebnisse
Pfadmultiplikationsregel P(ww) = (w and w) = P(w) * P(w)
Pfadadditionsregel P (ww or ss) = P(w) * P(w) + P(s) * P(s)
Additionssatz:
P (A CUP B) = P(A)+P(B) - P(A CAP B)
Spezielle Form
P (A CUP B) = P(A) + P(B)
Bedingte Wahrscheinlichkeit:
Vorraussetzung oder Bedingung
Allgemeiner Multiplikationssatz:
P (A CAP B) = P (A) * P_A (B)
P_A(B) = (P CAP B) / P(A)
Unabhängige Ereignisse:
P (A CAP B) = P (A) * P (B)
Allgemeiner Multiplikationssatz: P (A CAP B) = P(A) * P_A(B)
Spezieller: P (A CAP B) = P (A) * P (B)
Kombinatorische Hilfsmittel zur Berechnung von Wahrscheinlichkeit
Produktregel
Baumdiagramm
Stichproben
geordnete Stichproben: Unterscheidung
Geordnete Stichproben ohne zurücklegen
Aus einer Menge (Gesamtheit) von n Elementen erhält man durch k-faches Ziehen
n * (n-1) * (n-2) * ... * (n-k+1) = (n!)/(n-k)!
geordnete Stichproben ohne zurücklegen
Für n verschiedene Objekte gibt es n * (n-1) * ... * 4 * 3 * 2 * 1 = n! geordnete Vollerhebungen (Vertauschungen oder Permutationen)
Entnimmt man k Elelemente aus einer Menge von n Elementen, so gibt es
(n * (n-1) * (n-2) * ... * (n-k+1))/k! = n!/(k!*(n-k)! = (n über k)
ungeordnete Stichproben
Zufallsvariable
Unter einer Zufallsvariablen X eines Zufallsexperiments versteht man eine Funktion, die jedem Ergebnis e_i eine Zahl Zuordnet
X:e_i -> X(e_i)
Wahrscheinlichkeitsfunktion
Unter einer Wahrscheinlichkeitsfunktion f einer Zufallsvariable X versteht man die Funktion f:x_i -> P (X = x_i)-.
Erwartungswert einer Zufallsvariablen
E(x) = x_1 * P (x_1) + x_2 * P (x_2) + ... + x_n * P (x_n) = SUM_1^n = x_i * P (x_i)
günstig
ungünstig
fair
Varianz und Standardabweichung
Ist X eine Zufallsvariable, welche die Werte x_1, ..., x_n annehmen kann und den Erwartungswert E(X) hat, so heißt, die Zahl s^2 mit
s^2 = (x_1 - E(X))^2 * P(X = x_1) + ... + (x_n - E(X))^2 * P (X = x_)
die Varianz der Zufallsvariablen X
Standardabweichung: s SQRT (Varianz)
-----------------------------------------------------------------------------------------------
Statistische Einheiten
Grundgesamtheiten
Also, die Objekte, die beobachtet werden, heißen: Untersuchungseinheiten oder statistische Einheiten
statistische Einheit = Träger der Information
Massenphänomene
statistische Masse
gleichartige Einheiten
Identifikationskriterien
1.) zeitlich
2.) räumlich
3.) sachlich
Grundgesamtheit: Omega
Und das einzelne Objekt: omega
Omega := {omega | erfüllt}
Grundgesamtheit = statistische Masse = Population = Kollektiv
Die Anzahl
m (Omega) = Umfang
reale Grundgesamtheit
fiktive Grundgesamtheit
Merkmal M (omega)
Merkmalausprägung
Modalität
Statistische Variable
Manchmal Merkmal = Variable
Eine Statistische Variable ordnet der statistischen Einheit omega oder ihrem Merkmal eine reelle Zahl x zu
x = X (omega)
x = Fkt (M(omega))
identische Funtkion
X:Omega -> Reellen Zahlen
omega -> X (omega)
Merkmalstypen und Messbarkeitsniveaus
1.) Qualitative Merkmale
2.) Quantitative Merkmale
1.) Diskrete
2.) Statige oder kontinuierliche
Skala, bei Messbarkeitsniveaus
1.) Nominal messbare Variablen: Lediglich gleichheit oder Anderartigkeit
2.) Ordinal messbar: Unterscheidbar und natürliche sinnvolle Reihenfolge
3.) Kardinal:
Teilgesamtheiten, Stichproben
Vollerhebungen, Totalerhebung
Reine Zufallserhebung
Repräsentative Stichproben
Statistische Verteilung
Urliste
Elemente omega_1 omega_2 omega_3 ... omega_n
Merkmalswerte x_1 x_2 x_3 ... x_n
Die Folge (x_n) heißt Beobachtungsreihe der Variablen oder statistische Reihe X
x_i = X (omega_i), für i = 1, ..., n
absolute Häufigkeit
relative Häufigkeit
----------------------------------------------------------------------------------------
Beobachtungsreihe der Variablen X oder einfach statistische Reihe X
absolute Häufigkeit
n_i = absH (X = x_i)
relative Häufigkeit
h_i = relH (X = x_i) = n_i/n
Häufigkeitsverteilung, Tabellen
x_1 x_2 x_3 ... x_k
n_1 n_2 n_3 n_k
x_1 x_2 x_3 ... x_k
h_1 h_2 h_3 ... h_k
Häufigkeitsfunktion und Verteilungsfunktion
Häufigkeitsfunktion
h (x) = { h_i falls x = x_i 0 sonst }
empirische Verteilungsfunktion
H (x) = SUM_{x_i <= x} h (x_i)
Graph von H (x): Treppenfunktion, Sprungstellen
lim_{Delta x -> 0} H (x + Delta x) = H (x)
monoton stetig:
H (a) <= H (b), a < b
Untere Grenzwert 0, oberer 1
Häufigkeitsdichte, und Histogramm
xi_0, xi_1, xi_2, ..., xi_n
Klassenbreiten
Delta_i := xi_i - xi_{i-1}
Apporiximierender Polygonzug
(H_K (xi_i) - H_K (xi_{i-1}))/(xi_i - xi_{i-1}) = h_i / Delta_i
Häufigkeitsdichte
Die erste Ableitung
h^- (x) := dH^-(x)/dx
Häufigkeitsdichtefunktion
--------------------------
Information: Kenntnis von Irgendetwas
Nachricht: Zusammenstellung von Symbolen und Zuständen, zur Übermittlung von Information
1.) Nachrichtenquelle -> Nachrichtenübertragssystem -> Nachrichtensinke
2.) Nachrichtenquelle -> Nachrichtenspeicher -> Nachrichtensinke
3.) Nachrichtenquelle -> Informationssystem -> Nachrichtensinke
Nachrichtenquelle
Nachrichtensinke
Symbol
Alphabet
Umfang
Wort
Worlänge n_Wrt
Wortvorrat W
Wortumfang M_q
M_q <= s_q^(n_q)
Wortumfang bei Wörtern unterschiedlicher Länge
M_q <= SUM_{j=}^n {s_q^j} = s_q + s_q^2 + s_q^3 + ... + s_q^{n_q} = sq*(s_q^{n_q}-1)/(s_q-1)
Codierung
Code
Dekodierung
Symbol Codesymbol
Symbolvorrat Codesymbolvorrat
Symbolumfang
Wort
Wortlänge
Wortvorrat
Wortumfang
redundanter Code
redundanzfreier Code
Wahrscheinlichkeitsrechnung
Zufallsexperiment
Elementarereignis
Grundmenge
G = {g_0, g_1, ..., g_n}
G = {Wappen, Zahl}
G = {1,2,3,4,5,6}
Ereignis: Teilmenge der Grundmenge
komplementäres Ereignsi
unmögliches Ereignis
zusammengesetztes Ereignis
vereinbar und disjunkt
Relative Häufigkeit
h_n(E) = n(E)/n
Anzahl der Zufallsexperimente
Definition der Wahrscheinlichkeit
p(E)
Elementare Gesetze der Wahrscheinlichkeit
Laplace-Experimente
p(E) = e/m = Anzahl der Elemente von E / Anzahl der Elemente von G
Bedingte Wahrscheinlichkeit
Satz von Bayes
p (E_2|E_1 = (p (E_1|E_2) p (E_2))/p (E_1)
Multiplikationssatz
Für die Bedingte Wahrscheinlichkeit, dass das Ereignis E_2 auftritt, wenn das Ereignis E_1 bereits eingetreten ist: Satz von Bayes
Informationsgehalt
I = ld (1/p)
Logarithmus Dualis vom Kehrwert der Wahrscheinlichkeit
ld (a) = ln (a)/ln(2)
Entropie und Entscheidungsgehalt
Die Entropie H einer Nachrichtenquelle ist der arithmetische Mittelwert der Informationsgehalte einer unendlich langen Folge von Nachrichten aus dieser Quelle
H = I^_ = lim_{n to infty} 1/(2n+1) * SUM_{v=-n}^{+n} I_v
Verallgemeinerung
H = SUM_{i=1}^{s_q} p (q_i)I_{q_i} = SUM_{i=1}^{s_q} p (q_i) * ld (1/p(q_i))
Maximale Entropie
H_max = ld s_q
Nachrichtengehalt H_0 Entscheidungsgehalt
H_0 = ld (s_q)
Redundanz (Weitschweifigkeit)
R = H_0-H
redundanzfrei
Redudanz r
r = R/H_0 = (H_0-H)/(H_0)
Entropie bei gestörter Nachrichtenübertragung
Äquivokation
Synetropie oder Transformation
Irrelevanz oder Streuentropie
Verlust: Äquivokation
Der vergbleibende Rest: Synetropie oder Transformation
Irrelevanz: Wie weit ist der Nachrichtengehalt durch Störungen erhöht
Transformationsgehalt: Informationsgehalt der von der Nachrichtenquelle zur Sinke übertragen wird
-----------------------------------
Der Erwartungswert einer Zufallsvariablen beschreibt die Zahl, die die Zufallsvariable im Mittel annimmt.
Er ergibt sich zum Beispiel bei unbegrenzter Wiederholung des zugrunde liegenden Experiments als Durchschnitt der Ergebnisse.
E (X) = 1*P(X=1) + 2*P(X=2) + 3*P(X=3) + 4*P(X=4) + 5*P(X=5) + 6*P(X=6)
= (1+2+3+4+5+6)*(1/6) = 3.5
Mittelwert: Arithmetisches Mittel (1+2+3+4+5+6)/6
Arithmetisches Mittel (a+b)/2
Arithmetisches Mittel (x_1+x_2+...+x_n)*(1/n) = (1/n)*SUM_{k=1}^n x_k
Die Varianz ist in der beschreibenden Statistik ein Maß für die Streuung von einer endlichen Anzahl von reellen Werten um ihren Mittelwert
Die Quadratwurzel aus der Varianz ist die Standardabweichung.
Streuungsmaß
Schätzung der Varianz für die Grundgesamtheit
Erwartungswert E (X) ist der Mittelwert der Zufallsgröße X, mit der zu rechnen ist
Das sagt nichts über die Streuung
Das arithmetische Mittel entspricht dem Erwartungswert unter der Vorraussetzung, dass die Zahlen so kodiert sind, wie wenn sie in echt, die Zahlen sind, wie beim Würfel
Standardabweichung ist die Quadratwurzel der Varianz, das ist der im Durschnitt daneben liegen vom Mittelwert
1.) Beschreibende Statistik
2.) Wahrscheinlichkeitsrechnung
3.) Schließende Statistik
1.) Beschreibende Statistik
1.1.) Statistische Merkmale und Variablen
1.2.) Maßzahlen zur Beschreibung statistischer Verteilungen
1.3.) Zweidimensionale Verteilung
1.4.) Lineare Regressionsrechnung
1.5.) Beschreibung von Zeitreihen
1.6.) Indexzahlen
2.) Wahrscheinlichkeitsrechnung
2.1.) Elementare Kombinatorik
2.2.) Grundlagen der Wahrscheinlichkeitstheorie
2.3.) Zufallsvariablen
2.4.) Mehrdimensionale Zufallsvariablen
2.5.) Stochastische Modelle und spezielle Verteilungen
2.6.) Wichtige Grenzwertsätze
3.) Schließende Statistik
3.1.) Punktschätzung von Parametern einer Grundgesamtheit
3.2.) Intervallschätzungen
3.3.) Statistisches Testen
3.4.) Spezielle Testverfahren
3.5.) Regressionsanalyse
3.6.) Stochastische Prozesse und Zeitreihenmodelle
4.) Statistische Tabellen
1.) Beschreibende Statistik
1.1.) Statistische Merkmale und Variablen
1.2.) Maßzahlen zur Beschreibung statistischer Verteilungen
1.3.) Zweidimensionale Verteilung
1.4.) Lineare Regressionsrechnung
1.5.) Beschreibung von Zeitreihen
1.6.) Indexzahlen
2.) Wahrscheinlichkeitsrechnung
2.1.) Elementare Kombinatorik
2.2.) Grundlagen der Wahrscheinlichkeitstheorie
2.3.) Zufallsvariablen
2.4.) Mehrdimensionale Zufallsvariablen
2.5.) Stochastische Modelle und spezielle Verteilungen
2.6.) Wichtige Grenzwertsätze
3.) Schließende Statistik
3.1.) Punktschätzung von Parametern einer Grundgesamtheit
3.2.) Intervallschätzungen
3.3.) Statistisches Testen
3.4.) Spezielle Testverfahren
3.5.) Regressionsanalyse
3.6.) Stochastische Prozesse und Zeitreihenmodelle
4.) Statistische Tabellen
Deskriptive Statistik, beschreibende Statistik hat zum Ziel empirische Daten durch Tabellen, Kennzahlen und Graphiken anschaulich dar zu stellen. Besonders bei großen Datenmengen zur Übersicht sinnvoll
1.) Deskriptive Statistik
2.) Explorative Statistik (erkundende Statistik)
3.) Mathematische Statistik (schließende Statistik, interferentielle, induktive Statistik)
3.) Mathematische Statistik (schließende Statistik, interferentielle, induktive Statistik):
Als mathematische Statistik bezeichnet man das Teilgebiet der Statistik, das die Methoden und Verfahren der Statistik mit mathematischen Mitteln analysiert beziehungsweise mit ihrer Hilfe erst begründet.
Gegenstand der Statistik sind Grundgesamtheiten, deren Mitglieder allesamt ein bestimmtes Merkmal aufweisen. Gesucht sind Aussagen darüber, wie häufig dieses Merkmal innerhalb der Grundgesamtheit seine möglichen Werte annimmt. Oft beschränken sich die Aussagen auf abgeleitete Größen wie zum Beispiel den Durchschnitt der Merkmalswerte, die die Mitglieder der Grundgesamtheit besitzen
Ein Beispiel ist die in der Beschreibenden Statistik häufig als Alterspyramide
In der mathematischen Statistik nutzt man solche Berechnungen, um umgekehrt vom Stichprobenergebnis auf die Grundgesamtheit schlussfolgern zu können
Die explorative Datenanalyse (EDA) oder explorative Statistik ist ein Teilgebiet der Statistik. Sie untersucht und begutachtet Daten, von denen nur ein geringes Wissen über deren Zusammenhänge vorliegt. Viele EDA-Techniken werden im Data-Mining eingesetzt.
Diese Benennung wurde von John W. Tukey in den 1970er Jahren eingeführt.
1.) Deskriptive Statistik
2.) Explorative Statistik (erkundende Statistik)
3.) Mathematische Statistik (schließende Statistik, interferentielle, induktive Statistik)
4.) multivariaten Statistik
Typische Aufgabenstellungen des Data-Mining sind:[2][4]
Ausreißer-Erkennung: Identifizierung von ungewöhnlichen Datensätzen: Ausreißern, Fehlern, Änderungen
Clusteranalyse: Gruppierung von Objekten aufgrund von Ähnlichkeiten
Klassifikation: bisher nicht Klassen zugeordnete Elemente werden den bestehenden Klassen zugeordnet.
Assoziationsanalyse: Identifizierung von Zusammenhängen und Abhängigkeiten in den Daten in Form von Regeln wie „Aus A und B folgt normalerweise C“.
Regressionsanalyse: Identifizierung von Beziehungen zwischen (mehreren) abhängigen und unabhängigen Variablen
Zusammenfassung: Reduktion des Datensatzes auf eine kompaktere Beschreibung ohne wesentlichen Informationsverlust
Ausreißer-Erkennung
In dieser Aufgabe werden Datenobjekte gesucht, die inkonsistent zu dem Rest der Daten sind,
Clusteranalyse
Bei der Clusteranalyse geht es darum, Gruppen von Objekten zu identifizieren, die sich auf eine gewisse Art ähnlicher sind als andere Gruppen
Bei einer dichteverbundenen Clusteranalyse wie beispielsweise DBSCAN oder OPTICS
Andere Verfahren wie der EM-Algorithmus oder k-Means-Algorithmus bevorzugen sphärische Cluster
DBSCAN (Density-Based Spatial Clustering of Applications with Noise, etwa: Dichtebasierte räumliche Clusteranalyse mit Rauschen)
Die Grundidee des Algorithmus ist der Begriff der Dichteverbundenheit. Zwei Objekte gelten als dichte-verbunden, wenn es eine Kette von dichten Objekten (Kernobjekte, mit mehr als m i n P t s {\displaystyle minPts} minPts Nachbarn) gibt, die diese Punkte miteinander verbinden. Die durch dieselben Kernobjekte miteinander verbundenen Objekte bilden einen Cluster. Objekte, die nicht Teil eines dichte-verbundenen Clusters sind, werden als Rauschen (engl. Noise) bezeichnet.
In DBSCAN gibt es drei Arten von Punkten:
Kernobjekte, welche selbst dicht sind.
Dichte-erreichbare Objekte. Dies sind Objekte, die zwar von einem Kernobjekt des Clusters erreicht werden können, selbst aber nicht dicht sind. Anschaulich bilden diese den Rand eines Clusters.
Rauschpunkte, die weder dicht, noch dichte-erreichbar sind.
https://de.wikipedia.org/wiki/DBSCAN
OPTICS (englisch Ordering Points To Identify the Clustering Structure ‚[etwa] Punkte ordnen um die Clusterstruktur zu identifizieren‘)
dichtebasierter Algorithmus zur Clusteranalyse.
In DBSCAN ist ein Punkt ein „Kernpunkt“, wenn seine ε {\displaystyle \varepsilon } \varepsilon -Umgebung mindestens m i n P t s {\displaystyle minPts} minPts Punkte enthält
In OPTICS hingegen wird geschaut, ab wann ein Punkt ein Kernpunkt wäre. Das wird mit der „Kerndistanz“ umgesetzt, also derjenige ε {\displaystyle \varepsilon } \varepsilon -Wert, ab dem ein Punkt in DBSCAN ein „Kernpunkt“ wäre. Gibt es kein ε {\displaystyle \varepsilon } \varepsilon , mit dem ein Punkt ein Kernpunkt wäre, ist dessen Kerndistanz unendlich oder „undefiniert“.
Klassifikation
→ Hauptartikel: Klassifikationsverfahren
Bei der Klassifikation geht es ähnlich der Clusteranalyse darum, Objekte Gruppen (hier als Klassen bezeichnet) zuzuordnen. Im Gegensatz zur Clusteranalyse sind hier aber in der Regel die Klassen vordefiniert (Beispielsweise: Fahrräder, Autos) und es werden Verfahren aus dem maschinellen Lernen eingesetzt um bisher nicht zugeordnete Objekte diesen Klassen zuzuordnen.
In der Assoziationsanalyse werden häufige Zusammenhänge in den Datensätzen gesucht und meist als Schlussregeln formuliert.
ei der Regressionsanalyse wird der statistische Zusammenhang zwischen unterschiedlichen Attributen modelliert
Textmining
Webmining
Zeitreihenanalyse
Clustan mit Schwerpunkt statistische Verfahren zur Clusteranalyse
Environment for DeveLoping KDD-Applications Supported by Index-Structures (ELKI) mit Schwerpunkten auf Clusteranalyse und Ausreißer-Erkennung
Konstanz Information Miner (KNIME)
Neural Designer mit Schwerpunkt Maschinelles Lernen
PSPP Teil des GNU Projekts mit Schwerpunkt auf Statistische Analysen, Regressions-, Clusteranalyse, Open Source Alternative zu SPSS
GNU R-Projekt mit Schwerpunkt Statistik, skript-/programmiersprachen-orientiert
RapidMiner (früher YALE („Yet Another Learning Environment“)) mit Schwerpunkt Maschinelles Lernen, alle Phasen des gesamten Data-Mining-Prozess von der Datenintegration und -transformation (ETL-Prozess) über die Modellierung, automatische Optimierung und Evaluierung bis zur operativen Anwendung und Berichterstellung (Reporting) abdeckend
Waikato Environment for Knowledge Analysis (WEKA) mit Schwerpunkt Maschinelles Lernen
Scikit-learn mit Schwerpunkt Maschinelles Lernen
Ziele der explorativen Statistik sind:
Annahmen (Hypothesen) über die Ursache und den Grund der beobachteten Daten zu bilden
Annahmen einzuschätzen, worauf statistische Inferenz basieren kann
Die Auswahl von passenden statistischen Werkzeugen und Techniken zu unterstützen
Eine Basis für die weitere Daten-Sammlung durch Umfragen oder Statistische Versuchsplanung bereitzustellen
Von der induktiven oder inferentiellen Statistik (Inferenzstatistik) unterscheidet sich die deskriptive Statistik dadurch, dass sie keine Aussagen zu einer über die untersuchten Fälle hinausgehenden Grundgesamtheit macht und keine Überprüfung von Hypothesen ermöglicht.[1]
Lagemaße
als zentrale Tendenz einer Häufigkeitsverteilung. Aus der Lage der verschiedenen Werte für die zentrale Tendenz zueinander lassen sich Schiefe und Exzess einer Häufigkeitsverteilung bestimmen.
Streuungsmaße
für die Variabilität (Streuung oder Dispersion) einer Häufigkeitsverteilung und
Zusammenhangsmaße
für den Zusammenhang (auch: Korrelation) zweier Variablen.
Die Lorenz-Kurve (auch: Lorenzkurve) wurde 1905 vom US-amerikanischen Statistiker und Ökonomen Max Otto Lorenz (1876–1959) entwickelt. Sie stellt statistische Verteilungen grafisch dar und veranschaulicht dabei das Ausmaß an Disparität (Ungleichheit) beziehungsweise relativer Konzentration innerhalb der Verteilung; deshalb wird sie auch als Disparitätskurve betitelt. Amtliche Statistiken nutzen die Lorenz-Kurve, um die Einkommensverteilung in einem Land zu verdeutlichen;[1] Grundlage dieser Berechnungen ist eine Liste der von links nach rechts aufsteigend sortierten Einzeleinkommen oder -vermögen (siehe auch: Pen’s Parade).
1.) Erwartungswert und die Standardabweichung
2.) Maßzahlen zur Beschreibung statistischer Verteilungen
Formel: Arithmetisches Mittel, Median, geometrisches Mittel, harmonisches Mittel
3.) Lorenz-Kurve: Der Verbindet die Punkte
4.) Zweidimensionale Verteilungen
(x1,y1) =: P
...
5.) Lineare Reggression: Mit Gerade: y (x) = a+bx