Skip to main content
Erschienen in:
Buchtitelbild

2023 | OriginalPaper | Buchkapitel

1. Einführung in die empirische Datenanalyse

verfasst von : Klaus Backhaus, Bernd Erichson, Sonja Gensler, Rolf Weiber, Thomas Weiber

Erschienen in: Multivariate Analysemethoden

Verlag: Springer Fachmedien Wiesbaden

Aktivieren Sie unsere intelligente Suche, um passende Fachinhalte oder Patente zu finden.

search-config
loading …

Zusammenfassung

In diesem einleitenden Kapitel werden die in diesem Buch behandelten acht Methoden der multivariaten Datenanalyse vorgestellt, charakterisiert und klassifiziert. Bei der Anwendung von Methoden der multivariaten Analyse (MVA) werden mehrere Variablen gleichzeitig betrachtet und ihre Zusammenhänge quantitativ analysiert. Ziel der Methoden der multivariaten Analyse ist es, die Zusammenhänge zu beschreiben, zu erklären oder zukünftige Entwicklungen vorherzusagen. Ein Sonderfall der MVA sind bivariate Analysen, bei denen jeweils nur zwei Variablen gleichzeitig betrachtet werden. Methoden der multivariaten Analyse gehören heute zu den Grundlagen der empirischen Forschung in der Wissenschaft.
Weiterhin werden in diesem Kapitel auch Grundlagen der empirischen Datenanalyse vorgestellt, die für alle behandelten Analysemethoden relevant sind. Da die meisten Leser mit diesen Grundlagen vertraut sein werden, dienen diese Darstellungen primär der Wiederholung oder der Möglichkeit, wichtige Aspekte der quantitativen Datenanalyse nochmals nachzuschlagen: Zunächst werden statistische Basiskonzepte vorgestellt (z. B. Mittelwert, Standardabweichung, Kovarianz) und der Unterschied zwischen Korrelation und Kausalität aufgezeigt. Darüber hinaus werden die Grundlagen des statistischen Testens zusammenfassend am Beispiel des Mittelwerttests und des Anteilstests dargestellt. Schließlich wird auf den Umgang mit Ausreißern und Missing Values eingegangen, und das in diesem Buch verwendete Statistikpaket IBM SPSS Statistics wird kurz vorgestellt.

Sie haben noch keine Lizenz? Dann Informieren Sie sich jetzt über unsere Produkte:

Springer Professional "Wirtschaft+Technik"

Online-Abonnement

Mit Springer Professional "Wirtschaft+Technik" erhalten Sie Zugriff auf:

  • über 102.000 Bücher
  • über 537 Zeitschriften

aus folgenden Fachgebieten:

  • Automobil + Motoren
  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Elektrotechnik + Elektronik
  • Energie + Nachhaltigkeit
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Maschinenbau + Werkstoffe
  • Versicherung + Risiko

Jetzt Wissensvorsprung sichern!

Springer Professional "Wirtschaft"

Online-Abonnement

Mit Springer Professional "Wirtschaft" erhalten Sie Zugriff auf:

  • über 67.000 Bücher
  • über 340 Zeitschriften

aus folgenden Fachgebieten:

  • Bauwesen + Immobilien
  • Business IT + Informatik
  • Finance + Banking
  • Management + Führung
  • Marketing + Vertrieb
  • Versicherung + Risiko




Jetzt Wissensvorsprung sichern!

Fußnoten
1
Sowohl SPSS als auch R verwenden die punktbiseriale Berechnung einer Korrelation, wenn eine der Variablen nur zwei berechnungsrelevante Ausprägungen besitzt.
 
2
Auf der Internetseite www.​multivariate.​de findet der Leser auch eine Exceltabelle, in der die Berechnung der verschiedenen statistischen Kenngrößen mit Excel hinterlegt ist. Zu einer Einführung in Excel vgl. z. B. Duller (2019).
 
3
In Excel kann der Mittelwert einer Variablen berechnet werden durch: = MITTELWERT(Matrix), wobei (Matrix) den Bereich der Zellen bezeichnet, der die Daten der Variable enthält. So berechnet z. B. = MITTELWERT(C6:C55) den Mittelwert der 50 Zellen C6 bis C55 in Spalte C.
 
4
In Excel kann die Varianz in der Grundgesamtheit berechnet werden durch: \(\sigma_{x}^{2}\) = VAR.P(matrix).
Für die Stichproben-Varianz gilt: \(s_{x}^{2}\) = VAR.S(matrix) bzw. = VARIANZA(matrix).
 
5
In Excel kann die Standardabweichung in der Grundgesamtheit berechnet werden durch: \(\sigma_{x}^{{}}\) = STABW.P(matrix). Für die Standardabweichung in der Stichprobe gilt: \(s_{x}^{{}}\) = STABW.S(matrix).
 
6
Varianz und Standardabweichung können für die Variable „Geschlecht“ nicht sinnvoll interpretiert werden. Für die Berechnung von Kovarianz und Korrelationen sind jedoch die Spalten E und F erforderlich.
 
7
In Excel kann die Kovarianz wie folgt berechnet werden: \(s_{xy}\) = KOVARIANZ.S(matrix1;matrix2).
Tab. 1.10
Berechnung von Kovarianz und Korrelation im Anwendungsbeispiel
 
A
C
F
A*C
A*F
C*F
Fall
\({\text{x}}_{1} - \overline{x}_{1}\)
\({\text{x}}_{2} - \overline{x}_{2}\)
\({\text{x}}_{3} - \overline{x}_{3}\)
Kovariation
Kovariation
Kovariation
1
2
3
4
5
−2
0
−3
3
2
−600
−400
−500
400
1100
0,6
−0,4
−0,4
−0,4
0,6
1200
0
1500
1200
2200
−1,2
0
1,2
−1,2
1,2
−360
160
200
−160
660
Summe
0
0
0
6100
0
500
Kovarianz
   
1525
0
125
Korrelation
   
0,818
0
0,312
 
8
In Excel kann die Korrelation zwischen Variablen wie folgt berechnet werden:
rxy = KORREL(matrix1;matrix2).
 
9
Vgl. zur Korrelation von Binärvariablen mit metrisch skalierten Variablen die Ausführungen in Abschn. 1.1.2.2.
Tab. 1.11
Korrelationsmatrix R für das Anwendungsbeispiel
 
Var_1 (Alter)
Var_2 (Einkommen)
Var_3 (Geschlecht)
Var_1 (Alter)
1
  
Var_2 (Einkommen)
0,818
1
 
Var_3 (Geschlecht)
0,000
0,312
1
 
10
Vgl. zum statistischen Testen Abschn. 1.3 dieses Kapitels. Im Einvariablen-Fall gilt F = t2 und t-Test sowie F-Test führen zum gleichen Ergebnis.
 
11
Der p-Wert kann auch mit Excel wie folgt berechnet werden: p = T.VERT(ABS(t);N−2;2) oder p = 1−F.VERT(F;1;N−2;1).
 
12
Der zentrale Grenzwertsatz besagt, dass die Summe oder der Mittelwert von n unabhängigen Zufallsvariablen zu einer Normalverteilung tendiert, wenn n ausreichend groß ist, auch wenn die ursprünglichen Variablen selbst nicht normalverteilt sind. Dies ist der Grund dafür, dass die Normalverteilung für viele Phänomene angenommen werden kann.
 
13
Mit Excel kann der kritische Wert für einen zweiseitigen t-Test durch die Funktion T.INV.2S(α;df) berechnet werden. Dabei ergibt sich T.INV.2S(0,05;99) = 1,984. Die Werte in der letzten Zeile der t-Tabelle sind identisch mit der Standardnormalverteilung. Bei df = 99 df kommt die t-Verteilung der Normalverteilung sehr nahe.
 
14
Mit Excel kann der p-Wert durch die Funktion T.VERT.2S(ABS(temp);df) berechnet werden. Für das hier verwendete Beispiel ergibt sich: T.VERT.2S(ABS(−1,90);99) = 0,0603 oder 6,03 %.
 
15
Mit Excel kann der kritische Wert für die linke Seite durch die Funktion T.INV(α;df) berechnet werden. Es ergibt sich: T.INV(0,05;99) = −1,66. Für die rechte Seite muss das Vorzeichen gewechselt werden oder es ist die Funktion T.INV(1 – α;df) zu verwenden.
 
16
Mit Excel kann der p-Wert für die linke Seite durch die Funktion T.VERT(temp;df;1) berechnet werden. Es ergibt sich: T.VERT(−1,90;99;1) = 0,0302 oder 3 %. Den p-Wert für die rechte Seite liefert die Funktion T.VERT.RS(temp;df).
 
17
Vgl. z. B. Hastie et al. (2011); Pearl und Mackenzie (2018); Gigerenzer (2002).
 
18
Mit Excel können Histogramme durch die Menüabfolge „Daten/Datenanalyse/Histogramm“ erstellt werden. In SPSS können Histogramme durch die Menüabfolge „Analysieren/Deskriptive Statistiken/Häufigkeiten“ angefordert werden.
 
19
Mit SPSS können Boxplots und Histogramme wie folgt angefordert werden: „Analysieren/Deskriptive Statistiken/Explorative Datenanalyse“. Aber Achtung: Beobachtung 16 mit dem Wert 46 wird nicht als Ausreißer markiert. Die Regel von 1,5 Kastenlängen über dem Rand des Kastens ergibt hier den Cutoff-Wert 47. Aber auch diese Regel ist nicht ganz frei von Willkür. Hier wollen wir demonstrieren, wie ein Ausreißer im Boxplot dargestellt wird.
 
Literatur
Zurück zum Zitat Campbell, D. T., & Stanley, J. C. (1966). Experimental and quasi-experimental designs for research. Rand McNelly. Campbell, D. T., & Stanley, J. C. (1966). Experimental and quasi-experimental designs for research. Rand McNelly.
Zurück zum Zitat Duller, C. (2019). Einführung in die Statistik mit EXCEL und SPSS (4. Aufl.). Springer.CrossRef Duller, C. (2019). Einführung in die Statistik mit EXCEL und SPSS (4. Aufl.). Springer.CrossRef
Zurück zum Zitat Freedman, D. (2002). From association to causation: Some remarks on the history of statistics (S. 521). Berkeley, Technical Report No: University of California. Freedman, D. (2002). From association to causation: Some remarks on the history of statistics (S. 521). Berkeley, Technical Report No: University of California.
Zurück zum Zitat Gigerenzer, G. (2002). Calculated risks. Simon & Schuster. Gigerenzer, G. (2002). Calculated risks. Simon & Schuster.
Zurück zum Zitat Green, P. E., Tull, D. S., & Albaum, G. (1988). Research for marketing decisions (5. Aufl.). Prentice Hall. Green, P. E., Tull, D. S., & Albaum, G. (1988). Research for marketing decisions (5. Aufl.). Prentice Hall.
Zurück zum Zitat Hastie, T., Tibshirani, R., & Friedman, J. (2011). The elements of statistical learning. Springer. Hastie, T., Tibshirani, R., & Friedman, J. (2011). The elements of statistical learning. Springer.
Zurück zum Zitat Pearl, J., & Mackenzie, D. (2018). The book of why – The new science of cause and effect. Basic Books. Pearl, J., & Mackenzie, D. (2018). The book of why – The new science of cause and effect. Basic Books.
Zurück zum Zitat Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680.CrossRef Stevens, S. S. (1946). On the theory of scales of measurement. Science, 103(2684), 677–680.CrossRef
Zurück zum Zitat du Toit, S. H. C., Steyn, A. G. W., & Stumpf, R. H. (1986). Graphical exploratory data analysis. Springer.CrossRef du Toit, S. H. C., Steyn, A. G. W., & Stumpf, R. H. (1986). Graphical exploratory data analysis. Springer.CrossRef
Zurück zum Zitat Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2007). Essentials of modern business statistics with microsoft excel. Thomson. Anderson, D. R., Sweeney, D. J., & Williams, T. A. (2007). Essentials of modern business statistics with microsoft excel. Thomson.
Zurück zum Zitat Field, A., Miles, J., & Field, Z. (2012). Discovering satistics Using R. Sage. Field, A., Miles, J., & Field, Z. (2012). Discovering satistics Using R. Sage.
Zurück zum Zitat Fisher, R. A. (1990). Statistical methods, experimental design, and scientific inference. Oxford University Press. Fisher, R. A. (1990). Statistical methods, experimental design, and scientific inference. Oxford University Press.
Zurück zum Zitat Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4. Aufl.). Norton. Freedman, D., Pisani, R., & Purves, R. (2007). Statistics (4. Aufl.). Norton.
Zurück zum Zitat Härdle, W. K., & Simar, L. (2015). Applied multivariate statistical analysis (4. Aufl.). Springer.CrossRef Härdle, W. K., & Simar, L. (2015). Applied multivariate statistical analysis (4. Aufl.). Springer.CrossRef
Zurück zum Zitat Sarstedt, M., & Mooi, E. (2019). A concise guide to market research: The process, data, and methods using IBM SPSS statistics (3. Aufl.). Springer.CrossRef Sarstedt, M., & Mooi, E. (2019). A concise guide to market research: The process, data, and methods using IBM SPSS statistics (3. Aufl.). Springer.CrossRef
Zurück zum Zitat Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley. Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley.
Metadaten
Titel
Einführung in die empirische Datenanalyse
verfasst von
Klaus Backhaus
Bernd Erichson
Sonja Gensler
Rolf Weiber
Thomas Weiber
Copyright-Jahr
2023
DOI
https://doi.org/10.1007/978-3-658-40465-9_1