Gibt es Geier in unserem Park?

AbakusWie Mathematik Leben und Weltsicht verändern kann: Eindrücke von einem 3-Wochen-Hardcore-Statistikkurs in England.


Eigentlich habe ich Mathe nie gemocht. Was interessiert mich das Ziehen aus einer Urne, und wozu werde ich wohl jemals in meinem Leben wieder etwas über Vektoren, Binomialkoeffizienten oder den Arcussinus wissen müssen?

Schön naiv war ich damals, nach meinem Abitur. Durch die Matheprüfung im Biostudium bin ich mit einer vier durchgekommen – und jetzt? Jetzt schreibe ich einen Artikel über Statistik. Dass es einmal so weit kommen könnte, hätte ich mir in meinen kühnsten Träumen nicht vorgestellt. Woher nun also der Sinneswandel? Natürlich wird man nicht von heute auf morgen zum Mathematiker, und das werde ich wohl auch niemals wirklich sein; aber man kann von heute auf morgen begeistert werden für eine neue Welt, die einem vorher verschlossen war.

Statistik
Statistik ist die Kunst (Wissenschaft), Daten zu gewinnen, darzustellen, zu analysieren und zu interpretieren, um zu neuem Wissen zu gelangen

Diese neue Welt habe ich während meines Auslandsstudiums in England entdecken dürfen – nicht zuletzt durch das Glück, wohl einen der besten Statistiker in der organismischen Biologie zum Lehrer zu haben. Der ‘GLIM course’, der alljährlich in einem idyllischen englischen Landhaus in einem stuckverzierten Zimmer mit Blick auf eine geschwungene Parklandschaft stattfindet, wurde von etwa 30 Master-Studenten und Doktoranden aus aller Herren Länder besucht. „Statistik lernt man nicht, indem man ein Buch darüber liest, sondern durch Praxis” – wie wahr dieser einführende Satz unseres Dozenten war, konnte ich selbst bei der Datenanalyse zu meiner Diplomarbeit am eigenen Leibe feststellen. (Allerdings können auch Bücher die Praxis einfangen ...)

Unabhängige und abhängige Variablen

  • Unabhängige Variable
    (explanatory variable): Wird im Allgemeinen auf der x-Achse (Abszisse) aufgetragen. Beispiel: Gewicht, Temperatur, Größe, aber auch Faktoren wie männlich/ weiblich oder ähnliche.
  • Abhängige Variable
    (response variable): Wird im Allgemeinen auf der y-Achse (Ordinate) abgetragen. Beispiel: Gewicht, Anzahl, Anteil, Alter.

„Wir kennen zwei Sorten von unabhängigen Variablen: kontinuierliche Variablen, und kategoriale Variablen”. Was sich kompliziert anhört, ist in Wahrheit ganz einfach – und zugleich der Einstieg in eine gelungene statistische Datenauswertung. Denn wenn man einmal entschieden hat, was für einen Variablentyp man vor sich liegen hat, bereitet es wenig Mühe, einen geeigneten statistischen Test für die Analyse und Interpretation der Daten zu finden.

Gleichzeitig ist es aber auch wichtig, sich darüber im Klaren zu sein, dass sich auch die abhängigen Variablen in einige wenige überschaubare Klassen einteilen lassen: kontinuierliche, diskrete und proportionale Variablen. Beispielsweise macht es einen großen Unterschied, ob man etwas exakt misst, oder nur zählt. Beim Messen sind alle Werte erlaubt (also auch Zahlen wie 1,5), während beim Zählen nur ganzzahlige Vielfache (0,1,2,3) erlaubt sind. Dementsprechend muss auch die statistische Analyse solcher Daten unterschiedlich aussehen.

Wem das nun alles gar nichts sagt (oder bei wem diese Ausführungen alte Mathe-Urängste heraufbeschwören sollten), dem kann ich einen Blick in das soeben neuerschienene Buch „Statistical Computing” (siehe unten) empfehlen – es enthält den gesamten Statistikkurs, und ist mindestens so lebendig und anschaulich geschrieben, wie Mick Crawley es in seinen alljährlichen Vorlesungen praktiziert. Das Softwarepaket „S-Plus” ist nur etwas für Profis, aber es gibt eine frei herunterladbare Version („R”) im Internet, an der jeder sich ausprobieren kann.

S-Plus oder R zu lernen, ist bestimmt kein einfaches Unterfangen, aber die Fülle der Auswertungs- und Darstellungsmethoden machen es wirklich einen Versuch wert. S-Plus und R fordern dazu heraus, sich mit den selbst gesammelten Daten wirklich auseinanderzusetzen – im Gegensatz zu gängigen Software-„Riesen” wie Excel oder SPSS. Wer qualitativ hochwertige und moderne Methoden, wie zum Beispiel multiple Regression, Baum-Modelle, gemischte Modelle (mixed effects models) oder multivariate Statistik einsetzen möchte, dem eröffnen sich hier alle Möglichkeiten. Und wer wissen will, wozu man denn nun den Arcussinus, Vektorrechnung oder den Binomialkoeffizienten bei der Auswertung statistischer Daten braucht, dem sei ein Blick in Mick Crawley’s Buch „Statistical Computing” empfohlen. Wenn es darin in einem einführenden Beispiel um die „Geier in unserem Park” geht, dann schwebt vielleicht selbst über dem kärgsten deutschen Studierzimmer ein wenig von der Idylle des stuckverzierten Blick-ins-Grüne-Vorlesungsraumes, in dem die Studenten hier den Statistikkurs genießen durften.

GLIM
...steht für „generalized linear models“ (Verallgemeinerte lineare Modelle), eine besondere Auswertungsmethode für statistische Daten, bei der die Fehlerstruktur (Poisson-, Binomial-, Gamma-Verteilung) und Streuung (Varianz) der Daten mitberücksichtigt werden; proportionale, diskrete und kontinuierliche Daten lassen sich bei Angabe einer „kanonischen Linkfunktion“ elegant untersuchen.

Gute und schlechte Hypothesen
„Es gibt Geier in unserem Park“ ist eine schlechte Hypothese, denn sie ist nicht widerlegbar (falsifizierbar). Man kann monatelang durch den Park streifen, ohne die Geier zu sehen – aber sie könnten sich ja zufällig immer hinter einem Baum versteckt haben. „Es gibt keine Geier in unserem Park“ ist hingegen eine gute Nullhypothese; beim ersten Mal, an dem man einen Geier entdeckt hat, ist die Hypothese widerlegt.

Beitrag von Christoph Scherber
Bildquelle: Hermea

Links zum Thema

Literatur

  • Crawley, MJ (2002): Statistical Computing. An Introduction to Data Analysis using S-Plus. John Wiley & Sons, Ltd. (ISBN 0-471-56040-5)

Kategorien

Themen: Mathematik
backprinttop

Newsfeeds

Online-Recherche

Suchmaschinen, Infos, Datenbanken » mehr

DFG Science TV

Rezensionen

Buchrezensionen der sg-Redaktion » mehr

Wettbewerbe

Forschungswettbewerbe in der Übersicht » mehr

Podcasts

Übersicht wissenschaftlicher Podcast-Angebote » mehr

Mitmachen

Anzeige

Maximow Award

Anzeige