Change of language, change of content

From now on this blog is about my adventures in bioinformatics and in the use of open source software:
The code is bash, perl, R -especially sweave/noweb-, LaTeX and my lovely, beastly OS editor`s (Gnu-Emacs) elisp.

I will publish code snippets and short comments in English language. You con read about the same and my other more biology focussed interests in German on Alles was lebt.

Donnerstag, 20. November 2008

Statistik ist mehr als die drei Tests, und was ich im Moment so mache.

Der Hauptgrund warum hier nichts los ist hat nur einen Buchstaben: R.

Während meiner Diplomarbeit habe ich neben meinem Interesse an Genomik auch einen Hang zu quantitativem Arbeiten entwickelt. Genauer gesagt sollte ich damals die Darmwand "meines [1]" Wurms elektronenmikroskopisch untersuchen und verschiedene Parameter dieses Epithels aus verschiedenen "experimentellen Gruppen" vergleichen(d vermessen). Ich habe mir daraufhin ein Programm beschafft mit dem ich die digitalisierten Bilder vermessen konnte und habe so eine riesigen Datensatz generiert.




Die Analyse in SPSS gestaltete sich dann folgendermaßen:




Alles was nach den erste beiden Pfeilen steht ist dabei was die Vorgehensweise bei der Datenauswertung betrifft bestenfalls nicht besonders elegant [2]. Effekte aller Variablen habe ich nacheinander in willkürlicher Weise auseinander "seziert".
Die korrekte Vorgehensweise wäre ein statistisches Modell auf die Daten anzupassen. Dabei würden dann schrittweise von einem Maximalmodell ausgehend nicht signifikante Variablen ausgeschlossen.
Einer der vielen Vorteile von R ist nun, dass es die Datenanalyse geradezu in Richtung einer solchen Modellierung lenkt.

Der Datensatz meiner Diplomarbeit ist für meine derzeitigen Fähigkeiten trotzdem noch etwas zu kompliziert. Ich beschäftige mich hauptsächlich mit Infektionsdaten, die ich Anfang des Jahres in Taiwan gesammelt habe. Es geht darum den Zusammenhang von Kapseln in der Darm- und Schwimmblasenwand mit der Infektion zu testen (die Kapseln sind tote Larven!).



Neben meiner statistischen Modellierung amplifizieren und sequenzieren wir ("mein" Diplomand Dominik) im Moment aus den Kapseln einige Gene für die wir sehr Nematoden-spezifische Primer haben.



[1] Sobald "mein" Transkriptom online ist lass ich die Anführungszeichen weg ;-)

[2] Ich wurde gerade dafür trotzdem von den Gutachtern meiner Arbeit gelobt. Das Hauptproblem an diesem Datensatz ist auch wirklich die pseudo-Replikation, darum die vielen Mittelwerte.

Keine Kommentare: