Change of language, change of content

From now on this blog is about my adventures in bioinformatics and in the use of open source software:
The code is bash, perl, R -especially sweave/noweb-, LaTeX and my lovely, beastly OS editor`s (Gnu-Emacs) elisp.

I will publish code snippets and short comments in English language. You con read about the same and my other more biology focussed interests in German on Alles was lebt.

Freitag, 6. März 2009

Umzug

Ab sofort gibt es alle meine Posts in deutscher Sprache auf dem Blog Alles-was-lebt.

Die Populationsgenetik-Serie wird dort fortgesetzt!

Hier auf Selective Sweep werde ich weiter auf Englisch schreiben, falls ich dazu komme.

Sonntag, 1. März 2009

The Rap Guide to Evolution

Eigentlich hatte ich gerade "Darwin rocks" ein von der VW-Stiftung gesponsertes Projekt an der Uni Tübingen gesucht.

Dabei ist mir der "rap guide to evolution" von Baba Brinkman (Babasword) auf dem Blog des Smithonian Mags untergekommen. Props, verdammt tight!



Es gibt auch noch weitere Teile...
Und der Mann hat auch einen Blog der eben sofort in meinen Feedreader gewandert ist.

Freitag, 27. Februar 2009

VW Symposium

Vor wenigen Augenblicken bin ich vom "First Status Symposium of the Volkswagen Foundation Evolutionary Biology Initiative" zurückgekehrt. In den nächsten Wochen werde ich einige neue Anregungen für Posts haben.

Samstag, 14. Februar 2009

A mere heart of silicon

An Darwins 200. Geburtstag vor zwei Tagen fand ich keine Zeit zu bloggen. Hier eine Erklärung dafür.
Der Titel dieses etwas verspäteten Posts, ist eine Anspielung auf das Darwins Zitat "A scientific man ought to have no wishes, no affections, -- a mere heart of stone."Das "silicon" steht für meine kürzlich entdeckte Liebe zur Bioinformatik und statistischen Datenverarbeitung.

Ich fühle mich im Moment etwas wie der Primat in 2001: A Space Odyssey, nur weniger aggressiv.



Es hat schon etwas wenn man die Herstellung von Werkzeug entdeckt, im Gegensatz zu Kubricks Primaten werde ich meine Werkzeuge Perl und R aber eher einsetzen um zu versehen, weniger um Einfluss auf meine Umwelt zu nehmen.
Besonders Perl ist dabei unglaublich nützlich. Ich empfehle jedem, der viele (schwierig das näher zu definieren) Sequenzen in seiner Arbeit anschaut sich damit zu beschäftigen. In der zweiten Wochen kann man bereits scripte schreiben, die einem die Arbeit erleichtern. Perl schreibt zum Beispiel für mich mein Laborbuch. Einfach ELKE.pl (Emanuel's Labwork Kalculating Environment) starten und die Rektionen berechnen, es entsteht Laborbuch-gerechter Output auf der Festplatt und auf Papier (zugegeben das funktioniert nur, da ich sehr repetitive Laborarbeit mache) .

Im Moment fasziniert mich auch die Hochdurchsatz-Transkriptom-Sequenzierung an sich. Aus mehreren Gründen:
Beim Annotieren der Transkripte benutzt man sogenannten Blast-Suchen, die man automatisiert mit selbst geschriebenen Perl-Programmen durchführt und auswertet. Dabei vergleicht man seine unbekannten Sequenzen mit einer Datenbank bekannter Sequenzen. Solange keine Sequenzen des eigenen Untersuchungsobjekts bekannt sind stammen diese hauptsächlich von verwandten Organismen.
Auf diese Art passiert folgendes: In der oft tausende Zeilen umfassenden Ausgabe seiner Programme findet man unzählige Namen von interessanten Tieren und Genen, die man vorher noch nicht kannte.

Dazu kommt dann auch noch das Gefühl, dass man Neuland betritt, dass man etwas sieht, was noch nie zuvor jemand gesehen hat. Das ist faszinierend: Auch wenn es nur Gene aus einem Wurm der in der Schwimmblase des Aals lebt sind.

Eigentlich wollte ich etwas mehr über Statistik und quantitative Methoden schreiben, stattdessen hab ich den bislang wahrscheinlich "wildesten" Post des Blogs verzapft: Von Darwin über Kubrick, Statistik, Programmieren und Blast bis zum Aal, das muss mir erst mal jemand nachmachen.

Samstag, 31. Januar 2009

Ein phylogenetischer Kuchen und die Paraphylie der Reptilien

Britische Supermärkte weisen eine geringe Biodiversität auf, was Fruchtgummi-Invertebraten betrifft. Daher waren wir gezwungen einen sehr vertebraten-lastigen phylogenetischen Kuchen zum Geburtstag unseres Prof's zu backen, obwohl sich dessen Interessen eher auf Invertebraten (diese Gruppe ist übrigens auch paraphyletisch) fokussieren. Genauer gesagt gehören die meisten terminalen Taxa unseres Nachtisches zu einer Gruppe, die gemeinhin als Kriechtiere (Reptilien) bezeichnet wird.

Folgendes Kladogramm gibt korrekte Verwandtschaftsverhältnisse wieder:



Für alle mit etwas eingerosteten Fruchtgummitier-Kenntnissen, die terminalen Taxa von links nach rechts:
Vogel(Hühner-Ei: Gallus gallus), Saurier (Tyrannosaurus rex), Alligator, nicht näher bestimmte Schlange (Serpentes), Maus (Mus), Bär(Ursus), Hai, (Carcharodon), Rundwürmer (Nematoda), Plattwurm (Platyhelminthes) und Nautilus.

Schön zu erkennen ist auf dem Kuchen, dass in der Gruppe, die wir allgemein als Reptilien kennen, gefiederte Dinosaurier enthalten sind: Die Vögel.
Daher bezeichnet der althergebrachte Name "Kriechtiere/Reptilien" eine sogenannte paraphyletische Gruppe, die näherungsweise alle nicht gefiederten Sauropsida umfasst.

Zum weitern Kladogramm:
Die Sauropsida bilden zusammen mit den Säugetieren eine Schwestergruppe der Knorpelfische (vertreten durch den Hai). Interessant hierbei ist, dass hätten wir einen Knochenfisch (Teleostei) mit eingeschlossen, dieser zu der Gruppe der Vertebraten mit Knochen (Teleostomi) gehört hätte. Beispielsweise ein Goldfisch ist also näher mit uns Primaten verwandt als mit einem Hai.
Die vertretenen Wirbellosen gehören zu den Protostomiern und teilen sich in Ecdysozoa und Lophotrochozoa, wobei bei letzteren auf unserem Kuchen die Plattwürmer von den Mollusken zu unterscheiden sind.

P.S.
Im Moment geht meine zurzeit sehr spannende Arbeit vor, daher werden die nächsten zeitaufwendigen Popgen-Posts noch etwas auf sich warten lassen.

Sonntag, 25. Januar 2009

Zwei große deutsche Wissenschaftler, ein schlechtes Buch

Meinen wohlverdienten Urlaub zur Jahreswende habe ich nicht nur genutzt um mich am Strand mit molekularer Evolution zu beschäftigen. Auch fiktive Literatur habe ich in meinem Rucksack durch Malaysia und Thailand getragen: "Die Vermessung der Welt" von Daniel Kehlmann.

Das möchte ich zum Anlass nehmen um mal etwas von meinen eigentlichen Themenschwerpunkten abzuweichen.

Leider war der Roman eine Enttäuschung. Kehlmann beschreibt darin das Leben des Mathematikers Carl Friedrich Gauß und der Brüder Humboldt. Ich hatte mir erhofft von einem historischen Roman mit wissenschaftlichem Hintergrund gut unterhalten zu werden und nebenbei etwas lernen.

Man kann Kehlmann zugute halten, dass gleich zu Anfang des Buches klar macht, dass er nicht wirklich die historischen Persönlichkeiten interessiert ist: Er lässt Gauss sagen, in 200 Jahren werde nur sein Werk übrig sein, jeder Einfallspinsel könne sich dann aber Unfug über ihn ausdenken. Und das macht er dann auch fleißig.
Einige Fehler und Ungenauigkeiten später ist man dann genügend gewarnt und der Informationsgehalt des Buches geht daher gegen Null. Für mich als Biologen war der offensichtlichste Patzer dass Quallen, die bei Alexander von Humbolds Reise um das Schiff trieben als "Mollusken" bezeichnet wurden. "Medusen" hätte literarisch mindestens genauso gut geklungen, wäre aber korrekt gewesen.

Da all das ständig daran zweifeln lässt, wo ordentliche Recherche aufhört und Dichtung anfängt bleiben nach dem Lesen mehr Fragen als Erkenntnisgewinn.
Stimmt die kleine Geschichte von Immanuel Kants Altersdemenz? War Alexander von Humboldt am Ende seines Lebens wirklich ein aktiver Gegner der Evolutionstheorie (Er starb 1859, also kannte er "den Origin" in jedem Fall nicht, Darwin erwähnt Humboldt sehr oft als großen Forscher, es scheint mir daher auch unwahrscheinlich, dass er keinen Kontakt mit Darwin hatte), usw... ?
Doch all diese Schwächen würden das Buch noch nicht schlecht machen. Was mich wirklich gestört hat und auch der Grund ist warum ich diese Kritik hier schreibe ist Folgendes:

Am Ende bleibt das Gefühl beide Wissenschaftler wären gescheitert. Als hätten sie durch die Erkundung der Welt ihr eigenes Leben aus den Augen verloren. Als wäre ihre Suche nach Wissen irgendwie verfehlt gewesen und hätte niemanden wirklich weiter gebracht. Des bringt meiner Meinung nach Ignoranz gegenüber empirischer Arbeit und Arroganz gegenüber Wissenschaftlern zum Ausdruck.

Ich selbst hätte mir eher vor Ort "The Malay Archipelago" von Alfred Russel Wallace kaufen und passend zu meinem Reiseziel lesen sollen (In Kuala-Lumpur gibt es sehr gute Buchhandlungen!).

Dienstag, 20. Januar 2009

Protein-Polymorphismus und die neutrale Theorie

ResearchBlogging.orgWie ich in früheren Posts bereits angedeutet habe, wurde in der Zeit bevor man schnell und günstig DNA sequenzieren konnte hauptsächlich eine auf Verschiedenheiten in Enzymen basierende Methode verwendet um Variabilität innerhalb von Populationen zu untersuchen. Masatoshi Nei und Dan Graur haben zu den so gewonnenen Daten, eine sehr fundierte und gut zu lesende Metaanalyse durchgeführt; sozusagen das letzte Wort zu diesen Daten in der Populationsgenetik...

Sogenannte Allo(en)zyme katalysieren sehr grundlegende Stoffwechselprozesse und sind daher hoch konserviert, d.h in fast allen Lebewesen sind Orthologe vorhanden. Zerkleinert man gesamte Organismen, und lässt den entstehenden "Brei" in einem elektrischen Feld durch eine Gel laufen (Gelelektrophorese) trennen sich die Proteine, wie die interessierenden Enzyme, gemäß ihrer Ladung auf. Die dazu verwendeten Stärkegele werden dann mit dem Substrat für eines der Allozyme und einem Farbstoff, der ausfällt, wenn die entsprechende Reaktion stattfindet, gefärbt. Mit dieser Methode sind in dem meisten Organismen etwas mehr als 20 Enzyme analysierbar.
Auf den ersten Blick erscheinen diese evolutionär konservierten Moleküle aber nicht besonders geeignet um Unterschiede innerhalb einer Art auf Populationsebene zu untersuchen. Eine erstaunliche Entdeckung war daher, dass solche Enzyme innerhalb einer Art oft in unterschiedlichen Allelen vorkommen, sichtbar als unterschiedliche weit gelaufene Banden im Gel.
Seit Anfang der 1960 resultierte dies in einer Fülle von Studien, die diese Methode zur Anwendung brachten und für experimentell arbeitende Populationsgenetiker "find it, grind it" zur Losung machten.

Die Entwicklung der neutralen Theorie ist daher auch im Licht der so gewonnenen Daten zu sehen. Warum gibt es diese Variabilität in natürlichen Populationen? Wer seine Fliegen mit etwas Hintergrundwissen zerrieb, musste eine neutrale Erklärung in Betracht ziehen.

Schon vor der Untersuchung dieser ersten molekularen Polymorphismen war der Grad der innerhalb einer Art beobachteten Variabilität das beherrschende Thema der Populationsgenetik. Warum kommt es durch Selektion nicht zu einer vollständigen Optimierung des Phänotypes und damit zu einem Verschwinden der Variabilität?

Es können zwei Gruppen von Hypothesen getestet werden, die dieses Phänomen erklären könnten:

Zum Ersten die neutrale Erklärung: Es könnte einfach keine Selektion auf die interessierenden Merkmale gegeben sein und daher könnten zwei Allele durch Zufall zum gegebenen Zeitpunkt vorhanden sein.

Zum Anderen "selektionistische" Erklärungen, d.h. Selektion selbst könnte zwei unterschiedlich Merkmale begünstigen. Dies wird "balancing selection" genannt. Ein Paradebeispiel hierfür stellt Häufigkeits-abhängige Selektion dar. Spezielle Merkmale werden positiv selektiert weil sie selten sind, wird das entsprechende Allel häufiger, verschwindet dieser Vorteil und das alternative Allel hat den Vorteil. Der große Polymorphismus bei MHC Allelen lässt sich so beispielsweise sehr schlüssig mit Häufigkeits-abhängiger Selektion erklären.
Eine weitere "selektionistische" Erklärung wäre "Overdominance", dabei haben Heterozygote eine größere Fitness als die beiden möglichen Homozygoten, daher hält die Selektion beide Allele in der Population.

Betrachtet man die Theorien ohne jegliche Daten, muss man feststellen, dass die neutrale Erklärung die sparsamere und daher -falls sie ausreicht- bessere ist. Die auf Selektion basierenden Erklärungen sind etwas umständlicher wurden aber von vielen Biologen bevorzugt, da man neutrale Erklärungen oft als unschön empfand. Die selektionistischen Erklärungen wurden als "darwinistisch" verteidigt, neutrale Erklärungen schienen für viele in Widerspruch mit "Darwins Theorie" zu stehen. Wie sollte eine hauptsächlich neutrale Variabilität das "Substrat" für die allgemeine akzeptierte Evolution durch natürliche Selektion liefern?

Natürlich waren auch die Vertreter der neutralen Erklärungsversuche (wie Lewontin) im weiteren Sinne "Darwinisten", sie vertraten meist die Auffassung, dass selbst der in ihren Modellen unbedeutende kleine Teil der selektierten Merkmale ausreiche um "darwinistische" Evolution zu ermöglichen.

Eine weitere Warnung ist bei der Diskussion über sie neutrale Theorie angebracht:
Sie betrachtet speziell molekulare Polymorphismen. Grundlage dafür ist die Annahme, dass negativ selektierte Allele so schnell den Extremzustand "Verlust des Alles aus der Population" anstreben, dass sie zu vernachlässigen sind. Es ist nach diesen Annahmen einfach unwahrscheinlich, dass man gerade in dem kurzen Moment, in dem ein selektierter Locus in der Population polymorph ist die Daten erhebt. (Würde mann nur innerhalb der Population einer Art arbeiten könnte man in der neutralen Theorie auch ohne weiteres positive Selektion zulassen, schließlich würde das gleiche schnelle "Anstreben des Extremzustandes", diesmal der Fixierung auch für positive selektierte Allele zutreffen, die neutrale Theorie kann positive Selektion aber nicht zulassen, da sie auch einen Zusammenhang zwischen der Sequenz-Divergenz zwischen Arten und der Zeit seit der Divergenz vorhersagt, darauf werde ich noch eingehen).

Und eine weiter Warnung, dass die Theorie auf molekularer Ebene anzuwenden ist: Würde man phänotypische Merkmale, die zum Großteil von mehreren Genen kontrolliert werden, betrachten, müsste man auch Effekte der (nicht vollständigen) Erblichkeit dieser Merkmale und Interaktion mehrerer Loci bei ihrere Erzeugung mit einbeziehen. Solche Aspekte sind nicht Teil der neutralen Theorie, sondern der quantitativen Genetik.

Nach dieser langen Einleitung zurück zum besprochenen Paper. Nei und Graur untersuchten also ob der beobachtete Grad des Polymorphismus, der in Allozym-Studien als Heterozygotie (=Gendiversität; H) für einen Locus angegeben wird, den Voraussagen der neutralen Theorie entspricht. Sie wählten dafür Daten für 341 Spezies aus 77 Studien, in denen die Heterozygotie für mindestens 10 individuelle Genomen an 20 Protein-Loci ermittelt wurden.

Die Voraussagen der neutralen Theorie sind nun folgende:
  1. Die beobachtete mittlere Heterozygotie (über alle Loci) nimmt mit steigender Populationsgröße zu.
  2. Die beobachtete mittlere Heterozygotie ist gleich oder kleiner als der durch Formel [8] gegebene Erwartungswert.

Die effektive Populationsgröße (Ne) in Formel [8] muss man durch die Populationsgröße (N) ersetzen, da Ne nicht direkt messbar oder schätzbar ist.

Die erste Aussage basiert auf einer angenommenen Korrelation von Ne und N, diese reicht aus um nicht nur für Ne sondern auch für N eine positive Regression mit der Heterozygotie vorauszusagen.
Anders bei der zweiten Aussage: Das "oder kleiner" resultiert daraus, dass die effektive Populationsgröße (Ne) jeweils kleiner oder gleich der aktuellen Populationsgröße (N) ist. Muss man nun also Ne durch N ersetzen, ergibt die Formel keinen exakten Erwartungswert, sondern erlaubt nur das genannte "kleiner gleich".

Für alle 77 in die Analyse einbezogenen Studien mussten Nei und Graur nun also die Populationsgröße der jeweils zugrunde liegenden 341 Spezies abschätzen. Sie beschreiben für einzelne Spezies genau wie sie dies anstellten: Mit viel Sachverstand und Pedanterie...

Die erste Voraussage bewahrheitete sich im analysierten Datensatz oder wie die beiden Autoren etwas wissenschaftlicher schreiben: "Die erste neutrale Null-Hypothese konnte nicht abgelehnt werden". Die Regression von Populationsgröße (N) und Heterozygotie (H) war signifikant und der Regressionskoeffizient r = 0.65 sagt, dass 65% der Varianz in H oder N durch Covarianz von H und N erklärbar ist. Eine erstaunlich gute Regression, bedenkt man, dass N nur eine Schätzung und obendrein ein Ersatz für Ne ist.

Die zweite Aussage machte etwas mehr Probleme: Für zwei der 341 Spezies musste "diese Nullhypothese zunächst abgelehnt werden", sie zeigten signifikant höhere Diversität als vorausgesagt.
Die Ausreißer waren Drosophila engyochracea und D. mimica, hawaiianische Fruchtfliegen-Arten.

Für diese drei Spezies testeten die beiden Autoren alternative Hypothesen. Sie nahmen dazu die Verteilung der Allelfrequenzen genauer unter die Lupe. Diese entspricht in den zwei Spezies der unter Neutralität angenommenen Verteilung. De Facto erwartet man bei einer auf Overdominance basierenden Alternativhypothesen nicht die beobachtete Verteilung: In dieser sind die meiste Loci nicht polymorph und die Allelfrequenzen der polymorphen Loci gleichmäßig zwischen 0 und 1 verteilt (U-Form der Verteilung). Ovedrdominance wurde eine Clustern der Frequenzen um 0.5 produzieren.

In einer ausführlichen Diskussion stellen Nei und Graur dann dar warum eine heterogene Umwelt mit vielen verschiedenen Nischen nicht in der Lage ist über Adaptation an einzelne Nischen Variabilität zu erzeugen. Kurz gesagt lassen dies Genfluss, mendelsche Vererbung und finite Populationsgrößen in realistischen Modellen nicht zu.

Aus dem selben Grund aus dem die neutrale Theorie vorteilhafte Mutationen ignorieren kann, können sie auch nicht für den beobachteten Polymorphismus verantwortlich sein: Sie werden zu schnell fixiert. Dies mag zunächst wie ein Zirkelschluss erscheinen, allerdings sagen alle plausiblen Modelle für eine Fixierung von positiv selektierten Allelen eine extrem schnelle Fixierung voraus.
Würde man extrem kleine Selektionsvorteile und hohe Mutationsraten annehmen, könnte man zwar die beobachtete Variabilität erreichen, solche Prozesse würden dann aber zwischen Arten zu hohe Substitutionsraten ergeben. Substitution ist die Fixierung eines neuen Allels, wie sei nach einer Divergenz zweier Arten beobachtet wird. Da solche Substitutionsraten für phylogenetischen Studien benutzt werden, sind sie bekannt und man weiss, dass sie über den gesamten "Baum des Lebendigen" in der gleichen Größenordnung liegen.

Die beiden Autoren schließen, dass eine neutrale Erklärung auch für die beiden Ausreißer in Betracht kommt, da spezielle für diese Arten die Abschätzung der Populationsgröße sehr schwierig war und möglicherweise N schlicht unterschätzt wurde, was dann zu zu niedrigen Werten für die erwartete Diversität erbrachte.
Die Daten scheinen also mit der neutralen Theorie der molekularen Evolution gut übereinzustimmen.

Zu den Problemen der Neutralen Theorie komme ich erst im nächsten Post. Würde ich auf Englisch schreibe, hätte ich dafür auch schon einen Titel:
"The mean is not the message: The overdispersion of the molecular clock".
_____________________________________________________________________________________________________________________________________________________________
Masatoshi Nei, Dan Graur (1984). Extent of protein polymorphism and the neutral mutation theory Evolutionary biology Link(kein DOI zu finden)

Sonntag, 18. Januar 2009

God is good, God is great, God's a big invertebrate!

Etwas lustiges zum Start ins neue Jahr. Die inoffizielle Hymne des Sequenzier-Service der University of Edinburgh von der Irish-Folk-Band "Boiled in Lead".

"Dive in the Genepool down you swim"

Vergesst einfach das Video, auf den Text kommt es an, den gibt es auch nochmal zum nachlesen:


In April when your barge sailed through
I fell in love with you
Alas my paramour alack
A stranger to me 'til the test comes back

Chorus:
Oh the micro-organism
Oh the micro-organism

Dive in the gene pool down you swim
Down to where the light grows thin
Flail little fishies flail if you can
But avoid the micro-organism man

Chorus

Caffeine sugar and THC
Is all that the doctors are gonna find in me
When they do the autopsy
The micro-organism won't get me

Chorus

God is good and God is great
God's a big invertebrate
God made the river change its route
But he won't pull the micro-organism out

Chorus

The cowslips bloom and the bluebells too
Here's advice I'll give to you
Rattle your sword before you strike
And never kiss anyone you like

Chorus