Publikation

Probabilistic Assessment of Protein-Protein Interaction Confidence by Large-Scale Analysis of Homologous Protein-Protein Interactions

Outline:

C. Frech - Probabilistic Assessment of Protein-Protein Interaction Confidence by Large-Scale Analysis of Homologous Protein-Protein Interactions - Master/Diploma Thesis, FH OÖ Fakultät Hagenberg, Österreich, 2007, pp. 1-109

Abstract:

Das Studium von Protein-Protein Interaktionen (PPI) verspricht die Aufklärung zentraler molekularer Mechanismen hinter vielen Zellfunktionen und Krankheiten. Im letzten Jahrzehnt ließ sich ein enormer Anstieg an bekannten PPIs beobachten, von denen heute hunderttausende in öffentlichen Datenbanken zur Verfügung stehen. Schätzungen zufolge sind jedoch 50% dieser PPIs falsch-positiv, d.h. experimentelle Artefakte ohne biologische Relevanz. Eine zuverlässige Validierung von PPIs ist deshalb unverzichtbar und zur Zeit ein wichtiges Gebiet der Bioinformatik. Aufgrund jüngster Erkenntnisse über die Evolution von PPIs schlägt diese Diplomarbeit einen neuartigen homologiebasierten Ansatz zur PPI-Validierung vor. Die zu Grunde liegende Idee ist, dass PPIs evolutionär betrachtet primär durch die Verdopplung bereits interagierender Proteine und nicht durch eine Neuverbindung von zuvor nicht interagierenden Proteinen entstehen. Eine derartige evolutionäre Verwandtschaft von PPIs bedingt, dass für den Großteil biologisch relevanter PPIs viele homologe PPIs existieren, sowohl innerhalb der gleichen als auch in allen anderen Spezies. Auf Basis dieser Annahme wird ein Hypothesentest formuliert und auf einem großen, integrierten Datensatz bekannter PPIs angewendet. Unter der Null- Hypothese, d.h. der Hypothese dass eine gegebene PPI falsch-positiv ist, wird erwartet, dass die Anzahl vorhandener PPIs unter homologen Proteinen in etwa jener unter zufällig ausgewählten Proteinen entspricht. Ist erstere Anzahl erhöht, wird die Null-Hypothese verworfen. Eine P-Value Teststatistik, der Interaction P-Value (IPV), erkennt dabei statistisch signifikante Ergebnisse. Die Klassifikationsgenauigkeit des IPV wird anhand von drei Gold-Standards bestimmt undmit zwei bestehenden homologiebasierten Klassifikationsverfahren verglichen. Bei einer Spezifität von 80% schwankt die erreichte Sensitivität des Verfahrens zwischen 76% und 84%. Die hier gezeigte statistische Analyse von homologen PPIs zeigt, dass die homologiebasierte PPI-Validierung auf großen, integrierten PPI-Datensätzen großes Potenzial besitzt.