reviews2

Další bioinformatická webová aplikace pro niche uživatelstvo.

Posledně jsem psal o bioinformatickém bordelu sekvenčně divergentních a funkčně promiskuitních HLA molekul, a jak lze jejich kombinace přítomné v lidském genomu a číselně ohodnotit. Vysoké HED skóre? Divergentní děvka. Nízké skóre? Málo divergentní fuchtle. Průměr několika skóre pro daného jedince? Míra divergence v bordelu. Pardon. Ta analogie je tak blbá, ale přesto se jí nedokážu vzdát. Divergence každopádně v důsledku znamená kapacitu kombinace dvou alel vázat větší repertoár peptidů do svého vazebného žlábku.

Tady je asi vhodné lehce vysvětlit, o jakých genech je vlastně řeč. HLA první třídy, tedy A, B a C, jsou tvořeny dvěma proteinovými podjednotkami, ale jen jedna z nich v sobě nese vazebný žlábek pro prezentovaný peptid. HLA druhé třídy jsou také tvořeny dvěma podjednotkami, ale na tvorbě vazebného žlábku se podílí oba tyto proteiny. DPA1 tvoří dimer s DPB1, DQA1 s DQB1 atd. Zároveň jsme diploidní organismy, neseme tedy dvě alely od každého genu. V případě HLA I. třídy tak máme vždy dvě alely kódující proteiny s dvěma lišícími se vazebnými žlábky, jejichž evoluční divergence vyjadřující schopnost vázat odlišné repertoáry peptidů je předmětem metriky jménem HED skóre. V případě HLA II. třídy… jejda. O tom až dále.

Zároveň jsem minule i nastínil, k čemu je takové HED score dobré, ale opravdu jen nastínil, sám užitečnost této metriky nejsem moc dobře schopný posoudit. Moje štěstí je v tom, že mám kolegyni, kterou výpočet této metriky eminentně zajímá. Jak jsem popisoval minule, existují výpočetní nástroje ma bázi Perl, Pythonu i R, které HED skóre ochotně vypočítají v cuku letu i pro velkou sadu vstupních dat (tj. tabulky s ogenotypovanými jedinci).

Jenže, dva z nich (GranthamDist a cHED) vypočítají HED jen pro HLA první třídy a dva z genů HLA druhé třídy, jeden (HLA-HED) dokonce jen pro HLA první třídy. Při bližším pohledu pak zjistíme, že GranthamDist počítá HED score pouze z aminokyselin přítomných ve vazebném žlábku HLA molekuly, oproti tomu zbylé dva testované nástroje se s tím tolik necrcají a počítají jej prostě z celé sekvence odpovídající exonu/ům, který/é kóduje/í mj. vazebný žlábek. To je obrovský rozdíl z matematického hlediska, protože je to výrazně více aminokyselin (může to být např. pětinásobek i více) a tím pádem vypadají HED skóre poměrně dost odlišně. Pravděpodobně je ale obojí postup víceméně validní, protože zbytek sekvence patrně bude do značné míry neměnný, relativní srovnání HED skóre v rámci vícero testovaných jedinců by tedy mělo být víceméně srovnatelné v obou odlišných metodách výpočtu.

Jenže právě zde jsem pojal smělý plán, že se pokusím vytvořit nástroj, který vypočítává HED skóre oběma přístupy, a především začlení do své nabídky i výpočet genů, jejichž HED skóre ve výše zmíněných nástrojů chybělo. GranthamDist a cHED totiž umožňuje výpočet HED skóre u HLA I. třídy a jen dvou genů HLA II. třídy, DQB1 a DRB1, ale ne dalších z “klasických” HLA genů, které umožňuje genotypovat nástroj T1K a další. Jedná se o DPB1, DQA1 a DPA1. I u těch lze vypočítat HED skóre, stačí mít zdrojová data, a těmi jsou sekvence dostupné na v IPD-IMGT/HLA databázi.

Nástroj jsem pojal jako webovou aplikaci (je to moje M.O.: modus operandi) propojenou s tímto webem skrze Blueprint. Pojmenoval jsem jí Total HED-all, protože počítá HED pro všechny a všemi možnostmi. Mód který využívá plnou sekvenci exonů 2+3 (u HLA I. třídy) nebo exonu 2 (u HLA II. třídy) už funguje a vytváří shodné výsledky s cHED a HLA-HED a k tomu navíc dodává HED skóre pro DPB1, DQA1 a DPA1, které nyní také počítá do průměru pro HED skóre HLA II. třídy. Zajímavé je, že DPB1 vyhazuje skóre v podobných relacích jako jsem byl zvyklý vidět u ostatních genů, ale DQA1 mívá vlivem vysoké polymorfie skóre výrazně vyšší a DPA1 naopak výrazně nízké vlivem zanedbatelné polymorfie. Ptáte-li se kde je DRA1, tak nikde, protože DRA1 tak nějak prostě nepolymorfuje a T1K jej tak ani negenotypuje.

Mód který využívá jen sekvenci vazebného žlábku pro výpočet HED skóre je zatím rozpracovaný a nemůžu slíbit, že bude dopracovaný, protože zjistit s jistotou, které aminokyseliny v jednotlivých alelických sekvencích tvoří skutečně žlábek není zas tak triviální. Vyvstává taky otázka, jestli to bude vůbec k něčemu dobré, když už existuje precedens pro výpočet z rozsáhlejších sekvencí pomocí opublikovaných nástrojů.

Mám už i nějaký feedback od mé drahé kolegyně, kterou napadlo, zdali tedy nedává smysl počítat u HLA II. třídy HED skóre nikoli pro jednotlivé geny, ale místo toho pro celé funkční HLA komplexy, které, jak jsem zmiňoval, se spolupodílí na tvorbě vazebného žlábku. Zní to logicky a na první pohled to potenciálně zjednodušuje výsledkovou tabulku (místo 5 sloupců genů HLA II. třídy by tam byly 3 sloupce pro DP, DQ a DR komplexy). Jenže jak jsem psal výše: 2 podjednotky tvořené dvěma geny v diploidním organismu znamená také dvě alely. Vznikají tak teoreticky 2×2=4 možnosti, jak může výsledný komplex vypadat. Jak na tohle naroubovat HED skóre, které doposud počítalo s porovnáváním rozdílů mezi dvěma možnostmi? Není to neřešitelný problém, ale můžu být tak smělý, abych pro řešení tohoto matematicko-imunologického (fuj) problému navrhoval nějaké řešení?