Sangerovo sekvenování je spojeno s určitými technickými limitacemi a jedna z těch zásadních je délka čtení. Typicky nelze očekávat – a to ani při naprosto bezchybném provedení – delší čtení než zhruba nějakých 1100 bází. Jaký je však spodní limit, jak dlouhé nebo spíše krátké templáty mohou být, abychom je dokázali úspěšně sekvenovat? A můžeme sekvenovat od první báze za sekvenačním primerem? V tomto článku se na tento problém podíváme.
Trocha teorie na úvod
Začneme trochu odzadu – pokud budete vyplňovat náš objednávkový formulář na Sangerovo sekvenování, musíte zadávat i délku templátu a minimální povolená délka je 100 b. To neznamená, že by nešlo sekvenovat kratší templát. Spíš to znamená, že to většinou moc nedává smysl, protože (i námi) běžně používané sekvenační soupravy začnou číst zhruba nějakých 20 bází za primerem. Uvažujeme-li templát délky 100 b a primery 20 b, znamená to, že z každého směru dostanete 60 bází a budete rádi, když forward a reverse sekvenci složíte.
Kromě toho ta data hned za primerem nebývají pěkná. Jednak čím kratší PCR produkt, tím hůř se čistí (např. na kolonkách). Přítomné neodstraněné kontaminace, typicky soli, pak interferují s čtením zejména krátkých fragmentů, protože mají podobnou rychlost pohybu v kapiláře. A za druhé je zde určitá limitace technologie jako takové. Fragmenty DNA (produkty sekvenační reakce) se při separaci v kapiláře pohybují v závislosti na své molekulové hmotnosti, která je více méně úměrná jejich náboji, to je podstata metody. Jenomže všechny DNA fragmenty musí být fluorescenčně značeny (terminálně, na 3’ konci, vždy jedním fluoroforem podle koncové báze), každá báze ACGT má jiný fluorofor a tyto mají různou molekulovou hmotnost. Takže když budeme mít tentýž DNA fragment (identická sekvence) značený různými fluorofory, budou mít jinou molekulovou hmotnost a migrační rychlost. V praxi nemáme dva sekvenčně úplně stejné fragmenty s různými fluorofory, ale dva fragmenty lišící se o bázi a mající stejný nebo rozdílný fluorofor. Hezky to ilustruje tento obrázek:
Jedná se o náhled na hrubá (raw) data před odečtem bází (basecallingem). Zhruba uprostřed vidíte sekvenci 11 červených píků (T) přerušenou jedním černým (G). Červené píky mají rovnoměrné vzdálenosti, protože mají všechny stejnou fluorescenční značku a liší se o bázi. Černý se rovněž liší o bázi ve srovnání s červeným vlevo nebo vpravo od něj, ale má jiný fluorofor (s jinou Mw, v tomto případ nižší, než je Mw červeného fluoroforu), takže migruje v kapiláře rychleji. Vlastně nám předbíhá, je víc vlevo, než bychom ho chtěli. Proto se z hrubých dat sekvence nedá odečíst nebo jen obtížně. Při analýze dat se samozřejmě tento efekt odstraní:
Pohyb fragmentů (píků) v elektroforetickém poli je pochopitelně vždy ovlivněn na ně navázaným fluoroforem, ale jeho vliv je tím větší, čím je DNA fragment kratší a fluorofor má tedy procentuálně vyšší podíl na jeho celkové molekulové hmotnosti. Takže algoritmus musí provádět korekci pohybu píků jinak, pokud má fragment velikost např. 30 nebo 300 bází, což představuje trochu výzvu.
Problém s čtením krátkých templátů lze řešit (částečně) použitím alternativní sekvenační chemie, která umí trochu lépe číst za primerem (soupravy s názvem BigDye Terminator v1.1). Jenže typický požadavek typického klienta je sekvenovat co nejdál, zhruba těch 1100 bází a s tím má tato sekvenační chemie problém. Sice začnete pěkně číst nějakých deset bází za primerem místo dvaceti, ale přečíst 1100 bází bude složité. Je to prostě něco za něco.
Takže co s tím?
Existuje velmi pěkná strategie, který tuto situaci řeší a kombinuje dvě úpravy, obě proveditelné na straně klienta. Nemusíte nutně provést obě, jedna může stačit, ale použijete-li obě, bude to mít větší efekt.
Zaprvé, vaše PCR produkty opatříte overhangy pro nasednutí sekvenačních primerů. Typicky se používají sekvence pro primery M13 forward a M13 reverse, ale v principu je to samozřejmě jedno. Tím si PCR produkt prodloužíte o nějakých 40 bází. Následně jej přečistíte (odstraníte i PCR primery) a přidáte sekvenační primer M13, který opatříte specifickým tagem (v tuzemsku dostupné např. u firmy Generi Biotech). O těchto primerech jsme psali podrobně zde, takže pouze stručně řekneme, že tag umožňuje číst hned za primerem, od první báze vašeho PCR produktu!
Níže vidíte typickou ukázku – výsledek sekvenace jednoho krátkého PCR produktu sekvenovaného oběma způsoby:
Horní elektroferogram ukazuje sekvenaci „klasicky“, bez M13 overhangů a specifického tagu na sekvenačním primeru (omlouvám se za tu češtinu…). Jako sekvenační primer byl použit jeden z PCR primerů.
Na druhém elektroferogramu (níže) je tentýž PCR produkt, získaný shora popsanou strategií (primery s M13 overhangy) a sekvenovaný tagovaným M13 primerem. Při bližším náhledu zjistíte, že je to táž sekvence (pík 25 nahoře odpovídá píku 58 dole). Ta dolní sekvence je nejen delší, ale samozřejmě i lepší a zakončená sekvencí M13 overhangu. Jak jsme si ověřili u zákaznice, která nám tyto vzorky zaslala, sekvenuje to skutečně od první báze.
Jedná se o naprosto spolehlivý postup. Navíc má tu výhodu, že M13 overhangy můžete přidat k různým PCR primerům a vlastně pak budete všechny PCR produkty vždy sekvenovat pomocí stále týchž tagovaných primerů M13.
Pokud byste se pro tuto strategii rozhodli, budeme rádi, když nám to dáte vědět předem. Minimálně proto, že je to takové pěkné vybočení z naší každodenní rutiny – my jsme vždycky rádi, když vidíme pěkné výsledky tohoto typu. Tím spíše, že horní elektroferogram není výsledkem naší práce ale konkurenční firmy, zatímco ten druhý (níže) je výsledek náš, získaný námi doporučenou a zde popsanou strategií poté, co zákaznice ztratila s původní sekvenační firmou trpělivost. Ale dávat vědět nám to rozhodně nemusíte – na naší straně budou tyto vzorky sekvenovány bez jakékoliv úpravy standardních sekvenačních protokolů, celé „kouzlo“ máte v rukách vy.
Sanger lab, info@seqme.eu