Blog

Jak pracujete s .ab1 soubory?

Výsledky Sangerova sekvenování poskytujeme ve třech typech souborů – soubory .ab1, .seq a .phd.1.

  • .ab1 soubor obsahuje DNA elektroferogram, hrubá data a další údaje. Tento soubor od nás vždy obdržíte zpracovaný, kde zpracovaný znamená, že jsme pomocí vhodného algoritmu provedli odečet sekvence (tzv. basecalling ). Existuje celá řada algoritmů pro tyto účely a vždy se snažíme použít ten, který dá nejlepší výsledky. Grafický záznam elektroferogramu zároveň uložíme ve formátu .jpg, tento soubor ale doporučujeme používat pouze pro rychlý náhled na získaná data a nikoliv jako náhradu .ab1 souboru, jehož pečlivá analýza (včetně hrubých dat - Raw data) je pro správnou interpretaci získaných sekvencí zcela zásadní.
  • .seq soubor je obyčejný textový soubor s odečtenou sekvencí ve formátu FASTA.
  • .phd.1 soubor (Phred) je obyčejný textový soubor s odečtenou sekvencí, kde u každé báze je uveden ukazatel kvality.
    Soubory .seq a .phd.1 můžete otevřít a prohlížet v libovolném textovém editoru.

V elektroferogramu (data po analýze) je pomocí čtyř různých barev zobrazena sekvence ve formě píků, kde každá barva odpovídá jedné bázi, a dále je zde textový záznam odečtené sekvence:

Hrubá data (data před odečtem bází) jsou data tak, jak je zaznamená sekvenátor:

 

Co se děje s výsledky, než vám je odešleme?
Sekvenátory poskytují jako svůj primární výstup hrubá (raw) data. Naše sekvenační laboratoř tato hrubá data analyzuje pomocí speciálních algoritmů, tzv. basecallerů. Tím získáme elektroferogram, který je součástí .ab1 souboru, a odečteme sekvenci, uloženou v souborech .ab1, .seq a .phd.1 (viz výše). Každý elektroferogram ještě kontrolujeme.

Dále volíme i způsob zobrazení elektroferogramů. Zde existují v zásadě pouze dvě možnosti – tzv. True nebo Flat profil. Zatímco Flat profil vyrovnává rozdílnou výšku píků tak, aby v určité oblasti elektroferogramu byla víceméně stejná, True profil ukazuje klesající výšku signálu jak je vidět i v hrubých datech, což je při prudším poklesu signálu nevhodné. Jedná se nicméně pouze o dvě různé zobrazení téhož, odečtená sekvence ani ukazatele kvality (viz dále) se nemění.

Pozn. V souvislosti se zavedením zobrazování výsledků i v jpg formátu jsme od ledna 2015 začali využívat výhradně Flat profil.

 

Programy na analýzu dat
Chcete-li analyzovat výsledky sekvenování, potřebujete program, v kterém otevřete soubory typu .ab1. Na trhu je celá řada těchto programů, některé zadarmo, a není snadné některý z nich doporučit. Obecně řečeno je vždy vhodné použít takový program, který nezobrazuje pouze elektroferogramy ale i hrubá data, neboť analýza hrubých dat je zcela zásadní v případě, že je kvalita výsledku nízká a je zapotřebí zjistit příčinu.

Mezi nejpopulárnější volně dostupné programy patří zejména FinchTV a Sequence Scanner. Umožňují zobrazení a upravování souborů .ab1 a vyhodnocení výsledků, vždy ale jen jeden soubor po druhém. Pokud potřebujete jít v analýze dat hlouběji, např. chcete porovnávat sekvence mezi sebou nebo vůči referenční sekvenci, provádět automatickou detekci mutací apod., potřebujete speciální programy jako např. Sequencher (GeneCodes) nebo SeqScape (Applied Biosystems). Pokud máte zájem, můžeme vás do obsluhy těchto programů zaškolit.

 

Analýza dat
Vyhodnocujete-li data ve formátu .ab1, podívejte se nejprve na elektroferogram a ujasněte si, zda výsledek, který vidíte, lze považovat za kvalitní.

Kvalitní výsledek sekvenování by měl splňovat tyto parametry:

  • dobré rozlišení píků (špatné rozlišení prvních zhruba 25 bází je přijatelné)
  • uniformní vzdálenost píků
  • vysoká síla signálu vůči pozadí

Příklad velmi kvalitního výsledku:

Rychlou a pohodlnou cestou jak zkontrolovat kvalitu výsledku jsou tzv. Ukazatele kvality - Quality Values (QV). Ukazatel kvality je – jak říká strohá definice – odhad správnosti odečtu jedné každé báze. Řečeno lidskou řečí – ukazatele kvality jsou barevné obdélníčky nad píky/bázemi:

V souborech, které od nás dostáváte, platí pro ukazatele kvality tato pravidla:

  • Modrá je dobrá. Modrá = pravděpodobnost správnosti odečtu dané báze je vysoká, QV>20. Algoritmus si je alespoň na 99% jistý, že danou bázi odčítá dobře. Báze s QV>20 mohou samozřejmě pořád být přečteny špatně, ale není to moc pravděpodobné.
  • Žlutá a červená (červená je o trochu horší než žlutá) znamenají nejistotu vyhodnocovacího algoritmu (<99%), QV<20. Báze s QV<20 mohou samozřejmě pořád být přečteny dobře, ale není to moc jisté.

Pokud váš .ab1 soubor vypadá jako na obrázku výše, tak prostě odečtete sekvenci, případně provedete pár ručních úprav na začátku a na konci sekvence (kde se také objevují žluté a červené ukazatele kvality).

Pokud tak hezký obrázek nevidíte, pak je samozřejmě zapotřebí zjistit co se nepovedlo a proč, aby se problém neopakoval v budoucnosti. Kroky, které je nezbytné podniknout, mohou být variabilní, většinou je však prvním krokem k úspěšnému vyřešení problému pečlivá analýza hrubých dat. Pokud máte specifické dotazy k problémům, které pozorujete ve svých sekvencích, neváhejte nás kontaktovat.

 

Sanger lab, info@seqme.eu

© SEQme s.r.o., 2012 - 2024. Všechna práva vyhrazena. Právní upozornění.
Webdesign Vibes Vision