FASTA
.FASTA
:GenBank
. Następna linia informuje o długości i rodzaju sekwencji. Następnie widać numer dostępowy (,,Accession''), który jest unikalnym numerem danej sekwencji. Po tym numerze można ją jednoznacznie zidentyfikować, toteż zazwyczaj podaje się go w publikacjach, drzewach filogenetycznych itp. Drugi z podanych numerów (,,GI'') jest numerem identyfikacyjnym GenBank i ma mniejsze znaczenie z naszego punktu widzenia.GenBank
i FASTA
, w sposób graficzny i w końcu (,,PopSet'') wyświetlić listę sekwencji, które były wysłane do GenBank-u razem z daną sekwencją a więc są na ogół w jakiś sposób z nią powiązane.atp6
wyszukiwane jest we wszystkich polach a plants
i mitochondrion
w polu Filter
, ograniczenie do grupy organizmów można uzyskać używając pola porgn
. Jeśli zechcesz się pokusić o ręczne wpisywanie zapytań (lub ich części) to warto zapoznać się ze znaczeniem nazw pól, które można znaleźć w dokumentacji pod adresem https://www.ncbi.nlm.nih.gov/books/NBK49540/. Warto też zwracać uwagę jak zmienia się tekst zapytania w zależności od zmian w ustawianych filtrach. Poszczególne części zapytania można łączyć za pomocą operatorów AND
, OR
oraz NOT
a także grupować za pomocą nawiasów.atp6 Orobanche
widzimy w okienku ,,Search details'' zapytanie: atp6[All Fields] AND ("Orobanche"[Organism] OR Orobanche[All Fields])
. Operator AND
oznacza, że oba łączone nim wyrażenia powinny być spełnione. Jak widać, jest to domyślny operator wyszukiwania. Zauważ też, że słowo Orobanche
jest wyszukiwane nie tylko w polu Organism
(które oczywiście oznacza konkretny organizm) ale we wszystkich polach danego rekordu, co może tłumaczyć dlaczego w wynikach widzimy także sekwencje innych gatunków.atp6[All Fields] AND "Orobanche"[Organism]
i sprawdź jakie będą wyniki.NOT
. Zapytanie atp6[All Fields] NOT "Orobanche"[Organism]
zwróci sekwencje atp6
nienależące do Orobanche
.OR
pokażę na przykładzie, razem z zastosowaniem nawiasów. Zapytanie atp6[All Fields] AND ("Orobanche"[Organism] OR "Phelipanche"[Organism])
pozwoli znaleźć sekwencje atp6
należące do Orobanche
lub Phelipanche
. Otrzymamy więc sekwencje roślin należących do obu rodzajów.Advanced
. Jak można się domyślić, znajdziemy tam narzędzie pozwalające tworzyć złożone i/lub precyzyjne zapytania:KU180474
.FEATURES
zawiera kolejne pola dokładniej opisujące sekwencje, łącznie z genami i innymi specyficznymi fragmentami DNA, miejscami kodującymi i translacją sekwencji. Jest ona zwłaszcza przydatna, gdy chcemy pobrać jedynie część sekwencji. Sekwencja nie musi bowiem odpowiadać jednemu genowi - może to być np. genom mitochondrialny czy sekwencja całego chromosomu. Wtedy możemy chcieć np wyciąć z niej jeden gen. Wrócimy jeszcze do tego tematu.>
) otrzymać plik FASTA
. Można, ale nie jest to najlepszy pomysł. Przede wszystkim ze względu na to, że skopiowany tekst zawiera numery i spacje, które trzeba by usunąć. Jak zatem otrzymać sekwencje w formacie FASTA
? Na górze strony znajdują się linki FASTA
oraz Send to
. Po kliknięciu pierwszego z nich uzyskujemy stronę z wynikiem w tym właśnie formacie, który można skopiować i wkleić do edytora tekstu, łącznie z linią opisu sekwencji.Send to
otwiera się okienko, które pozwala m. in. zapisać sekwencję do pliku FASTA
(patrz wyżej).atp6.fasta
w którym umieść następujące sekwencje:cox3
. W tym celu w sekcji FEATURES
należy znaleźć pole gene
z wartością \gene="cox3"
. Ponieważ liczba opisanych sekwencji jest bardzo długa, nie ma sensu przeglądać całości w poszukiwaniu żądanego genu.cox3
i szukamy odpowiedniej części wyniku.gene
odnosi się do regionu oznaczonego jako gen, niekoniecznie zawierający wyłącznie miejsca kodujące. Te są opisane w części oznaczonej jako CDS
(coding sequence).gene
mamy podany zakres odcinka 217631..217639
, dla CDS
jest to 218280..219077
. Mamy też podane inne, dotyczące genu informacje jak miejsce zajmowane przez promotor czy miejsca edycji RNA. Dla CDS
jest także pokazana sekwencja aminokwasów.gene
.Features
), ,,dymek'' z różnymi informacjami a także linki umożliwiające wyświetlenie sekwencji w odpowiednim formacie, w tym FASTA
.gene
klikniemy CDS
otrzymamy podobny wynik, ale z informacjami charakterystycznymi dla sekwencji kodującej:FASTA
na dole ekranu pojawia się sekwencja w formacie FASTA
.Update View
. Wyświetli się zmodyfikowany zakres nici DNA.complement
), co oznacza, że znajduje się ona na nici komplementarnej. Znajdź gen rpl16
.FASTA
otrzymamy od razu sekwencję w odpowiedniej formie. Zauważ, że zakres sekwencji jest podany w odwrotnej kolejności:nad2
.CDS
) trzeba połączyć kilka fragmentów (join
). Czasem niektóre fragmenty są komplementarne inne nie, mogą też pochodzić z różnych sekwencji w bazie (np. rożnych chromosomów). Sprawdź na przykład gen nad1
w sekwencji KF754803
. Kompletna, złożona sekwencja powinna pokazać się po kliknięciu linku FASTA
w lewym dolnym rogu, ale nie zawsze to działa. W takim wypadku można po kolei wyświetlać kolejne fragmenty genomu w formacie FASTA
(jak pokazałem powyżej) a następnie je łączyć w edytorze tekstu lub programie do obróbki sekwencji. Jeśli sekwencja jest komplementarna, jak w przypadku nad2
, trzeba będzie ją zmienić na odwróconą, komplementarną. Łączenie fragmentów może być nużące, jest to jeden z przypadków, w których wygodniejsze może być użycie narzędzi działających w linii komend.