phyml
phyml
. Utwórz katalog phyml
, następnie wejdź do niego i skopiuj tam plik atp6-dopasowane.fasta
.JModelTest 2
:phyml
:AIC
, drugi dla BIC
. Użycie polecenia grep
z parametrem -B
(jak Before), które pokazuje także linie poprzedzające linię z dopasowaniem szukanego ciągu znaków pozwala zidentyfikować, który jest który (nawiasem mówiąc jest też parametr -A
od After):AIC
. Używając zainstalowanego manuala (man phyml
) sprawdź co oznaczają poszczególne opcje.phy
w katalogu tymczasowym, możesz sprawdzić czy istnieje. Jeśli tak to można go wykorzystać do dalszej pracy, ale zrobimy inaczej.PHYLIP
:atp6-dopasowane.fasta.phy
. To jego użyjemy jako pliku wejściowego. Zmodyfikuj zatem komendę i wykonaj ją:Newick
.FigTree
. Po jego uruchomieniu, otwórz plik z drzewem.phyml
od razu wygenerował ukorzenione drzewo. Otwórz plik *.phy
w ulubionym edytorze tekstu i dodaj gwiazdkę na końcu nazwy sekwencji z outgrupą, usuń przy tym nadmiarową spację tak aby sekwencje były wyrównane:FigTree
. Przy okazji w rozwijanym menu po lewej możesz zwiększyć czcionkę dla tekstu opisującego liście:-b
na 1000:FigTree
. Tym razem pojawi się okienko, w którym możemy wpisać nazwę wartości:bootstrap
.phyml
przedstawiają liczbę wygenerowanych drzew na których występuje dana gałąź. Przy czym, jak widać, choć podaliśmy 1000
jako liczbę powtórzeń, w sumie było ich 1002, ponieważ program dostosowuje tą wartość do liczby używanych procesorów/rdzeni/wątków. W tym przypadku było ich 3, więc liczba powtórzeń musiała być podzielna przez 3.%
). Toteż należałoby je poprawić w pliku z zapisanym drzewem, albo później poprawiając plik graficzny.IQ-TREE
IQ-TREE
, z którym zetknęliśmy się w poprzednim rozdziale. Na stronie domowej programu, pod adresem http://www.iqtree.org, można znaleźć m. in. pliki instalacyjne dla różnych systemów operacyjnych a także dokumentację. Pod Debianem i pokrewnymi dystrybucjami Linuksa można zainstalować go poleceniem:IQ-TREE
jest to, że automatycznie dobiera dobiera model ewolucji molekularnej, który jest następnie używany przy generowaniu drzew filogenetycznych. Ponadto można zastosować ultraszybki bootstrap (ultrafast bootstrap), który jak nazwa wskazuje, znacznie przyspiesza etap oceny wiarygodności wyników.iqtree
, umieść tam plik z sekwencjami. W katalogu wykonaj komendę:-s ccmFn.fasta
- plik wejściowy-m TEST
- należy znaleźć model substytucji-nt AUTO
- automatyczne dopasowanie liczby rdzeni procesora do obliczeń-bb 1000
- ultraszybki bootstrap, 1000 powtórzeń-o Cycas_taitungensis_NC_010303
- outgrupa: podajemy nazwę sekwencji z pliku FASTA
BIC
(co można oczywiście zmienić). W końcu zostaje wygenerowanych kilka plików z wynikami, najbardziej nas będzie interesował ccmFn.fasta.treefile
, w którym zapisane jest drzewo. Z kolei w pliku ccmFn.fasta.log
zapisane zostają komunikaty wyświetlane przez program.FigTree
, ręcznemu wskazaniu outgrupy (Cycas) i dopasowaniu wyglądu powinien pokazać się mniej więcej taki widok:IQ-TREE
posiada wiele dodatkowych opcji i możliwości dopasowania parametrów obliczeń dla drzewa. Warto zajrzeć do dokumentacji i tutoriala dostępnego na stronie domowej programu.IQ-TREE
posiadająca liczne rozszerzenia i usprawnienia, o czym można poczytać na stronie programu, dostępnym tam podręczniku, oraz w publikacji poświęconej jego nowej wersji. Z praktycznego punktu widzenia, warto zwrócić np. uwagę na nowy sposób ustawiania "ultraszybkiego bootstrapu" (-B
zamiast -bb
).FastTree
FastTree
. Nie jest to program posiadający zbyt wiele opcji, ma natomiast niewątpliwą zaletę - jak sama nazwa wskazuje generuje drzewa szybko. Warto go wykorzystać szczególnie gdy generujemy wiele drzew, które mają raczej wstępny charakter.-nt
oznacza, że mamy do czynienia z plikiem zawierającym nukleotydy, -gtr
że używamy modelu GTR
.MrBayes
MrBayes
jest jednym z programów pozwalających na wygenerowanie drzew filogenetycznych metodą bayesowską. O ile metoda Maximum Likelihood wyszukuje drzewa, dla którego dane są najbardziej prawdopodobne, to metoda bayesowska wyszukuje najbardziej prawdopodobne drzewo dla bieżącego zestawu sekwencji. Sposób szukania takiego drzewa przypomina nieco proces ewolucji. Wygenerowane losowo drzewa w każdym ,,pokoleniu'' zmieniają się (,,mutują''), co oznacza zmianę ich parametrów. Zmiany które zwiększają ich prawdopodobieństwo są akceptowane, te które je zmniejszają zostają na ogół odrzucane, choć czasem (w sposób losowy) są również akceptowane, co pomaga uniknąć wpadnięcia drzewa w ,,lokalne optimum''. Domyślnie prowadzone są obliczenia dla dwóch drzew, które są porównywane ze sobą. Obliczenia kończą się, automatycznie lub decyzją użytkownika (parametr stoprule
) kiedy różnice między nimi spadną poniżej określonego poziomu (parametr stopval
) albo zostanie przekroczona ustawione liczna pokoleń (parametr ngen
).MrBayes
umożliwia pracę w dwu trybach - obu tekstowych. W pierwszym uruchamiamy program (polecenie mb
) a następnie wprowadzamy kolejno komendy i ustawiamy parametry obliczeń. W drugim trybie przygotowujemy wszystko w odpowiednio sformatowanych plikach, które program odczytuje i uruchamia proces generowania drzewa. Przyjrzymy się drugiej metodzie.mrbayes
. Skopiuj do niego plik z sekwencjami ccmFn.fasta
mrbayes
, użyjemy w tym celu IQ-TREE
(zob. poprzedni rozdział).GTR+F+G4
czyli GTR
+ gamma
.FASTA
do formatu Nexus
. Można do tego wykorzystać program AliView
. Otwórz w nim plik ccmFn.fasta
, następnie wybierz z menu File->Save as Nexus
. Należy pamiętać, że mrBayes
jest wrażliwy na ,,niewłaściwe'' znaki znajdujące się w opisach sekwencji co może prowadzić do błędów po uruchomieniu obliczeń. Zatem jeśli nie ma pewności, że używamy wyłącznie dozwolonych znaków, lepiej wybrać przy eksporcie opcję Save as Nexus (illegal name chars replaced by _ (e.g. for MrBayes)
.ccmFn.nexus
, otwórz go w edytorze tekstu, zobacz jak zapisane są w nim dane.mrBayes.bay
o treści:execute ccmFn.nexus
- wczytanie pliku z sekwencjamioutgroup Cycas_taitungensis_NC_010303
- wskazanie outgrupylset applyto=(all) nst=6 rates=gamma
- ustawienie modelu substytucji GTR+G+I
mcmcp ngen=1000000
- liczba pokoleńmcmcp stoprule = yes
- obliczenia zatrzymają się gdy wartość różnice pomiędzy generowanymi drzewami spadną poniżej określonego poziomu (zob. poniżej)mcmcp stopval = 0.01
- wartość graniczna dla opcji stoprule
mcmcp savebrlens=yes
- zapisanie długości gałęzi drzewa w pliku wynikowymmcmc
- uruchomienie obliczeńsumt
- zapis wynikówhelp
w trybie interaktywnym).mrBayes
można znaleźć np. tutaj. Niestety modele oparte na GTR
wyświetlają się pod tym linkiem nieczytelnie. Warto kliknąć w przycisk Raw
znajdujący się na pasku powyżej zawartości pliku. Innym miejscem, w którym opisano kodowanie modeli substytucji m. in. w mrBayes
jest blog PhyloBotanist..tre
. Otwórz plik w programie FigTreeNode Labels
ustaw parametr Display
na prob
z liczbą znaków znaczących (Sig. Digits
) na 2. Ukorzeń drzewo i ustaw parametry wyświetlania.ccmFn.nexus.con.tre
). Jego format bardziej skomplikowany niż pliki w formacie newick
, które analizowaliśmy wcześniej. Jest to format Nexus
. Zawiera on też więcej danych, m. in. różne wartości statystyczne opisujące gałęzie. Niestety, wiele programów nie jest ich w stanie odczytać. Można plik wynikowy zapisać w prostszym, bardziej uniwersalnym formacie dodając w linii z komendą sumt
odpowiednią opcję:end;
z końca pliku.