Bioinformatyka UW Forum

Koło Naukowe => Portal z zadaniami => Wątek zaczęty przez: Behoston Marca 23, 2015, 03:46:23



Tytuł: różne kodony w różnych organizmach
Wiadomość wysłana przez: Behoston Marca 23, 2015, 03:46:23
Zadanie polega na sprawdzeniu procentowej ilości użycia różnych kodonów seryny/leucyny/argininy w rodzinie białek X u organizmów z gatunków A,B,C,...
Wynik dla np. Argininy: AGA(70%,10%,20%),AGG(10%,50%,60%)...
dane wejściowe będzie trzeba podać (łatwiejsze dla nas i dla usera) lub aktualizować sprawdzanie wyniku (zależne od implementacji naszego portalu, na pewno bardziej rzetelne i profesjonalne ale sporo trudniejsze dla usera < koniecznie dopisać dokładne wskazówki jak dojść do tych białek które nas interesują)

Zadanie raczej z grupy średniej (dane wejściowe dajemy) lub powyżej średniej (kiedy każemy grzebać w bazach danych i wyciągać dokładnie to co mieliśmy na myśli)

Zakładam, że zadanie nie napotka żadnego VETO bo jest stricte bioinformatyczne i output można podać w formie stringu.

Więc korzystając z przywileju rezerwuję i biorę się do roboty.


Tytuł: Odp: różne kodony w różnych organizmach
Wiadomość wysłana przez: Behoston Marca 24, 2015, 09:53:58
Zaczynam!

W komórkach istnieje cała masa różnorodnych #białek w nieraz olbrzymich ilościach. Jednak skądś te białka w komórce muszą się brać. Składniki białek w dużym uogólnieniu pobierane są ze środowiska (pożywienie) a następnie podlegają przekształceniom (nie będziemy teraz o tym mówić). Białka nie powstają same z siebie, gdzieś musi być zapisana informacja o tym jak je poskładać z pobranych cząsteczek. Informacja ta jest #zakodowana na #DNA według specjalnego #kodu_trójkowego. Jako że w DNA występują 4 różne #nukleotydy to można zapisać 4^3 różnych informacji. Jednakże w komórkach występuje zaledwie 20* różnych cząsteczek składowych białek - aminokwasów. Co oznacza, że część może być po prostu nie używana. Jednak w praktyce na jeden aminokwas może być kodowany przez kilka różnych trójek. W związku z tym organizmy mają większą dowolność w doborze zapisu informacji, jednak nie decydują się na tą dowolność w 100% (czyli jeśli na jeden aminokwas przypada kilka trójek to nie występują w takiej samej ilości). Dzięki statystycznemu badaniu frekwencji różnych trójek możliwe jest uzyskanie dodatkowych informacji o np. #filogenezie.

W tym zadaniu zajmiemy się szczególnym białkiem - białkiem #histonu H1, na które nawijana jest nić DNA w jądrze, a co za tym idzie występuje u wszystkich organizmów #eukariotycznych.
Zadanie można podzielić na dwie główne części:
1. Zdobycie danych do analizy
2. Napisanie programu analizującego

CZĘŚĆ PIERWSZA
Jak zapewne wiesz istnieje wiele biologicznych baz danych. W tym zadaniu będziemy potrzebować sekwencji nukleotydowej białka więc użyjemy bazy EMBL-EBI ENA (http://www.ebi.ac.uk/ena).
Znajdź sekwencje kodujące histon H1 u organizmów:

Linki jako podpowiedź, to gdzie się znajdą zależy od ostatecznej wersji serwisu, choć można by dać linki lub nawet sekwencje od razu, bo wszyscy doskonale wiemy jak sprawa z bazami danych wygląda...
  • Muszka owocowa (Drosophila Melanogaster) http://www.ebi.ac.uk/ena/data/view/X04073 (http://www.ebi.ac.uk/ena/data/view/X04073)
  • Rzodkiewnik (Arabidopsis Thaliana) http://www.ebi.ac.uk/ena/data/view/AF360211 (http://www.ebi.ac.uk/ena/data/view/AF360211)
  • Człowiek(Homo Sapiens) http://www.ebi.ac.uk/ena/data/view/AF531300 (http://www.ebi.ac.uk/ena/data/view/AF531300)
Następnie zapisz je sobie w odpowiadającym Ci formacie. Do tego ćwiczenia będzie potrzebna sama sekwencja, więc polecamy format FASTA.

Aby przygotowania były kompletne znajdź w internecie lub książce od biologii tabelkę kodonów. Na jej podstawie będziesz pisał program do analizy.

CZĘŚĆ DRUGA (właściwa)
Kiedy masz już odpowiednie dane na których będziesz pracował czas zabrać się za napisanie programu.
Na wstępie warto zaznaczyć, że zakładamy najprostszą wersję (jako że sekwencje są już pobrane z bazy danych a nie z doświadczenia) czyli zakładamy tylko pierwszą #ramkę_odczytu.
Twoim zadaniem jest zliczenie frekwencji kodonów dla każdego aminokwasu.
Aminokwasy i kodony uszereguj alfabetycznie.
Wyjście ma mieć postać:
Kod:
[ [ [2, 16, 7, 0], [6, 4, 18, 9, 0], ... ], ...]


*może występować więcej, ale na ogół podstawą jest dwadzieścia. To uogólnienie jest wystarczające dla potrzeb naszego zadania.

Ok, to teraz biorę się za pisanie skryptu. Może jeszcze jakieś organizmy po drodze się załapią na to zadanie bo 3 to moim zdaniem trochę mało :/


Tytuł: Odp: różne kodony w różnych organizmach
Wiadomość wysłana przez: Behoston Marca 28, 2015, 04:34:03
Gotowe.
Może dodam jakieś organizmy (mam gotowy algorytm dla dowolnej ilości organizmów byle by format był FASTA i w sumie wyszedł całkiem przyzwoity dla poprawnych danych, nie zaśmieca pamięci i jest "obiektowy").
Zmieniłem koncepcję na samo zliczanie bo z zaokrągleniem mógłby być problem. Starałem się żeby była jedna linijka tekstu do odpowiedzi.


Tytuł: Odp: różne kodony w różnych organizmach
Wiadomość wysłana przez: maciosz Marca 29, 2015, 08:59:04
Chcę tylko upewnić się czy dobrze rozumiem format wyjścia: mam listę list list, która ma tyle elementów, ile organizmów, lista dla danego organizmu ma 20 list i każda odpowiada aminokwasowi z listy uszeregowanej alfabetycznie (po skrótach jednoliterowych czy całych nazwach? czepianie się, ale niestety istotne ;) ), a każda lista aminokwasu zawiera listę o długości równej liczbie kodonów dla danego aminokwasu?
Spoko Orinoko. Zastanawiam się w sumie, jak dużo wstępu biologicznego pisać w samym zadaniu, a ile zostawiać na definicje w hasztagach, na razie w sumie często się rozpisywaliśmy w samym zadaniu, a nie wiem czy to dobrze. Mam wrażenie, że tak. Może przy samym faktycznym testowaniu (już na serwerze) tester stwierdzi, że wstęp biologiczny jest za długi/za krótki i wtedy się część textu utnie/doda.


SimplePortal 2.3.1 © 2008-2009, SimplePortal