Strony: [1]
  Drukuj  
Autor Wątek: różne kodony w różnych organizmach  (Przeczytany 1591 razy)
Behoston
Administrator
Sr. Member
*****
Wiadomości: 374


277797 mati-20
Zobacz profil WWW Email
« : Marca 23, 2015, 03:46:23 »

Zadanie polega na sprawdzeniu procentowej ilości użycia różnych kodonów seryny/leucyny/argininy w rodzinie białek X u organizmów z gatunków A,B,C,...
Wynik dla np. Argininy: AGA(70%,10%,20%),AGG(10%,50%,60%)...
dane wejściowe będzie trzeba podać (łatwiejsze dla nas i dla usera) lub aktualizować sprawdzanie wyniku (zależne od implementacji naszego portalu, na pewno bardziej rzetelne i profesjonalne ale sporo trudniejsze dla usera < koniecznie dopisać dokładne wskazówki jak dojść do tych białek które nas interesują)

Zadanie raczej z grupy średniej (dane wejściowe dajemy) lub powyżej średniej (kiedy każemy grzebać w bazach danych i wyciągać dokładnie to co mieliśmy na myśli)

Zakładam, że zadanie nie napotka żadnego VETO bo jest stricte bioinformatyczne i output można podać w formie stringu.

Więc korzystając z przywileju rezerwuję i biorę się do roboty.
« Ostatnia zmiana: Marca 29, 2015, 08:59:13 wysłane przez maciosz » Zapisane

Ilu bioinformatyków potrzeba do wkręcenia żarówki? Żadnego, bo i tak nie ma prądu.
Behoston
Administrator
Sr. Member
*****
Wiadomości: 374


277797 mati-20
Zobacz profil WWW Email
« Odpowiedz #1 : Marca 24, 2015, 09:53:58 »

Zaczynam!

W komórkach istnieje cała masa różnorodnych #białek w nieraz olbrzymich ilościach. Jednak skądś te białka w komórce muszą się brać. Składniki białek w dużym uogólnieniu pobierane są ze środowiska (pożywienie) a następnie podlegają przekształceniom (nie będziemy teraz o tym mówić). Białka nie powstają same z siebie, gdzieś musi być zapisana informacja o tym jak je poskładać z pobranych cząsteczek. Informacja ta jest #zakodowana na #DNA według specjalnego #kodu_trójkowego. Jako że w DNA występują 4 różne #nukleotydy to można zapisać 4^3 różnych informacji. Jednakże w komórkach występuje zaledwie 20* różnych cząsteczek składowych białek - aminokwasów. Co oznacza, że część może być po prostu nie używana. Jednak w praktyce na jeden aminokwas może być kodowany przez kilka różnych trójek. W związku z tym organizmy mają większą dowolność w doborze zapisu informacji, jednak nie decydują się na tą dowolność w 100% (czyli jeśli na jeden aminokwas przypada kilka trójek to nie występują w takiej samej ilości). Dzięki statystycznemu badaniu frekwencji różnych trójek możliwe jest uzyskanie dodatkowych informacji o np. #filogenezie.

W tym zadaniu zajmiemy się szczególnym białkiem - białkiem #histonu H1, na które nawijana jest nić DNA w jądrze, a co za tym idzie występuje u wszystkich organizmów #eukariotycznych.
Zadanie można podzielić na dwie główne części:
1. Zdobycie danych do analizy
2. Napisanie programu analizującego

CZĘŚĆ PIERWSZA
Jak zapewne wiesz istnieje wiele biologicznych baz danych. W tym zadaniu będziemy potrzebować sekwencji nukleotydowej białka więc użyjemy bazy EMBL-EBI ENA.
Znajdź sekwencje kodujące histon H1 u organizmów:

Linki jako podpowiedź, to gdzie się znajdą zależy od ostatecznej wersji serwisu, choć można by dać linki lub nawet sekwencje od razu, bo wszyscy doskonale wiemy jak sprawa z bazami danych wygląda...
Następnie zapisz je sobie w odpowiadającym Ci formacie. Do tego ćwiczenia będzie potrzebna sama sekwencja, więc polecamy format FASTA.

Aby przygotowania były kompletne znajdź w internecie lub książce od biologii tabelkę kodonów. Na jej podstawie będziesz pisał program do analizy.

CZĘŚĆ DRUGA (właściwa)
Kiedy masz już odpowiednie dane na których będziesz pracował czas zabrać się za napisanie programu.
Na wstępie warto zaznaczyć, że zakładamy najprostszą wersję (jako że sekwencje są już pobrane z bazy danych a nie z doświadczenia) czyli zakładamy tylko pierwszą #ramkę_odczytu.
Twoim zadaniem jest zliczenie frekwencji kodonów dla każdego aminokwasu.
Aminokwasy i kodony uszereguj alfabetycznie.
Wyjście ma mieć postać:
Kod:
[ [ [2, 16, 7, 0], [6, 4, 18, 9, 0], ... ], ...]


*może występować więcej, ale na ogół podstawą jest dwadzieścia. To uogólnienie jest wystarczające dla potrzeb naszego zadania.

Ok, to teraz biorę się za pisanie skryptu. Może jeszcze jakieś organizmy po drodze się załapią na to zadanie bo 3 to moim zdaniem trochę mało :/
« Ostatnia zmiana: Marca 28, 2015, 05:24:25 wysłane przez Behoston » Zapisane

Ilu bioinformatyków potrzeba do wkręcenia żarówki? Żadnego, bo i tak nie ma prądu.
Behoston
Administrator
Sr. Member
*****
Wiadomości: 374


277797 mati-20
Zobacz profil WWW Email
« Odpowiedz #2 : Marca 28, 2015, 04:34:03 »

Gotowe.
Może dodam jakieś organizmy (mam gotowy algorytm dla dowolnej ilości organizmów byle by format był FASTA i w sumie wyszedł całkiem przyzwoity dla poprawnych danych, nie zaśmieca pamięci i jest "obiektowy").
Zmieniłem koncepcję na samo zliczanie bo z zaokrągleniem mógłby być problem. Starałem się żeby była jedna linijka tekstu do odpowiedzi.
« Ostatnia zmiana: Marca 28, 2015, 05:27:20 wysłane przez Behoston » Zapisane

Ilu bioinformatyków potrzeba do wkręcenia żarówki? Żadnego, bo i tak nie ma prądu.
maciosz
Administrator
Hero Member
*****
Wiadomości: 726


5564019
Zobacz profil Email
« Odpowiedz #3 : Marca 29, 2015, 08:59:04 »

Chcę tylko upewnić się czy dobrze rozumiem format wyjścia: mam listę list list, która ma tyle elementów, ile organizmów, lista dla danego organizmu ma 20 list i każda odpowiada aminokwasowi z listy uszeregowanej alfabetycznie (po skrótach jednoliterowych czy całych nazwach? czepianie się, ale niestety istotne Mrugnięcie ), a każda lista aminokwasu zawiera listę o długości równej liczbie kodonów dla danego aminokwasu?
Spoko Orinoko. Zastanawiam się w sumie, jak dużo wstępu biologicznego pisać w samym zadaniu, a ile zostawiać na definicje w hasztagach, na razie w sumie często się rozpisywaliśmy w samym zadaniu, a nie wiem czy to dobrze. Mam wrażenie, że tak. Może przy samym faktycznym testowaniu (już na serwerze) tester stwierdzi, że wstęp biologiczny jest za długi/za krótki i wtedy się część textu utnie/doda.
Zapisane

Chaos zawsze pokonuje porządek, gdyż jest lepiej zorganizowany.
Terry Pratchett
Strony: [1]
  Drukuj  
 
Skocz do:  


SimplePortal 2.3.1 © 2008-2009, SimplePortal