Analiza genoma primjenom bioinformatičkih alata (269074)
Course coordinator
Course description
Kolegij Analiza genoma primjenom bioinformatičkih alata nudi praktičan uvod u tehnologiju nove generacije sekvenciranja i naprednu upotrebu računala za obradu i analizu cijele sekvence genoma te interpretaciju osnovnih analiza. Ishodi učenja fokusirani su na razvoju iskustva u primjeni bioinformatičkih alata na operativnom sustavu Linux i poznavanju formata u procesima obrade i analize sekvence genoma. Također, ne manje važan je i tehnički aspekt rukovanja velikim podatkovnim datotekama, kao što je sekvenca genoma koja po uzorku/jedinci može iznositi i 60 GB, te posljedično rad na udaljenim računalima (klasterima) s dovoljno resursa za obradu i analizu istog. Isto tako, kolegij je predložen i kao odgovor na zahtjeve tzv. genomske ere tj. razvoj i sve veću primjenu tehnologije nove generacije sekvenciranja u prirodnim znanostima, a posljedično i sve više dostupnih velikih podataka. Kolegij je od važnosti za bolje razumijevanje i implementaciju nadolazećih tehnologija sekvenciranja i analiza genoma. Spomenute metode su općenito primjenjive u području biotehnologije, neovisno o vrsti organizma koji se proučava kako bi se moglo odgovoriti na specifična istraživačka pitanja.
Type of course
- Diplomski studij / Genetika i oplemenjivanje životinja (Elective course, 2 semester, 1 year)
ECTS: 4.00
English language: L1
E-learning: L1
Teaching hours: 40
Lectures: 20
Practicum: 20
Lecturer
Associate teacher for exercises
Grading
Sufficient (2): 60-70%
Good (3): 71-80%
Very good (4): 81-90%
Excellent (5): 91-100%
Conditions for obtaining signature
Redovito pohađanje nastave. Izostanak s predavanja ili vježbi potrebno je nadoknaditi zadatkom iz odgovarajuće nastavne jedinice.
General competencies
Cilj ovog kolegija je upoznati studente s primjenom tehnologije sekvenciranja nove generacije kroz razumijevanje procesa i formata u obradi i analizi sekvence genoma. Studenti će naučiti kako instalirati Linux operativni sustav na osobno računalo te osnovne naredbe u komandnoj liniji kako bi mogli instalirati i primjenjivati bioinformatičke alate u obradi i analizu sekvence genoma te interpretaciji osnovnih analiza. Također, studenti će biti upoznati s uslugom naprednog računanja na udaljenim računalima/klasterima Sveučilišnog računskog centra. Za potrebe korištenja klastera studentima će biti kreirani korisnički računi te će naučiti kako se spajati na iste te primijeniti bioinformatičke alate i naučiti kako definirati potrebne resurse za izvođenje reda poslova kroz obradu i analizu sekvenci genoma.
Types of instruction
- Predavanja
- Vježbe
Learning outcomes
Learning outcome | Evaluation methods |
---|---|
Razumijevanje tehnologije sekvenciranja nove generacije. | |
Razumijevanje procesa i formata u obradi i analizi sekvence genoma. | |
Primjena Linux operativnog sustava u obradi i analizi sekvence genoma. | |
Primjena bioinformatičkih alata u obradi i analizi sekvence genoma. | |
Razumijevanje i primjena usluge naprednog računanja Sveučilišnog računskog centra – SRCE. | |
Interpretacija osnovnih analiza seta obrađenih sekvenci genoma na primjeru specifične regije ili gena na genomu. |
Working methods
Students' obligations
Pohađati predavanja i vježbe, samostalno rješavati zadatke na vježbama, čitati odabrane znanstvene radove i prezentirati ih.
Weekly class schedule
- Opis i primjena sekvenciranja nove generacije (engl. Next generation sequencing - NGS) iliti tehnologije masivnog paralelnog sekvenciranja.
- Opis ključnih procesa u NGS obradi i analizi sekvenci cijelog genoma: a) provjera kvalitete odsekvencirane sekvence genoma (.fastq format), b) čišćenje sekvence prema parametrima kvalitete sekvenciranja, c) mapiranje i vizualizacija sekvence genoma jedinke na referentni genom, d) određivanje dubine i duljine pokrivenosti mapiranog genoma, e) filtriranje mapiranih odsječaka prema parametrima kvalitete, f) utvrđivanje i vizualizacija varijabilnih/polimornih mjesta (.vcf format - engl. variant call format), g) anotacija varijabilnih/polimornih mjesta u svrhu identifikacije varijabilnih mjesta koja su relevantna za studije bolesti, važna fenotipska svojstva, populacijsku genetiku i evoluciju.
- Opis i vizualizacija formata u obradi sekvence genoma (.fastq, .sam, .sai, .bam, .bai, .vcf, .bed, .fasta, .fai, .dict, SRA ).
- Postavljanje računala za NGS analizu podataka: a) Opis Linux operacijskog sustava u bioinformatičkim analizama, b) instalacija Windows podsistema za Linux (engl. Windows Subsystem for Linux – WSL) na osobna računala s Windows 10 ili Windows 11 operativnim sustavima.
- Osnovne naredbe u komandnoj liniji Linux operativnog sustava: kreiranje novog direktorija, ispis sadržaja direktorija, promjena pozicije u datotečnom sustavu, provjera trenutne putanje direktorija u kojem se nalazimo, kopiranje datoteka iz jedne lokacije u drugu, brisanje datoteka, korištenje NANO - linijski orijentiranog uređivača teksta, primjer petlje za automatizaciju ponavljajućih zadataka, pregled sadržaja datoteke i slično.
- Instalacija i upoznavanje s bioinformatičkim alatima za obradu i analizu sekvence genoma (Conda, FastQC, IGV, BWA, BBMap, Samtools, Picard, VCFtools, BCFtools, GATK4, Bedtools, SnpEff) (1. dio).
- Instalacija i upoznavanje s bioinformatičkim alatima za obradu i analizu sekvence genoma (Conda, FastQC, IGV, BWA, BBMap, Samtools, Picard, VCFtools, BCFtools, GATK4, Bedtools, SnpEff) (2. dio).
- Primjena obrade i analize sekvenci genoma na windows podsistemu za Linux na osobnom računalu (1. dio).
- Primjena obrade i analize sekvenci genoma na windows podsistemu za Linux na osobnom računalu (2. dio).
- Predstavljanje usluge naprednog računanja uz opis računalnih sustava i okruženja za rješavanje resursno zahtjevnih izazova na Sveučilišnom računskom centru SRCU kao što su računalni klaster Supek, Vrančić, Padobran i Galaxy platforma.
- Stvaranje korisničkog računa studentima za pristup računalnom klasteru Padobran i Galaxy platformu u svrhu obrade i analize sekvenci. Poduka osnovama spajanja na Padobran putem ssh protokola komandne linije, kopiranja/prijenosa sekvenci uporabom protokola SCP ili FTP te pokretanje reda poslova uz definiranje resursa potrebnih za analize.
- Primjena obrade i analize sekvence na Galaxy platformi (1. dio).
- Primjena obrade i analize sekvence na Galaxy platformi (2. dio).
- Interpretacija osnovnih analiza seta obrađenih sekvenci na primjeru regije ili gena na određenom kromosomu genoma ili na mitogenomu kroz: a) anotacija varijabilnih/polimornih mjesta, b) određivanje nukleotidne raznolikosti, c) procjene udaljenosti populacije FST statistikom, d) određivanje raznolikosti haplotipova. (1. dio)
- Interpretacija osnovnih analiza seta obrađenih sekvenci na primjeru regije ili gena na određenom kromosomu genoma ili na mitogenomu kroz: a) anotacija varijabilnih/polimornih mjesta, b) određivanje nukleotidne raznolikosti, c) procjene udaljenosti populacije FST statistikom, d) određivanje raznolikosti haplotipova. (2. dio)
Obligatory literature
- Prezentacije predavanja doc. dr. sc. Vladimira Brajković, prof. dr. sc. dr. h. c. Ine Čurika, dr. sc. Dalibora Hršaka, znanstvenog suradnika
- Izbor preglednih znanstvenih radova (do 5 aktualnih radova iz područja) prema odabiru doc. dr. sc. Vladimira Brajkovića
- Ismail H. D. (2023). Bioinformatics: A Practical Guide to Next Generation Sequencing Data Analysis. CRC Press.
Recommended literature
- Kappelmann-Fenzl M. (2021). Next generation sequencing and data analysis. Springer International Publishing.
- Elkins, K. M., Zeller, C. B. (2021). Next generation sequencing in forensic science: a primer. CRC Press.