Informacija

Genetsko mapiranje temeljeno na rekombinaciji naspram sekvenci

Genetsko mapiranje temeljeno na rekombinaciji naspram sekvenci


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Sada kada sekvenciranje postaje sve jeftinije, kolika je vrijednost genetskog mapiranja temeljenog na rekombinaciji u odnosu na genetsko mapiranje temeljeno na sekvenci?

Mislim da su se u prošlosti genetske karte temeljene na rekombinaciji koristile kao nacrti za projekte sekvenciranja. No budući da se sada cijeli genom može sekvencionirati prilično jeftino i u vremenu i u novcu, koja je jedinstvena vrijednost genetskog mapiranja temeljenog na rekombinaciji?

Jedna stvar koja mi pada na pamet ali nisam baš sigurna. Mogao bi biti prikladan za mapiranje novih fenotipskih biljega, npr. nemapiranih bolesti.


Prije nekoliko mjeseci slušao sam biljnog fiziologa koji je snažno preporučio mapiranje temeljeno na rekombinaciji u odnosu na mapiranje temeljeno na sekvenciranju. Glavni razlog koji je naveo bila je stopa pogreške sekvenciranja 2. generacije. Stopa pogreške na Illumina platformama je oko 1% ako se sjećam. U malom genomu poput onog Arabidopsis thaliana (157 Mbp) koji čini više od milijun grešaka u sekvenciranju. To se naravno može smanjiti odgovarajućom dubinom sekvenciranja i korištenjem konsenzusnog slijeda. Ali i dalje može uzrokovati probleme ako pratite fenotip uzrokovan SNV-om. U biljkama kao što je A. thaliana gdje se povratno križanje može koristiti za stvaranje homozigotnih biljaka, tehnike temeljene na rekombinaciji mogu biti posebno učinkovite.

Ali on je govorio iz stajališta biljnog fiziologa dok je radio s A. thaliana kao uzornim organizmom. Kada radite s ljudima koji su uvijek heterozigoti, ne mogu se križati, nemaju generacijsko vrijeme od šest tjedana i gdje će veličine uzoraka vjerojatno biti male, pretpostavljam da je situacija drugačija. Klasični genetičari koji rade s ljudskim bolestima o kojima sam govorio izrazili su bojazan da će njihov rad uskoro zastarjeti zbog pada cijena sekvenciranja i rastućih zbirki podataka o sekvencijama.


Genotipizacija sekvenciranjem

Povijesno gledano, pristupi probiru polimorfizma jednog nukleotida (SNP) temeljeni na nizu bili su metoda izbora u analizi i povezivanju osobina s regijama genoma za mnoge biljke i životinje. Kako troškovi sekvenciranja i dalje opadaju, istraživači razvijaju nove pristupe koji koriste sekvenciranje sljedeće generacije (NGS) za genotipizaciju.

Genotipizacija sekvenciranjem ili genotipizacija sljedeće generacije je metoda genetskog probira za otkrivanje novih biljnih i životinjskih SNP-a i provođenje studija genotipizacije. Za neke primjene, kao što su probir genotipa i genetsko mapiranje, genotipizacija temeljena na sekvenci pruža jeftiniju alternativu nizovima za proučavanje genetskih varijacija.

Genotipizacija sekvenciranjem u 3 jednostavna koraka

Slijedite unaprijed određena područja genetske varijacije na mnogim uzorcima s ovim sveobuhvatnim rješenjem tijeka rada.

Prednosti genotipizacije sekvenciranjem

  • Sekvence su unaprijed odredile područja genetske varijacije u mnogim uzorcima
  • Omogućuje nisku cijenu po uzorku za određene primjene
  • Smanjuje pristranost utvrđivanja u usporedbi s nizovima
  • Identificira varijante osim SNP-a, uključujući male umetke, delecije i mikrosateliti
  • Omogućuje usporedne analize uzoraka u nedostatku referentnog genoma
  • Obavještava o genetskom mapiranju, probiru povratnih križnih linija, testiranju čistoće, izradi karata haplotipa, mapiranju asocijacija i genomskom odabiru za biljne studije

Genotipizacija sekvenciranjem za velike genome (> 5 Mb)

Genotipizacija sekvenciranjem je isplativa za populacije sa složenim genomima ili ograničenim raspoloživim resursima. Tehnike uključuju ciljano sekvenciranje temeljeno na amplikonu, sekvenciranje obogaćivanja temeljeno na hibridizaciji i genotipiziranje na temelju sekvence smanjene reprezentacije restrikcijskim enzimom.

  • Referentni genom
  • Uzorci velike raznolikosti
  • Fino podešena pokrivenost preko multipleksiranih uzoraka
  • Pretvarač datoteka varijantnog formata poziva (VCF).
  • Tolerancija dvosmislenosti u detekciji heterozigota i provjerama redundancije radi minimiziranja lažnih pozitivnih rezultata

Genotipizacija metodama sekvenciranja

Razvijeni su različiti pristupi genotipizaciji koji se temelje na sekvenciji. 1–4 Metode obogaćivanja korisne su za biljke koje često sadrže duplicirana područja genoma. Metode restrikcijskih enzima su korisne za vrste za koje nema prethodnog znanja o genomu.

Genotipizacija metodama sekvenciranja

Preporučeni tijek rada za genotipizaciju sekvenciranjem

Priprem za knjižnicu
TruSeq genotip Ne Kit

Potpuno prilagodljivo, ciljano rješenje za genotipizaciju sekvenciranjem bilo koje neljudske životinjske ili biljne vrste.

Sekvenciranje
Sustav MiSeq

Brzina i jednostavnost za ciljano i malo sekvenciranje genoma.

Analiza podataka
Lokalni Run Manager

Lokalno softversko rješenje za kreiranje sekvenciranja, praćenje statusa pokretanja i analizu podataka.

Sažetak izvješća analize

Male varijante i sažetak pokrivenosti

Istaknuto genotipiziranje istraživanjem sekvenciranja

Genotipizacija sekvenciranjem omogućuje selektivni uzgoj stada koza

Istraživačka skupina sa sjedištem u Novom Zelandu koristi GBS kako bi prevladala prepreke troškova i resursa povezanih s genomskom selekcijom za usjeve siročad i manje vrste stoke.

Revitalizacija ribljih populacija NGS-om

Znanstvenici su razvili genotipiziranje u tisućama sekvenciranjem (GT-Seq) za genotipiziranje tisuća riba istovremeno.

Genotipizacija sekvenciranjem i transkriptomijom

Autori ove studije koristili su genotipizaciju sekvenciranjem za proučavanje usjeva s različitim razinama ploidnosti.

Genotipizacija sekvenciranjem u agrigenomici

Za neke primjene, genotipizacija temeljena na slijedu pruža jeftiniju alternativu mikromrežama u izvođenju studija genetskih varijacija. Ova aplikacija u središtu pozornosti opisuje prednosti i ograničenja nekoliko genotipiziranja metodama sekvenciranja.

Sveobuhvatan tijek rada za genotipizaciju sekvenciranjem

Illumina sekvencioniranje putem sinteze (SBS) kemija je najšire prihvaćena NGS tehnologija koja generira približno 90% globalnih podataka sekvenciranja.*

Illumina nudi integrirane radne tijekove sekvenciranja koji pojednostavljuju cijeli proces, od pripreme knjižnice do analize podataka i biološke interpretacije.

Kliknite na dolje za pregled proizvoda za svaki korak tijeka rada.

Postignite dosljednu izvedbu genotipizacije iz sadržaja koji su osmislile usluge Illumina Concierge. Raspitajte se o uslugama Illumina Concierge.

Potpuno prilagodljivo, ciljano rješenje za genotipizaciju sekvenciranjem bilo koje neljudske životinjske ili biljne vrste.

Priprema biblioteke za male genome (bakterije, arheje, viruse), amplikone i plazmide za manje od 90 minuta.

Odredite najbolji komplet za svoje potrebe na temelju vrste projekta, početnog materijala i metode ili primjene.

Biblioteka za pripremu i odabir niza

Brzina i jednostavnost za ciljano i malo sekvenciranje genoma.

Revolucionarni stolni sekvenceri omogućuju vam istraživanje novih otkrića u raznim trenutnim i novim aplikacijama, s većom učinkovitošću i manje ograničenja.

Skalabilna propusnost i fleksibilnost za gotovo svaki genom, metodu sekvenciranja i opseg projekta.

Usporedite platforme za sekvenciranje i identificirajte najbolji sustav za vaš laboratorij i aplikacije.

Pronađite komplete koji uključuju reagense za sekvenciranje, protočne ćelije i/ili pufere prilagođene svakom sustavu sekvenciranja Illumina.

Lokalno softversko rješenje za kreiranje sekvenciranja, praćenje statusa pokretanja i analizu podataka.

Usklađuje uzorke (sastoje se od FASTQ datoteka) s referentnim genomom.

Brzo izdvaja biološke informacije iz sekvenci cijelog genoma, koristeći Isaacovo poravnanje i pozivanje varijanti.

Računalno okruženje Illumina genomics za NGS analizu i upravljanje podacima.

Rastuća biblioteka kuriranih genomskih podataka za podršku istraživačima u identificiranju mehanizama bolesti, ciljeva lijekova i biomarkera.

Genotipizacija sekvenciranjem za male genome (≤ 5 Mb)

Za male genome (npr. Drosophila) ili istraživačke vrste visokog profila (npr. Arabidopsis), genotipizacija i probir varijanti mogu se dovršiti korištenjem standardnih metoda sekvenciranja cijelog genoma ili metoda ponovnog sekvenciranja u odnosu na referencu. Niskodubinsko sekvenciranje može se koristiti za filogenetičke ili komparativne analize.

Povezana rješenja

Sekvenciranje biljaka i životinja

NGS tehnologija može koristiti poljoprivrednim studijama biljaka i životinja, bilo da se za to koristi de novo sekvenciranje, analiza transkriptoma, genotipizacija sekvenciranjem ili metagenomija. Saznajte više o sekvenciranju biljaka i životinja.

Komercijalna poljoprivreda

Primjena genomike u komercijalnoj poljoprivredi pomaže uzgajivačima i istraživačima u obavljanju probira osobina, testiranja roditeljstva i još mnogo toga. Saznajte više o komercijalnoj poljoprivredi i genomici.

Zainteresirani ste za primanje biltena, studija slučaja i informacija o tehnikama genomske analize? Upisite svoju email adresu.
Reference
  1. Mamanova L, Coffey AJ, Scott CE, et al. Strategije obogaćivanja cilja za sekvenciranje sljedeće generacije.Nat metode. 20107:111-118.
  2. Liu S, Yeh CT, Tang HM, Nettleton D, Schnable PS. Mapiranje gena putem skupne segregantne RNA-Seq (BSR-Seq).PLoS One. 20127:e36406.
  3. Cronn R, Knaus BJ, Liston A, et al. Ciljane strategije obogaćivanja za biljnu biologiju sljedeće generacije.Am J Bot. 201299:291-311.
  4. Andolfatto P, Davison D, Erezyilmaz D, et al. Multipleksirana genotipizacija za brzo i učinkovito genetsko mapiranje.Genom Res. 201121:610-617.

*Izračuni podataka u datoteci. Illumina, Inc., 2015

Samo za istraživačku upotrebu

Nije za upotrebu u dijagnostičkim postupcima osim kako je izričito navedeno.

Inovativne tehnologije

U Illumini, naš je cilj primijeniti inovativne tehnologije na analizu genetskih varijacija i funkcija, čineći moguće studije koje prije samo nekoliko godina nisu bile niti zamislive. Za nas je ključna misija isporučiti inovativna, fleksibilna i skalabilna rješenja koja će zadovoljiti potrebe naših kupaca. Kao globalna tvrtka koja visoko cijeni međusobne interakcije, brzu isporuku rješenja i pružanje najviše razine kvalitete, nastojimo odgovoriti na ovaj izazov. Illumina inovativne tehnologije sekvenciranja i niza potiču revolucionarni napredak u istraživanju znanosti o životu, translacijskoj i potrošačkoj genomici i molekularnoj dijagnostici.


Rezultati

B1 supresija osjetke povezana je s testnom težinom, klasicima po klasu i težinom zrna

Od 640 linija procijenjenih u istočnom panelu meke ozime pšenice, 58% je imalo osjeda. Mapiranje asocijacija korištenjem 14 567 GBS markera identificiralo je 30 markera značajno povezanih (prilagođeno P-vrijednost < 0,01) s prisutnošću ili odsutnošću osti (tablica S5). Značajni markeri bili su smješteni distalno na dugom kraku kromosoma 5A, u skladu s lokacijom B1 supresor osjeta (slika 1). Poravnavanje markera prema IWGSC RefSeqv1.0 kineske jare pšenice postavilo je B1 lokus u području od 25 Mb između 681 455 268 bp i 706 705 101 bp. SNP smješten na 698 528 417 bp na kromosomu 5A (5A28417) bio je vrlo značajan (P-vrijednost = 7 × 10 −57 ) i zajedno sa segregiranim statusom osi u ovom skupu linija. Analiza povezanosti povijesnih podataka za testnu masu i prinos zrna regionalnih rasadnika za ispitivanje GAWN i SunWheat identificirala je značajnu povezanost testne mase sa SNP 5A28417 (P-vrijednost = 4,1 × 10 −7 sl. 1a). Testna težina je mjera težine standardnog volumena zrna i opći je pokazatelj parametara kvalitete zrna kao što su veličina i gustoća zrna. Nisu identificirani značajni biljezi za prinos zrna.

Analiza populacije LM RIL koja se razvila iz križanja sorte LA95135 s potpuno kosim kosom s SS-MPV57 bez šilja pokazala je da je inhibicija osjeta bila kontrolirana jednim lokusom na kromosomu 5A, koji se zajedno segregirao sa SNP 5A28417. Uočeni fenotipovi awn u RIL-ima koji imaju rezidualnu heterozigotnost na B1 ilustrirali su da je supresija osti uglavnom bila dominantna s kratkim osicama prisutnim na lemama vršnih klasova heterozigotnih biljaka (slika 2a).

Višestruki QTL za klasičane po klasu i morfometrijske osobine jezgre identificirane su u LM RIL populaciji, uključujući vrlo značajan QTL povezan sa supresijom osjeta u B1 lokus i s markerima koji predviđaju lokus fotoperioda velikog učinka Ppd-D1 i gen visine biljke Rht-D1 (Slika 3 Tablica S6). The Rht-D1b polu-patuljasti alel bio je povezan s najvećim učincima, doprinoseći smanjenju težine jezgre, širine jezgre i površine jezgre (Tablica S6). The Ppd-D1a alel za fotoperiodnu neosjetljivost također je bio povezan sa smanjenom masom jezgre u stakleniku i smanjenjem broja klasića za 2%, odnosno 6,1% po klasu u polju i stakleniku. Prisutnost ili odsutnost osi, uključenih u genetsku kartu kao fizički marker, značajno je povezana s QTL za broj klasića po klasu (LOD = 8,4), težinu zrna (LOD = 6,5), duljinu jezgre (LOD = 9,5), i ispitna težina (LOD = 5,6) (slika 3). U pokusu u stakleniku, prisutnost osi povećala je masu tisuća zrna za 1,47 g (5,1%), a smanjila broj klasića po klasu za 0,48 klasića. U poljskom pokusu, prisutnost osjedi povećala je masu jezgre za 0,88 mg (3,2%), a smanjila broj klasića po klasu za 0,37 klasića (slika 2b). Osim toga, QTL na B1 bili značajno povezani s procijenjenom testnom težinom i duljinom jezgre u terenskim podacima iz 2018. (slika 2b). Vrlo značajno (P < 0,001) uočene su razlike u srednjim klasama po klasu, težini zrna, procijenjenoj testnoj težini i duljini zrna kada su F5-izvedene sestrinske linije iz heterozigotne inbred linije RIL37 procijenjene su u terenskom pokusu 2018. (slika 2c,d). Najznačajnije je da je linija s osi NIL37-3 imala 0,85 manje klasića po klasu, 6,3% povećanje mase jezgre i 11,6% veću procijenjenu testnu težinu u usporedbi s sestrinskom linijom bez šiljaka NIL37-14.

Fino mapiranje identificira B1 kandidatski geni

Značajan SNP 5A28417 identificiran u B1 QTL regija nalazi se 219 bp uzvodno od predviđenog genskog modela TraesCS5A02G542800 nalazi se na kromosomu 5A od 698 528 636 bp do 698 529 001 bp u kineskom proljeću RefSeqv1.0 (IWGSC 2018). LM RIL populacija i tri F2 populacije razvijene iz križanja odabranih jedinki s osi i bez osi iz panela asocijacije genotipizirane su za osam KASP markera usmjerenih na 8,52-Mb regiju s boka TraesCS5A02G542800 (Slika 4 Tablica S2). U svakoj populaciji, fenotip bez osi dodijeljen je jednim dominantnim alelom koji se ko-segregira s KASP markerom 5A28417. Zahvaćanje egzoma LA95135 i SS-MPV57 roditelja populacije LM RIL nije otkrilo polimorfizme u TraesCS5A02G542800 kodiranje sekvence. Polimorfizmi identificirani u predviđenim genima proksimalno (TraesCS5A02G542600 i TraesCS5A02G5426700) i distalno (TraesCS5A02G542900) bili su ciljani za razvoj markera. KASP marker 5A15019 ciljano na A/G varijantu u petom intronu predviđenog gena TraesCS5A02G542700 i BW8226_227 ciljano na T/G polimorfizam u egzonu dva TraesCS5A02G542600. Marker 5A30334 ciljano na C/T varijantu u egzonu jednog od predviđenih gena TraesCS5A02G542900.

Rekombinacija unutar biparentalnih populacija suzila je genomsku regiju na 127 kb regiju koja sadrži dva predviđena gena (slika 4). Događaji rekombinacije opaženi između fenotipa osi i markera 5A30334 u populaciji LM RIL locirao SNP u TraesCS5A02G542900 0,2 cm distalno od B1 (slika 4a). Međutim, to nije isključilo potencijalne uzročne varijacije u promotorskoj regiji TraesCS5A02G542900. Nije uočena rekombinacija između B1 i 5A28417, 5A15019 i BW8226_227 u LM populaciji. Od 950 pojedinaca procijenjenih iz tri F2 populacije, pojedinac GM#101 iz križanja između GA06493-13LE6 i SS-MPV57 je utvrđen kao homozigot za BW8226_227 i heterozigot za 5A28417 i 5A15019. Fenotip awn segregirao je u testu potomstva od 16 F3 biljke dobivene od GM#101, stavljajući SNP u TraesCS5A02G542600 0,2 cM proksimalno do B1. Mackay et al. (2014.) također identificiran BW8226_22 kao povezano s ali proksimalno B1, kako u MAGIC populaciji tako i na panelu raznolikosti. Ovi rezultati suzili su gene kandidate u pozadini B1 supresija ose na predviđene gene TraesCS5A02G542700, TraesCS5A02G542800i promotorsku regiju TraesCS5A02G542900.

Analiza ovjesa M2 biljke sorte Brundage bez šiljaka identificirale su delecije na distalnom dijelu 5AL koje obuhvaćaju gene kandidate (Tablica 1). Genomska DNK M2 biljke zajedno s kineskim proljećem i linijom delecije 5AL-6 (TA4535-6) kojoj nedostaje terminal 32% 5AL korišteno je za pojačavanje 11 KASP markera koji ciljaju 5AL sa 696 Mb na 706 Mb. Za sve markere opaženo je pojačanje za divlji tip Brundage i biljke bez šiljaka iz svake vrste M2 obitelji i iz Kineskog proljeća. Nije dobiveno pojačanje za delecijsku liniju 5AL-6, što ukazuje na specifičnost genoma početnica. Uočene su delecije u regiji za sve 53 biljke s bodljama odabrane od 17 segregiranih M2 obitelji (tablica 1). Kao što se očekivalo s gama zračenjem, velike delecije su uočene kod većine M2 linije koje su izgubile > 7,5 Mb okolne regije. Najmanja delecija primijećena je za mutantnu liniju Br-187 (slika 5) i procijenjena je da je veličine između 19,6 kb i 392,8 kb i uključuje gene kandidate TraesCS5A02G542700 i TraesCS5A02G542800. Pojačavanje markera 5A10592 i 5A30334 naznačio da TraesCS5A02G542900 nije obrisan iz Br-187, eliminirajući ga kao gen kandidata (tablice 1, S1). Primijećen je fenotip s šiljkom B1 hemizigot F1 od križanja Br-187 s kosom sortom NC-Neuse (Sl. 5).

Naziv markera Položaj a Položaj u bp na 5A pseudomolekuli referentnog genoma IWGSC RefSeqv1.0 Chinese Spring.
(bp)
WT Broj M2 obitelji
4 1 2 1 3 2 1
5A814 696993814 + + + + +
5A78871 697887148 + + + +
5A208800 698208800 + + + +
5A13057 698513057 +
5A15019 698515019 +
5A28417 698528417 +
5A32641 698532641 +
5A10592 698610592 + +
5A30334 698630000 + +
5A48195 702748195 + + + +
5A70348 705570348 + + + + +
  • Prisutnost (+) i odsutnost (−) pojačanja s oznakama koje okružuju Savjet 1 (B1) lokus u ovjesnom M2 obitelji razvijene zračenjem brzim neutronima sorte Brundage (WT) bez osi. Zabilježen je broj obitelji (jedinstveni događaji mutacije) za svaki haplotip. Svi prijavljeni haplotipovi potvrđeni su kod više osoba iz svake obitelji. WT, divlji tip.
  • a Položaj u bp na 5A pseudomolekuli referentnog genoma IWGSC RefSeqv1.0 Chinese Spring.

Procjena pšenice s osi i bez osi u skupu podataka za hvatanje exome identificirala je dodatne SNP proksimalno i unutar predviđenog gena TraesCS5A02G542700 označeno kao univerzalna obitelj proteina stresa s domenom protein kinaze. Haplotipovi su uspoređeni s podacima o sekvenciji ortolognog gena TRIUR3_34498 iz Triticum Urartu (https://www.ebi.ac.uk/ena/data/view/GCA_000347455.1), progenitor A-genoma u pšenici. SNP jedinstven za žitarice i T. urartu predviđa se da će stvoriti mutaciju pogrešnog smisla u eksonu 9 (5A16541) bio je namijenjen za razvoj KASP testa. Panel raznolikosti ozime pšenice bio je prikazan s 5A16541 marker i prethodno razvijeni marker za intronički SNP 5A15019. Od 455 linija, 55 ima SS-MPV57 (B1) 5A15019 alela i 99 osoba sa SS-MPV57 5A16541 alel posjeduje osi, što sugerira da niti jedan od ovih polimorfizama u TraesCS5A02G542700 podlozi B1 suzbijanje ose.

Karakterizacija B1 kandidat gen TraesCS5A02G542800

Fino mapiranje suzilo je B1 lokus na regiju od 127 kb uglavnom ponavljajućih sekvenci u referentnom genomu kineskog proljeća koji sadrži predviđene gene TraesCS5A02G542700 i TraesCS5A02G542800. Analiza markera pšenične germplazme sugerira da polimorfizmi u predviđenom genu TraesCS5A02G542700 nisu predvidjeli potiskivanje ose. Tako, TraesCS5A02G542800, označen kao jedan egzon od 366 bp koji predviđa transkripcijski faktor C2H2 cinkovog prsta čini se jakim kandidatom za dominantni B1 prigušivač osjeta. Predviđena sekvenca proteina korištena je za identifikaciju srodnih gena u Uniprot bazi podataka. Iako su identificirani slični C2H2 cinkovi prsti u srodnim vrstama trave, ne postoje publikacije koje karakteriziraju ove gene. Najsličniji karakteriziran gen TraesCS5A02G542800 je KNUCKLES (KNU) in Arabadopsis thaliana, C2H2 cink prst uključen u cvjetni razvoj dijeleći očuvani cink prst i N-terminalne motive odgovora povezane s etilenom (sličan EAR) (slika 6).

Varijacija unutar TraesCS5A02G542800 kodni slijed nije pronađen između kineskog Spring RefSeq v.1.0, sklopova skela ozime pšenice s B1 supresor (Cadenza, Paragon, Robigus i Claire) i tetraploidna pšenica Kronos (https://opendata.earlham.ac.uk/opendata/data/). U kineskom proljeću, gen je okružen sa > 100 kb ponavljajućih elemenata, što ometa sastavljanje i usporedbu regije u sklopovima skele. U dostupnim B1 skele sorte, međutim, ≥ 10 kb dodatnih repetitivnih elemenata uočeno je proksimalno od gena kandidata koji se ovdje koristi, što ukazuje na umetanje ili uklanjanje prijenosnih elemenata od divergencije dostupnih B1 skupštine i Kinesko proljeće.

Gen B1 nalazi se u regiji 5AL koja potječe od translokacije s 4A kromosomom koja se dogodila u diploidnom progenitoru A-genoma obične pšenice (Dvorak et al., 2018.). Nucleotide Blast je korišten za identifikaciju dvije regije na kromosomima 4B i 4D sintetički prema fino mapiranoj regiji. Sekvence slične kandidatu C2H2 cinkovom prstu pronađene su u obje regije, označene kao TraesCS4D02G476700LC na dugom kraku kromosoma 4D (78% nukleotidnog identiteta) i bez oznaka na kromosomu 4B (80% nukleotidnog identiteta). Slijed 4BL sadrži mutaciju s pomakom okvira i nije označen ni u skupu gena visoke ili niske pouzdanosti u napomeni IWGSC v.1.1 (https://wheat-urgi.versailles.inra.fr/Seq-Repository/Annotations). TraesCS4D02G476700LC ponešto razlikuje od TraesCS5A02G542800 u području između cinkovog prsta i motiva sličnih EAR-u, uključujući umetanje od 10 aminokiselina u A-genom s položaja 90-99 (slika 6). Filogenetska analiza Huanga et al. ( 2020 ) grupirali su B1 i njegove homoeologe s ortolognim proteinima izvorne vrste T. urartu i Aegilops tauschii.

Upregulation of TraesCS5A02G542800 je povezana sa supresijom ose B1

U podacima iz WheatEXP, TraesCS5A02G542800 ekspresija raste kako se rani cvat razvija, a smanjuje se nakon nicanja glavice (slika S1), dok TraesCS4D02G476700LC povećava ekspresiju kasnije u razvoju šiljka. Preglednik WheatFP (http://bar.utoronto.ca/efp_wheat/cgi-bin/efpWeb.cgi) (Zima et al., 2007. Ramírez-González et al., 2018) korištena je za lokaliziranje ekspresije gena u sorti jare s osjedom Azhurnaya. TraesCS5A02G5426800 najjače je izražen u cvatu u razvoju, s nekim izraženim u ostima, jajnicima i tkivu zrna, dok TraesCS4D02G476700LC je uglavnom izražen kasnije u razvoju šiljaka (slike S2, S3). Slične analize predviđenog gena TraesCS5A02G5426700 ukazuju na to da je ovaj gen izražen u većini tkiva, s većom ekspresijom u šiljcima nakon razvoja očnjaka (slika S4).

Podaci o ekspresiji gena iz kvantitativne reverzne transkripcije (qRT)-PCR to su utvrdili TraesCS5A02G5426800 pokazao sedam puta prosječno povećanje ekspresije gena (P < 1e-7) kod biljaka bez osi u usporedbi s biljkama bez osi (slika 7), dok TraesCS5A02G5426700 također je izraženo i kod osoba s osi i bez osi (slika S5). Cvatovi u razvoju podijeljeni su u četiri stupnja na temelju razvoja (slika 7b). Unutar svake grupe, izražavanje TraesCS5A02G5426800 bila je veća u jedinki bez osjeta, što ukazuje na mehanizam supresije osjeda povezan s ovim genom.

S obzirom na fino preslikavanje statusa osi u ovaj interval, razlike u ekspresiji impliciraju postojanje varijacije cis-regulacije ili izravno uzvodno u promotoru TraesCS5A02G5426800 ili u obližnjim pojačivačima ili represorima. Područje od 7 kb neponavljajućih sekvenci koje okružuje B1 gen kandidat (3 kb uzvodno i 4 kb nizvodno) sekvencioniran je u setu od 10 osoba, uključujući LA95135, SS-MVP57 i osam pristupa Triticum aestivum odabrano iz zbirke jezgri pšenice NSGC na temelju raznolikosti zemljopisnog podrijetla i haplotipova KASP biljega u regiji od 698,51 Mb do 698,62 Mb 5AL (Tablica S4). Nema polimorfizama u TraesCS5A02G5426800 uočena je kodirajuća sekvenca i varijacija sekvence proksimalno od gena u promotorskoj regiji (uključujući marker 5A28417) nije predvidio fenotip supresije ose. Brisanje od 30 bp 4005 bp nizvodno od TraesCS5A02G5426800 startni kodon je najviše predvidio supresiju ose u ovom skupu. KASP marker 5A32641 osmišljen oko ovog brisanja zajedno segregiranog s B1 u populacijama biparentalnog kartiranja (slika 4).

Raznolikost haplotipova u globalnoj germplazmi pšenice

Marker 5A32641 bio je vrlo predvidljiv za suzbijanje osjeda u 2439 akcesija ozime i jare pšenice u USDA NSGC jezgrenom skupu. Od 455 procijenjenih akcesija ozime pšenice 57% je bilo bez ostrija, u usporedbi s 45% akcesija jare pšenice iz 1984. (Tablica S7). Brisanje od 30 bp distalno od TraesCS5A02G5426800 bio je prisutan u 98% akcesija ozime pšenice bez osa i u svih osim 59 od 696 jare linije bez osa (92%). Linije bez osi bez brisanja od 30 bp nizvodno od TraesCS5A02G5426800 može posjedovati bilo HD ili B2 prigušivači osi. Od 1558 akcesija s osi, samo 18 je bilo homozigotno za brisanje. Od toga, 13 primjeraka su domaće rase iz Sudana, Egipta i Omana, što sugerira da mogu dijeliti rijetku genetsku varijantu bilo u regiji kandidata gena ili na B1 meti. Općenito, ovi rezultati sugeriraju da je dominantna B1 inhibitor je primarna determinanta supresije osjeta u pšenici na globalnoj razini.

Identificirano je osam haplotipova kada je šest SNP markera bočno B1 ispitani su zajedno s markerom 5A32641 (Tablica 2). Marker haplotip 1 (Hap1) prisutan u sorti LA95135 sa bodljima i Hap8 prisutan u sorti SS-MPV57 bez šiljaka bio je najčešći, otkriven u 55% odnosno 35% akcesora (slika 8). Većina pšenice bez osi je kategorizirana kao ima B1-povezan Hap8. Mali broj akcesija jare pšenice bez osi iz različitih geografskih regija posjedovao je Hap7 karakteriziran delecijom od 30 bp distalno od kandidata B1 gen i razlikuje se od Hap8 na markeru 5A28417 proksimalno do B1. Suprotno tome, sedam od osam haplotipova opaženo je u akcesijama s ovjesom, pri čemu je Hap1 bio daleko najčešći. Veća raznolikost haplotipova povezana s pretkom b1 alel se očekuje pod pretpostavkom da B1 nastala i raširila tijekom ili nakon pripitomljavanja kultivirane pšenice.

Broj linija Naziv markera Alel
Položaj (bp)
5A15019 5A28417 5A29396 5A32641 5A91913 5A613482 5A614919
698515019 698528417 698529396 698532641 698591913 698613482 698614919
Hap1 1421 A A A A A A A b1
Hap2 20 A B A A A A A b1
Hap3 44 B B A A B A B b1
Hap4 7 B B A A B B A b1
Hap5 12 B B A A B B B b1
Hap6 65 B B C A B B C b1
Hap7 11 B A B B B B B B1
Hap8 859 B B B B B B B B1
  • Za svaki kompetitivni alel specifičan PCR (KASP) marker, alel A je LA95135 (b1) alel, alel B SS-MPV57 (B1) alel, a alel C nulti alel. Položaj SNP-ova na 5A pseudomolekuli Međunarodnog konzorcija za sekvenciranje genoma pšenice Kinesko proljeće RefSeqv1.0 naznačen je ispod naziva markera. The B1 zapažen je alel povezan sa svakim haplotipom.

Hap1 je također uočen u akcesijama bez osi koje mogu posjedovati b1 alel i neka kombinacija HD i B2 alela. Od ovih linija, 67% potječe iz središnje i južne Azije, prvenstveno Nepala i Indije, što ukazuje na regionalne varijacije u kontroli suzbijanja osjeda (slika 8.). Najveća raznolikost haplotipova bila je u akcesijama iz središnje Azije gdje su uočeni svi haplotipovi osim Hap4. Iako je svih osam haplotipova bilo prisutno u akcesijama iz zapadne Europe, 95% tih pristupa imalo je ili Hap1 ili Hap8.


MATERIJALI I METODE

Identifikacija izraženih oznaka sekvence za razvoj genetskog markera: M. truncatula EST sekvence dobivene su od dbEST Nacionalnog centra za biotehnološke informacije (NCBI) i korištene za ispitivanje NCBI baza podataka koristeći blastx, blastn ili tblastx. M. truncatula EST s velikom sličnošću s genima otkrivenim u drugim organizmima (uglavnom Arabidopsis i/ili drugim mahunarkama) odabrani su za daljnju analizu. Analize su provedene protiv sekvenci u javnoj domeni koje su bile dostupne na NCBI u veljači 2000. U početnom pokušaju pregledali smo ∼2700 M. truncatula EST-ovi koji koriste blast i odabrana 274 EST-a kao kandidati za biljeg. Oligonukleotidni primeri dizajnirani su iz predviđenih sekvenci egzona korištenjem softverskog paketa Lasergene PrimerSelect (DNAStar, Madison, WI) sa sljedećim općim smjernicama. U slučajevima u kojima bi se introni mogli predvidjeti poravnavanjem an M. truncatula EST s odgovarajućom genomskom sekvencom Arabidopsis, parovi početnica dizajnirani su za žarenje u egzonskim sekvencama i za pojačavanje u intronskim regijama. U slučajevima u kojima je an M. truncatula EST je imao sličnost sa sekvencama identificiranim u drugim mahunarkama (na temelju blastn), poravnanja sekvenci su korištena za dizajniranje oligonukleotidnih primera koji bi pojačali fragmente DNA iz svakog od odgovarajućih genoma mahunarki. Baza podataka o sojini pridonijela je većini sekvenci mahunarki za usporedbu sekvenci zbog relativnog obilja EST-ova soje, pa stoga većina parova EST početnica pojačava sekvence iz genoma soje (H.-K. C hoi i D. C ook, neobjavljeni rezultati).

Identifikacija BAC klonova za razvoj genetskog markera: RFLP sonde prethodno mapirane u mahunarkama korištene su za identifikaciju homolognih M. truncatula BAC klonovi na temelju DNA hibridizacije. Sojini RFLP klonovi s visokom homologijom s genima u bazi podataka NCBI (svibanj 1999.) na temelju blastxa odabrani su kao sonde za Southern blot analizu. Filtri visoke gustoće koji sadrže pet puta veću pokrivenost od filtera M. truncatula genom je dobiven iz Centra za genome Sveučilišta Clemson i hibridiziran sa [32 P]dCTP-obilježenim sondama u suštini kako je opisao N am et al. (1999). Pretpostavljeni pozitivni klonovi su izvučeni iz BAC biblioteke, pročišćeni i korišteni za izolaciju DNA pomoću QIAGEN (La Jolla, CA) plazmid kita prema uputama proizvođača. Pročišćena BAC DNA je digestirana s HindIII, razdvojen u 0,6% agaroznom gelu i korišten za drugi krug Southern blot analize. Hibridizacijski obrasci korišteni su za potvrdu izvornog rezultata hibridizacije i za razlikovanje paralognih lokusa na temelju veličine hibridizacijskog pojasa i korespondencije između BAC otisaka prstiju. Rezultirajući BAC klonovi su krajnje sekvencirani korištenjem oligonukleotidnih primera koji su komplementarni polilinkeru klona BAC: SQ-BAC-L (5′-AACGCCAGGGTTTTCCCAGTCACGACG-3′) i SQ-BAC-R (5′-ACACAGGAAACAGGATCGATCG′3′-ACAGGAAAACAGCTATCG-CC′-AACGCCAGGGTTTTCCCAGTCACGACG-3′). Reakcije sekvenciranja od dvadeset mikrolitara sadržavale su 500 ng BAC DNA, 8 μl ABI BigDye (Perkin-Elmer, Norwalk, CT) i 5 pmol primera. Reakcije sekvenciranja provedene su s 2-minutnim početnim korakom denaturacije na 97°, nakon čega je slijedilo 40 ciklusa na 97° tijekom 6 sekundi i 60° tijekom 5 minuta. Na temelju informacija o krajnjoj sekvenci BAC, parovi oligonukleotidnih prajmera dizajnirani su za PCR pojačavanje odgovarajućeg genomskog DNA fragmenta iz M. truncatula mapiranje roditelja, genotipova A17 i A20.

Identifikacija polimorfnih sekvenci i razvoj markera: Roditeljski genomski DNK (Mt A17 i Mt A20) amplificirani su lančanom reakcijom polimeraze korištenjem oligonukleotidnih primera dizajniranih od EST ili BAC krajnjih sekvenci, kako je gore opisano. PCR reakcije od deset mikrolitara sadržavale su sljedeće reagense: 20 ng šablone genomske DNA, 1× PCR reakcijski pufer, 2,5 m m MgCl2, 0,25 m m svakog dNTP, 5 pmol svakog prajmera i 0,5 jedinica HotStarTaq DNA polimeraze (QIAGEN). PCR termociklične reakcije izvedene su s 15-minutnim početnim korakom denaturacije/aktivacije, nakon čega je slijedilo 35 ciklusa na 94° tijekom 20 sekundi, 55° tijekom 20 sekundi i 72° tijekom 2 minute, s završnim korakom produljenja od 5 minuta na 72 °. PCR produkti su procijenjeni gel elektroforezom u 1% agarozi, vizualizirani bojanjem etidijevim bromidom. PCR reakcije koje proizvode pojedinačne trake odabrane su za sekvenciranje korištenjem automatiziranog sekvencera ABI377 ili ABI3730XL i kompleta spremnog za sekvenciranje ABI PRISM BigDye terminatora (Perkin-Elmer). Reakcije sekvenciranja volumena od 10 μl sadržavale su 10-50 ng PCR amplikona, 4 μl ABI BigDye reagensa i 5 pmol primera. Termocikliranje sekvencioniranja provedeno je s početnim korakom denaturacije od 1 min na 96°, nakon čega je slijedilo 35 ciklusa na 96° tijekom 10 sekundi, 55° tijekom 5 sekundi i 60° tijekom 4 minute. Poravnanja sekvenci DNA, proizvedena programom Sequencher 3.1.1 (Gene Codes, Ann Arbor, MI), korištena su za ispitivanje roditeljskih alela za polimorfna mjesta. Duljina i kodominantni polimorfizmi mogu se ispitati izravno pomoću elektroforeze u agaroznom gelu. Jednonukleotidni polimorfizmi (SNP) pretvoreni su u cijepane amplificirane polimorfne sekvence (CAPS) identificiranjem SNP-ova koji daju različita mjesta restrikcijskih enzima između dva roditeljska alela (K onieczny i A usubel 1993 H auser et al. 1998 M ichaels i A masino 1998). U slučajevima u kojima nije identificirano prikladno mjesto restrikcijskog enzima, oligonukleotidni primeri s jednom nukleotidnom nepodudarnošću dizajnirani su uz polimorfnu poziciju, tako da je restrikcijsko mjesto stvoreno u PCR proizvodu jednog roditelja, ali ne i drugog (tzv. CAPS markeri ili dCAPS npr., N eff et al. 1998).

Genotipizacija i analiza podataka: Biljna genomska DNK izolirana je korištenjem DNeasy biljnih mini kita (QIAGEN) prema protokolima koje je dao proizvođač. Dvije roditeljske linije M. truncatula, Jemalong A17 (primarni eksperimentalni genotip korišten u većini dosadašnjih istraživanja) i A20, prethodno su odabrani (P enmetsa i C ook 2000) kako bi se olakšalo genetsko mapiranje i naknadno kloniranje gena na temelju mape definiranih njihovim mutantnim fenotipom. Osnovna populacija mapiranja sastojala se od 93 F2 potomstvo izvedeno iz križanja A17 i A20. U regijama od specifičnih interesa, ili gdje su željene dodatne rekombinante za uspostavljanje reda markera, genotipizirano je do 120 jedinki.

Za potrebe analize genotipa markera, F2 DNK su analizirane paralelno s tri kontrolne DNK (A17 homozigotna linija majke, A20 očeva homozigotna linija i heterozigotna DNA) u strukturiranom formatu mikrotitarske ploče s 96 jažica. Ukratko, nakon PCR-a ∼50-100 ng proizvoda (1-2 μl) prebačeno je na novu ploču s 96 jažica koja sadrži 1-5 jedinica unaprijed određenog restrikcijskog enzima (Tablica 1) u ukupnom volumenu od 8 μl. Digestija je provedena na temperaturi koju je naveo proizvođač tijekom 2-4 sata. Odcijepljeni fragmenti DNA analizirani su elektroforezom u agaroznom gelu i genotipovi su zabilježeni na sljedeći način: homozigotni majčinski (A17) kao "A", homozigotni očinski (A20) kao "B", heterozigot kao "H", ne A kao "C", ne B kao "D" i podaci koji nedostaju kao "—".

Za M. sativa, kandidati za genetske markere prvo su ocijenjeni za polimorfizme u roditeljskim biljkama (Mscw2 i Msq93) i njihovim F1 potomstvo (F1/1). Markeri koji su pokazivali polimorfizme s lakoćom (npr.varijacija duljine, dominantno nasljeđivanje ili stvaranje heterodupleksa) su genotipizirani izravno pomoću elektroforeze u agaroznom gelu. U slučajevima u kojima se aleli nisu mogli odrediti izravno na agaroznim gelovima, produkti amplifikacije su sekvencionirani kako bi se identificirali polimorfizmi i razvili CAPS markeri (kao što je gore opisano za M. truncatula). U slučajevima u kojima se CAPS markeri nisu mogli razviti, aleli su bodovani u F2 populacije izravnim sekvenciranjem PCR proizvoda. U takvim slučajevima, ograničen broj F2 jedinke su odabrane kako bi osigurale finu diskriminaciju unutar željenog genetskog intervala, potpomognute bojom kodirane mape genotipa diploidne populacije lucerne (K iss et al. 1998.). U tipičnom eksperimentu mapiranja, 138 M. sativa F2 analizirani su pojedinci. F2 populacija za mapiranje izvedena je iz jednog F1 biljka (F1/1), na temelju križanja diploidnih žutocvjetnih M. sativa ssp. kvazifalcata a diploidni ljubičasto-cvjetni M. sativa ssp. coerulea (opisao K br et al. 1993).

Genetske udaljenosti izračunate su "klasičnom" metodom maksimalne vjerojatnosti koristeći MAPMAKER/EXP 3.0 (L ander et al. 1987 L incoln et al. 1992.). Veza je određena naredbom “Group” postavljenom na LOD 3,5 i udaljenosti od 40 cM na temelju Kosambi funkcije mapiranja. Redoslijed markera određen je naredbom “Red” (LOD 3.0, θ= 0.40). Sirovi podaci o genotipu provjereni su metodom mapiranja boja kako je to opisao Kiss et al. (1998). Mapiranje boja pruža prikladan način za vizualnu inspekciju i kuriranje genotipova za svakog pojedinca u populaciji, na taj način identificirajući potencijalne pogreške genotipizacije i rijetke događaje rekombinacije, te predlaganje povezivanja ili nepovezanosti.

Identifikacija BAC klonova za FISH analizu: U slučajevima u kojima BAC klonovi nisu prethodno identificirani pomoću DNA hibridizacije, koristili smo lančanu reakciju polimeraze za identifikaciju kandidata BAC klonova. BAC DNA skupovi su konstruirani ili iz 5× pokrivene BAC biblioteke, kako je opisao N am et al. (1999.) ili iz novije razvijene BAC biblioteke s 20× pokrivenošću M. truncatula (D. K im i D. R. C ook, osobna komunikacija). Kandidatni BAC klonovi su pročišćeni i kultivirani preko noći na Luria bujon agar mediju kojem je dodano 30 μg/ml kloramfenikola. Identitet BAC klonova potvrđen je PCR-om, uz procjenu veličine i intenziteta pojačanih produkata pomoću gel elektroforeze u 1% agarozi.

RIBE s BAC klonovima na prometafazi i pahitenskim kromosomima: Prašnici od M. truncatula A17 cvjetni pupoljci korišteni su za proizvodnju mitotičke prometne faze (tapetum) i mejotskih pahitenskih kromosomskih namaza. Detaljan opis postupka pripreme kromosoma i FISH daje K ulikova et al. (2001). BAC DNA korištena kao sonde izolirana je u skladu s metodom alkalne lize i obilježena ili biotin-16-dUTP ili digoksigenin-11-dUTP korištenjem nick-translation mixa (Roche). U nekim slučajevima, BAC su obilježeni mješavinom oba dUTP-a (u omjeru 1:1) kako bi se proizveli žuti FISH signali nakon detekcije. Dvije do pet sondi korišteno je istovremeno u svakoj hibridizaciji, uključujući BAC-ove koji su prethodno mapirani (K ulikova et al. 2001) i poslužili su kao orijentiri za pojedine kromosome.

Biotinom obilježene sonde otkrivene su s avidin-Texas crvenim i pojačane s biotinom-konjugiranim koza-antiavidin i avidin-Texas crvenim (Vector Laboratories, Burlingame, CA). Sonde obilježene digoksigeninom detektirane su s ovčjim antidigoksigenin fluorescein-5-izotiocijanatom (FITC Roche) i pojačane FITC-om protiv ovaca zeca (Jackson ImmunoResearch Laboratories, West Grove, PA). Kromosomi su protubojni 4′,6-diamidino-2-fenilindolom (DAPI) u Vecta-shield antifade otopini (Vector Laboratories) od 5 μg/ml. Neki kromosomski preparati ponovno su korišteni za FISH s novim setom sondi prema metodi H eslop -H arrisona et al. (1992). Slike su snimljene za svaku fluorescentnu boju zasebno pomoću hlađenog sustava CCD kamera (Photometrics, Tucson, AZ) na Zeiss Axioplan 2 fluorescentnom mikroskopu, pseudoboje i spojene pomoću CytoVision radne stanice (Applied Imaging). Kako bi se odvojili pojedinačni kromosomi, svaki je kromosom digitalno izrezan i kopiran u novu sliku pomoću Adobe Photoshopa 6.0 (Adobe).


Pristupi uzorkovanju, čuvanje i ekstrakcija DNK

Studije sekvencioniranja okoliša trebale bi se pridržavati čvrstog dizajna ekološke studije, dopuštajući odgovarajući broj mjesta/replikacija kako bi se osigurala statistička moć, kao i osiguravanje prikupljanja robusnog skupa metapodataka o okolišu (npr. klimatske varijable, pH tla). Prilikom dizajniranja protokola molekularne identifikacije za otkrivanje cijelih zajednica, potrebno je donijeti mnoge odluke. Proces je linearan (slika 1), a koraci se obično sastoje od očuvanja uzorka, ekstrakcije nukleinske kiseline, amplifikacije gena markera (pomoću PCR) ili pripreme biblioteke za metagenome, sekvenciranja proizvoda(a) i analize podataka (bioinformatika i vizualizacija Sl. . 2). Ipak, protokoli koji se koriste za svaki korak mogu se uvelike razlikovati ovisno o pitanju i okruženju (slika 1). Raspon veličine ciljnog organizma obično određuje koliko (ili malo) fizičkog uzorka se obrađuje prije ekstrakcije DNK. Mikrobi, virusi i druge komponente (npr. pelud) se lako sakupljaju iz zraka (Kraaijeveld et al. 2015 ) i vodu pomoću protokola filtracije, pri čemu su organizmi koncentrirani na niz filtara sa sve manjom veličinom pora koji hvataju različite veličine frakcije zajednice (Ganesh et al. 2014.). DNK okoliša iz mikroskopskih eukariota također se lako hvata na ovaj način (Deiner et al. 2015.). Pamučni štapići predstavljaju još jednu metodu prikupljanja koja se koristi za uzorkovanje mikroba iz životinjskih mikrobioma (npr. kože (McKenzie et al. 2012 )) ili tvrde površine (stijene, kora drveća itd.). Učinkovito očuvanje ciljnih nukleinskih kiselina ključno je polazište za svaku uspješnu studiju. Kako bi se očuvala visoko labilna RNA, temperature od -80 °C i tekući dušik predstavljaju zlatni standard, s drugim zaštićenim kemikalijama za konzerviranje kao što je RNAlater ® koji se obično koriste u terenskom uzorkovanju. DNK je, s druge strane, robusnija i može se učinkovito sačuvati za nizvodne molekularne biološke manipulacije sušenjem, temperaturama od -20 °C, 100% etanolom ili drugim otopinama dizajniranim za očuvanje i DNK i morfologije kao što su kombinacije DMSO, EDTA i zasićene soli (Yoder et al. 2006.). Treba izbjegavati korištenje transformiranih alkohola (npr. IMS) i, u najgorim slučajevima, formalina jer takvi mediji za konzerviranje denaturiraju nukleinske kiseline, čineći ih nedostupnima za molekularnu analizu.

Za proučavanje tla i sedimenata, mali volumen svježeg materijala (

0,25–2,5 g, ovisno o udjelu organske tvari) obično se koristi u protokolima ekstrakcije DNK koji ciljaju na mikrobe (npr. bakterije/arheje, protiste, gljive i viruse) (Gilbert et al. 2014. Pawlowski et al. 2014.). Za istraživanja većih svojti kao što su mikrobne metazoe, sedimenti ili tla se prvo obrađuju putem protokola dekantacije/flotacije pri čemu se mikrobna zajednica odvaja od zrnaca sedimenta (Creer et al. 2010.). Točna metoda obrade uzoraka kritično je razmatranje za studije sekvenciranja okoliša. Svaki će dati protokol inherentno poremetiti pogled na sastav zajednice, a važno je održavati isti protokol tijekom cijele studije kako bi takve pristranosti bile dosljedne. Virusi i jednostanični organizmi lako se ispiru ili liziraju protokolima dekantacije i prosijavanja koji se koriste za izolaciju mikrobnih metazoa, zbog čega je imperativ korištenje neprerađenih sedimenata/tla za studije okoliša usmjerene na ove manje klase organizama. Slično, mali volumen svježeg sedimenta koji se koristi za ekstrakcije DNK usmjerene na jednostanične taksone ne pruža dovoljno materijala za hvatanje i karakterizaciju zajednica metazoa. Mnogo veće količine tla/sedimenta (>100 mL) moraju se obraditi i koncentrirati kako bi se osiguralo točno uzorkovanje za veće klase organizama, budući da mikrobne metazoe mogu pokazati prostorno nejednaku distribuciju s velikim brojem rijetkih vrsta (Ramirez-Llodra et al. 2010.). Za veće organizme (npr. makrobeskičmenjake), masovne zajednice mogu se homogenizirati ili 'supirati' (Yu et al. 2012) sa ili bez poduzorkovanja dijelova tijela od većih organizama koji bi inače preplavili močvarno sekvencioniranje s prekomjernom količinom biomase, a time i genomskih informacija.

Protokoli za ekstrakciju koji se temelje na kompletu učinkovit su pristup za izolaciju visokokvalitetne ekološke DNK iz mikrobnih zajednica (Gilbert et al. 2014.), iako se koriste razne druge metode ekstrakcije DNK (Griffiths et al. 2000 Lakay, Botha & Prior 2007) može se koristiti ovisno o opsegu studije. Brojne studije okoliša također su koristile pristupe ekstrakcije koji omogućuju izolaciju i DNK i RNA iz jednog uzorka sedimenta ili tla (Griffiths et al. 2000. Pawlowski et al. 2014.). U ovom slučaju, sekvence RNA iz uzoraka okoliša iz svih domena života mogu se otkriti putem obrnute transkripcije i sekvenciranja (McGrath et al. 2008.). Izolacija i očuvanje mogu se razlikovati od metoda DNK, a to je još uvijek područje intenzivnog istraživanja bez puno konsenzusa, već niz metoda koje se mogu testirati ovisno o uzorkovanom okolišu (De Maayer, Valverde & Cowan 2014.). Kosekvenciranje i DNA i RNA osigurava, na pr. kod gljiva, procjena 'aktivne' zajednice u odnosu na potencijalno prolaznu DNK iz mrtvih ili neaktivnih svojti u okolišu (Baldrian et al. 2012 ).


Sadržaj

Ako dvije sekvence u poravnanju dijele zajedničkog pretka, nepodudarnosti se mogu tumačiti kao točkaste mutacije, a praznine kao indeli (tj. mutacije umetanja ili brisanja) uvedene u jednu ili obje loze u vremenu otkad su se razišle jedna od druge. Kod poravnanja sekvenci proteina, stupanj sličnosti između aminokiselina koje zauzimaju određenu poziciju u slijedu može se tumačiti kao gruba mjera koliko je određena regija ili motiv sekvence očuvan među lozama. Odsutnost supstitucija, ili prisutnost samo vrlo konzervativnih supstitucija (tj. supstitucija aminokiselina čiji bočni lanci imaju slična biokemijska svojstva) u određenoj regiji sekvence, sugeriraju [3] da ova regija ima strukturnu ili funkcionalnu važnost . Iako su nukleotidne baze DNA i RNA sličnije jedna drugoj nego što su aminokiseline, očuvanje baznih parova može ukazivati ​​na sličnu funkcionalnu ili strukturnu ulogu.

Vrlo kratke ili vrlo slične sekvence mogu se poravnati ručno. Međutim, najzanimljiviji problemi zahtijevaju usklađivanje dugih, vrlo varijabilnih ili iznimno brojnih sekvenci koje se ne mogu uskladiti isključivo ljudskim naporom. Umjesto toga, ljudsko znanje se primjenjuje u konstruiranju algoritama za proizvodnju visokokvalitetnog poravnanja sekvenci, a povremeno i u prilagodbi konačnih rezultata da odražavaju obrasce koje je teško algoritamski predstaviti (osobito u slučaju nukleotidnih sekvenci). Računalni pristupi usklađivanju sekvenci općenito spadaju u dvije kategorije: globalna poravnanja i lokalna poravnanja. Izračunavanje globalnog poravnanja oblik je globalne optimizacije koja "prisiljava" poravnanje da obuhvaća cijelu duljinu svih nizova upita. Suprotno tome, lokalna poravnanja identificiraju regije sličnosti unutar dugih sekvenci koje se općenito općenito jako razlikuju. Lokalna poravnanja su često poželjnija, ali može biti teže izračunati zbog dodatnog izazova identificiranja regija sličnosti. [4] Različiti računski algoritmi su primijenjeni na problem poravnanja sekvenci. To uključuje spore, ali formalno ispravne metode poput dinamičkog programiranja. Oni također uključuju učinkovite, heurističke algoritme ili probabilističke metode dizajnirane za pretraživanje baze podataka velikih razmjera, koji ne jamče pronalaženje najboljih podudaranja.

Poravnanja su obično predstavljena i grafički i u tekstualnom formatu. U gotovo svim prikazima poravnanja sekvenci, sekvence su napisane u retke poredane tako da se poravnati ostaci pojavljuju u uzastopnim stupcima. U tekstualnim formatima, poravnati stupci koji sadrže identične ili slične znakove označeni su sustavom simbola očuvanja. Kao na gornjoj slici, simbol zvjezdice ili cijevi koristi se za prikaz identiteta između dva stupca, drugi manje uobičajeni simboli uključuju dvotočku za konzervativne zamjene i točku za polukonzervativne zamjene. Mnogi programi za vizualizaciju sekvenci također koriste boju za prikaz informacija o svojstvima pojedinačnih elemenata sekvence u sekvencama DNA i RNA, što znači da svakom nukleotidu daju vlastitu boju. U usklađivanju proteina, poput onog na gornjoj slici, boja se često koristi za označavanje svojstava aminokiselina kako bi se pomoglo u prosuđivanju očuvanja dane aminokiselinske supstitucije. Za višestruke sekvence posljednji red u svakom stupcu često je konsenzusni slijed određen poravnanjem, konsenzusni slijed je također često predstavljen u grafičkom formatu s logom sekvence u kojem veličina svakog slova nukleotida ili aminokiseline odgovara njegovom stupnju očuvanosti. [5]

Poravnanja sekvenci mogu se pohraniti u široku paletu tekstualnih formata datoteka, od kojih su mnogi izvorno razvijeni u kombinaciji s određenim programom ili implementacijom za poravnanje. Većina web-baziranih alata dopušta ograničen broj ulaznih i izlaznih formata, kao što su FASTA format i GenBank format, a izlaz nije lako uređivati. Dostupno je nekoliko programa za pretvorbu koji pružaju grafička i/ili sučelja naredbenog retka [ mrtva veza ] , kao što su READSEQ i EMBOSS. Postoji i nekoliko programskih paketa koji pružaju ovu funkciju pretvorbe, kao što su BioPython, BioRuby i BioPerl. Datoteke SAM/BAM koriste format niza CIGAR (Compact Idiosyncratic Gapped Alignment Report) za predstavljanje poravnanja sekvence s referencom kodiranjem niza događaja (npr. podudaranje/nepodudaranje, umetanja, brisanja). [6]

Uređivanje formata CIGAR

Ref. : GTCGTAGAATA
Pročitajte: CACGTAG—TA
CIGARA: 2S5M2D2M gdje je:
2S = 2 meka isječka (mogu biti nepodudaranja ili čitanje duže od podudarnog niza)
5M = 5 podudaranja ili nepodudaranja
2D = 2 brisanja
2M = 2 podudaranja ili nepodudaranja

Izvorni format CIGAR iz programa za poravnanje exonerate nije razlikovao nepodudarnosti ili podudaranja s M znakom.

SAMv1 specifikacijski dokument definira novije CIGAR kodove. U većini slučajeva poželjno je koristiti znakove '=' i 'X' za označavanje podudaranja ili nepodudaranja umjesto starijeg znaka 'M', što je dvosmisleno.

  • “Koristi upit” i “konzumira referencu” označavaju da li operacija CIGAR uzrokuje da poravnanje korača duž slijeda upita i referentnog slijeda.
  • H može biti prisutan samo kao prva i/ili posljednja operacija.
  • S može imati samo H operacije između sebe i krajeva niza CIGAR.
  • Za usklađivanje mRNA s genomom, N operacija predstavlja intron. Za druge vrste poravnanja, tumačenje N nije definirano.
  • Zbroj duljina M/I/S/=/X operacija jednak je duljini SEQ

Globalna poravnanja, koja pokušavaju poravnati svaki ostatak u svakoj sekvenci, najkorisnija su kada su sekvence u skupu upita slične i otprilike jednake veličine. (To ne znači da globalna poravnanja ne mogu započeti i/ili završiti u prazninama.) Opća tehnika globalnog poravnanja je Needleman-Wunsch algoritam, koji se temelji na dinamičkom programiranju. Lokalna poravnanja korisnija su za različite sekvence za koje se sumnja da sadrže regije sličnosti ili slične motive sekvence unutar njihovog većeg konteksta sekvence. Smith-Waterman algoritam je opća metoda lokalnog poravnanja koja se temelji na istoj shemi dinamičkog programiranja, ali s dodatnim izborima za početak i završetak na bilo kojem mjestu. [4]

Hibridne metode, poznate kao poluglobalne ili "glokalne" (skraćeno od global-lokal) metode traže najbolje moguće djelomično poravnanje dviju sekvenci (drugim riječima, kombinacija jednog ili oba početka i jednog ili oba kraja navodi se da su poravnati). Ovo može biti posebno korisno kada se nizvodni dio jedne sekvence preklapa s gornjim dijelom druge sekvence. U ovom slučaju, ni globalno ni lokalno poravnanje nije u potpunosti prikladno: globalno poravnanje pokušalo bi prisiliti poravnanje da se proteže izvan područja preklapanja, dok lokalno poravnanje možda neće u potpunosti pokriti regiju preklapanja. [7] Drugi slučaj u kojem je poluglobalno poravnanje korisno je kada je jedna sekvenca kratka (na primjer sekvenca gena), a druga vrlo duga (na primjer kromosomska sekvenca). U tom slučaju, kratki slijed bi trebao biti globalno (potpuno) usklađen, ali je samo lokalno (djelomično) poravnanje poželjno za dugi niz.

Brzo širenje genetskih podataka dovodi u pitanje brzinu trenutnih algoritama za poravnanje sekvenci DNK. Bitne potrebe za učinkovitom i točnom metodom za otkrivanje varijanti DNK zahtijevaju inovativne pristupe za paralelnu obradu u stvarnom vremenu. Pristupi optičkog računanja predloženi su kao obećavajuće alternative trenutnim električnim implementacijama, no njihova primjenjivost tek treba ispitati [1].

Metode parnog poravnanja sekvenci koriste se za pronalaženje najbolje usklađenih podjelnih (lokalnih ili globalnih) poravnanja dvaju nizova upita. Poravnanja u paru mogu se koristiti samo između dva slijeda istovremeno, ali su učinkovita za izračunavanje i često se koriste za metode koje ne zahtijevaju ekstremnu preciznost (kao što je pretraživanje baze podataka za sekvence s velikom sličnošću s upitom). Tri primarne metode za proizvodnju parnih poravnanja su matrične metode, dinamičko programiranje i metode riječi [1], međutim, tehnike višestrukog poravnanja sekvenci također mogu poravnati parove sekvenci. Iako svaka metoda ima svoje pojedinačne prednosti i slabosti, sve tri metode u paru imaju poteškoća s vrlo ponavljajućim sekvencama niskog sadržaja informacija - osobito tamo gdje se broj ponavljanja razlikuje u dvije sekvence koje treba uskladiti.

Maksimalno jedinstveno podudaranje Uredi

Jedan od načina kvantificiranja korisnosti danog poravnanja u paru je 'maksimalno jedinstveno podudaranje' (MUM) ili najduža podniz koji se javlja u oba slijeda upita. Duže MUM sekvence obično odražavaju bližu povezanost. [8] u višestrukom slijedu poravnanja genoma u računskoj biologiji. Identifikacija MUM-ova i drugih potencijalnih sidrišta, prvi je korak u većim sustavima poravnanja kao što je MUMmer. Sidra su područja između dva genoma gdje su vrlo slični. Da bismo razumjeli što je MUM, možemo rastaviti svaku riječ u kratici. Podudaranje implicira da se podniz pojavljuje u oba slijeda koja se moraju poravnati. Jedinstveno znači da se podniz pojavljuje samo jednom u svakoj sekvenci. Konačno, maximal navodi da podniz nije dio drugog većeg niza koji ispunjava oba prethodna zahtjeva. Ideja iza ovoga je da su duge sekvence koje se točno podudaraju i pojavljuju se samo jednom u svakom genomu gotovo sigurno dio globalnog poravnanja.

  • maksimalan je, odnosno ne može se produžiti na oba kraja bez neusklađenosti i
  • jedinstven je u oba niza" [9]

Matrične metode Uređivanje

Dot-matrix pristup, koji implicitno proizvodi obitelj poravnanja za pojedinačne regije sekvence, kvalitativan je i konceptualno jednostavan, iako je dugotrajan za analizu u velikoj mjeri. U nedostatku šuma, može biti lako vizualno identificirati određene značajke sekvence – kao što su umetanja, brisanja, ponavljanja ili obrnuta ponavljanja – iz matričnog dijagrama. Da bi se konstruirao matrični dijagram, dvije sekvence su napisane duž gornjeg retka i krajnjeg lijevog stupca dvodimenzionalne matrice, a točka se postavlja na bilo koju točku gdje se znakovi u odgovarajućim stupcima podudaraju – ovo je tipičan dijagram ponavljanja. Neke implementacije razlikuju veličinu ili intenzitet točke ovisno o stupnju sličnosti dvaju znakova, kako bi se prilagodile konzervativnim zamjenama. Točkasti grafikoni vrlo blisko povezanih sekvenci pojavit će se kao jedna linija duž glavne dijagonale matrice.

Problemi s točkastim dijagramima kao tehnikom prikaza informacija uključuju: šum, nedostatak jasnoće, neintuitivnost, poteškoće u izdvajanju statistike sažetka podudaranja i podudaranja pozicija na dvije sekvence. Također postoji mnogo izgubljenog prostora gdje se podaci o podudaranju inherentno dupliciraju po dijagonali i većinu stvarnog područja grafikona zauzima ili prazan prostor ili buka, i, konačno, točkice su ograničene na dva niza. Nijedno od ovih ograničenja ne vrijedi za Miropeats dijagrame poravnanja, ali oni imaju svoje posebne nedostatke.

Točkasti se također mogu koristiti za procjenu repetitivnosti u jednom nizu. Slijed se može nacrtati naspram sebe i regije koje dijele značajne sličnosti pojavit će se kao linije izvan glavne dijagonale. Ovaj učinak može se dogoditi kada se protein sastoji od više sličnih strukturnih domena.

Dinamičko programiranje Uredi

Tehnika dinamičkog programiranja može se primijeniti za izradu globalnih poravnanja putem Needleman-Wunsch algoritma, a lokalna poravnanja putem Smith-Waterman algoritma. U tipičnoj upotrebi, usklađivanja proteina koriste matricu supstitucije za dodjelu rezultata aminokiselinskim podudarnostima ili nepodudarnostima, i kaznu za razmak za usklađivanje aminokiseline u jednom slijedu s prazninom u drugom. DNK i RNA poravnanja mogu koristiti matricu bodovanja, ali u praksi se često jednostavno dodijeli pozitivan rezultat podudaranja, negativan rezultat nepodudarnosti i negativna kazna za prazninu. (U standardnom dinamičkom programiranju, rezultat svake aminokiselinske pozicije je neovisan o identitetu njezinih susjeda, te se stoga učinci slaganja baza ne uzimaju u obzir. Međutim, moguće je uzeti u obzir takve učinke modificiranjem algoritma.) A uobičajeno proširenje na standardne linearne troškove jaza je korištenje dvije različite kazne jaza za otvaranje jaza i za proširenje jaza. Obično je prvi mnogo veći od drugog, npr. -10 za otvoren razmak i -2 za proširenje zazora. Stoga se broj praznina u poravnanju obično smanjuje, a ostaci i praznine se drže zajedno, što obično ima više biološkog smisla. Gotoh algoritam implementira troškove afinog jaza korištenjem tri matrice.

Dinamičko programiranje može biti korisno u usklađivanju nukleotida s proteinskim sekvencama, što je zadatak kompliciran potrebom da se uzmu u obzir mutacije pomaka okvira (obično umetanja ili brisanja). Metoda pretraživanja okvira proizvodi niz globalnih ili lokalnih parova poravnanja između upitnog nukleotidnog slijeda i traženog skupa proteinskih sekvenci, ili obrnuto. Njegova sposobnost procjene pomaka okvira pomaknutih proizvoljnim brojem nukleotida čini metodu korisnom za sekvence koje sadrže veliki broj indela, što može biti vrlo teško uskladiti s učinkovitijim heurističkim metodama. U praksi, metoda zahtijeva velike količine računalne snage ili sustav čija je arhitektura specijalizirana za dinamičko programiranje. BLAST i EMBOSS paketi pružaju osnovne alate za stvaranje prevedenih poravnanja (iako neki od ovih pristupa iskorištavaju nuspojave mogućnosti pretraživanja sekvenci alata). Općenitije metode dostupne su u softveru otvorenog koda kao što je GeneWise.

Metoda dinamičkog programiranja zajamčeno će pronaći optimalno usklađivanje s obzirom na određenu funkciju bodovanja, međutim, identificiranje dobre funkcije bodovanja često je empirijska, a ne teorijska stvar. Iako je dinamičko programiranje proširivo na više od dvije sekvence, ono je nedovoljno sporo za veliki broj sekvenci ili iznimno duge sekvence.

Word metode Uredi

Metode riječi, također poznate kao k-tople metode, heurističke su metode za koje nije zajamčeno da će pronaći optimalno rješenje poravnanja, ali su znatno učinkovitije od dinamičkog programiranja. Ove metode su posebno korisne u pretraživanjima baze podataka velikih razmjera gdje se podrazumijeva da veliki udio kandidatskih sekvenci u biti neće imati značajnog podudaranja sa nizom upita. Word metode su najpoznatije po implementaciji u alate za pretraživanje baze podataka FASTA i obitelj BLAST. [1] Metode riječi identificiraju niz kratkih podnizova koji se ne preklapaju ("riječi") u slijedu upita koji se zatim uparuju s kandidatskim sekvencama baze podataka. Relativni položaji riječi u dva slijeda koji se uspoređuju oduzimaju se kako bi se dobio pomak koji će ukazati na područje poravnanja ako više različitih riječi proizvodi isti pomak. Samo ako se otkrije ovo područje, ove metode primjenjuju osjetljivije kriterije poravnanja, tako da se eliminiraju mnoge nepotrebne usporedbe sa sekvencama bez značajne sličnosti.

U FASTA metodi korisnik definira vrijednost k koristiti kao duljinu riječi kojom se traži baza podataka. Metoda je sporija, ali osjetljivija pri nižim vrijednostima k, koji su također poželjni za pretraživanja koja uključuju vrlo kratak niz upita. Obitelj metoda pretraživanja BLAST pruža niz algoritama optimiziranih za određene vrste upita, kao što je traženje udaljenih podudaranja sekvenci. BLAST je razvijen kako bi pružio bržu alternativu FASTA-i bez žrtvovanja puno točnosti kao što je FASTA, BLAST koristi traženje riječi po duljini k, ali ocjenjuje samo najznačajnije podudaranja riječi, a ne svaku riječ kao što to čini FASTA. Većina implementacija BLAST-a koristi fiksnu zadanu duljinu riječi koja je optimizirana za upit i vrstu baze podataka, a koja se mijenja samo u posebnim okolnostima, kao što je pri pretraživanju s ponavljajućim ili vrlo kratkim nizovima upita. Implementacije se mogu pronaći putem brojnih web portala, kao što su EMBL FASTA i NCBI BLAST.

Višestruko poravnanje sekvenci proširenje je poravnanja u paru kako bi se uključilo više od dvije sekvence istovremeno. Više metoda poravnanja pokušavaju uskladiti sve sekvence u danom skupu upita. Višestruka poravnanja se često koriste u identificiranju očuvanih regija sekvence u skupini sekvenci za koje se pretpostavlja da su evolucijski povezane. Takvi konzervirani motivi sekvence mogu se koristiti zajedno sa strukturnim i mehaničkim informacijama za lociranje katalitičkih aktivnih mjesta enzima. Poravnanja se također koriste za pomoć u uspostavljanju evolucijskih odnosa izgradnjom filogenetskih stabala. Višestruka poravnanja nizova je računski teško proizvesti i većina formulacija problema dovodi do NP-potpunih kombinatornih optimizacijskih problema. [10] [11] Ipak, korisnost ovih poravnanja u bioinformatici dovela je do razvoja raznih metoda prikladnih za usklađivanje tri ili više sekvenci.

Dinamičko programiranje Uredi

Tehnika dinamičkog programiranja teoretski je primjenjiva na bilo koji broj sekvenci, međutim, budući da je računski skupa u vremenu i memoriji, rijetko se koristi za više od tri ili četiri sekvence u svom najosnovnijem obliku. Ova metoda zahtijeva izgradnju n-dimenzionalni ekvivalent matrice sekvence formirane od dva niza, gdje je n je broj sekvenci u upitu. Standardno dinamičko programiranje prvo se koristi na svim parovima sekvenci upita, a zatim se popunjava "prostor za poravnanje" razmatranjem mogućih podudaranja ili praznina na međupozicijama, na kraju se konstruira poravnanje između svakog poravnanja od dva niza. Iako je ova tehnika računalno skupa, njezino jamstvo globalnog optimalnog rješenja korisno je u slučajevima kada je potrebno točno poravnati samo nekoliko sekvenci. Jedna metoda za smanjenje računalnih zahtjeva dinamičkog programiranja, koja se oslanja na funkciju cilja "zbroj parova", implementirana je u programskom paketu MSA. [12]

Progresivne metode Uredi

Progresivne, hijerarhijske ili metode stabla generiraju višestruko poravnanje sekvenci tako što prvo poravnaju najsličnije sekvence, a zatim dodaju sukcesivno manje povezane sekvence ili grupe u poravnanje dok se cijeli skup upita ne ugradi u rješenje. Početno stablo koje opisuje povezanost sekvenci temelji se na usporedbama u paru koje mogu uključivati ​​heurističke metode parnog poravnanja slične FASTA. Rezultati progresivnog poravnanja ovise o izboru "najsrodnijih" sekvenci i stoga mogu biti osjetljivi na netočnosti u početnim parovima. Većina progresivnih metoda višestrukog poravnanja slijeda dodatno ponderiraju sekvence u skupu upita prema njihovoj povezanosti, što smanjuje vjerojatnost lošeg odabira početnih sekvenci i time poboljšava točnost poravnanja.

Mnoge varijacije progresivne implementacije Clustal [13] [14] [15] koriste se za višestruko poravnanje sekvenci, izgradnju filogenetskog stabla i kao ulaz za predviđanje strukture proteina. Sporija, ali točnija varijanta progresivne metode poznata je kao T-Coffee. [16]

Iterativne metode Uredi

Iterativne metode pokušavaju poboljšati veliku ovisnost o točnosti početnih parnih poravnanja, što je slaba točka progresivnih metoda. Iterativne metode optimiziraju funkciju cilja temeljenu na odabranoj metodi bodovanja poravnanja dodjeljivanjem početnog globalnog poravnanja, a zatim ponovnog poravnanja podskupova sekvenci. Ponovno poravnati podskupovi se zatim sami poravnavaju kako bi se proizvelo višestruko slijed sljedeće iteracije. Različiti načini odabira podskupina sekvenci i ciljne funkcije su pregledani u [17]

Nalaz motiva Uredi

Pronalaženje motiva, također poznato kao analiza profila, konstruira globalna višestruka poravnanja sekvenci koja pokušavaju uskladiti kratke konzervirane motive sekvence među sekvencama u skupu upita. To se obično radi tako da se prvo konstruira opće globalno višestruko poravnanje sekvenci, nakon čega se visoko konzervirane regije izoliraju i koriste za konstruiranje skupa matrica profila. Matrica profila za svaku konzerviranu regiju je raspoređena kao matrica za bodovanje, ali broj njezinih frekvencija za svaku aminokiselinu ili nukleotid na svakoj poziciji izveden je iz distribucije karaktera očuvane regije, a ne iz općenitije empirijske distribucije. Profilne matrice se zatim koriste za traženje drugih sekvenci za pojavljivanje motiva koji karakteriziraju. U slučajevima kada je izvorni skup podataka sadržavao mali broj sekvenci, ili samo vrlo povezane sekvence, dodaju se pseudobrojevi kako bi se normalizirale distribucije znakova predstavljenih u motivu.

Tehnike inspirirane informatikom Uredi

Različiti općeniti algoritmi optimizacije koji se obično koriste u informatici također su primijenjeni na problem višestrukog poravnanja nizova. Skriveni Markovljevi modeli korišteni su za izradu ocjena vjerojatnosti za obitelj mogućih višestrukih poravnanja sekvenci za dani skup upita, iako su rane metode zasnovane na HMM-u proizvele zadivljujuću izvedbu, kasnije aplikacije su ih otkrile posebno učinkovitima u otkrivanju daljinski povezanih sekvenci jer su manje osjetljive na šum stvoren konzervativnim ili polukonzervativnim zamjenama. [18] Genetski algoritmi i simulirano žarenje također su korišteni u optimizaciji rezultata poravnanja višestrukih sekvenci kako se ocjenjuje pomoću funkcije bodovanja kao što je metoda zbroja parova. Potpunije pojedinosti i softverski paketi mogu se pronaći u glavnom članku Višestruko poravnanje slijeda.

Burrows-Wheelerova transformacija uspješno je primijenjena na brzo poravnavanje kratkog čitanja u popularnim alatima kao što su Bowtie i BWA. Vidi FM-indeks.

Strukturna poravnanja, koja su obično specifična za proteinske, a ponekad i RNA sekvence, koriste informacije o sekundarnoj i tercijarnoj strukturi proteina ili RNA molekule da pomognu u usklađivanju sekvenci. Ove se metode mogu koristiti za dvije ili više sekvenci i obično proizvode lokalna poravnanja, međutim, budući da ovise o dostupnosti strukturnih informacija, mogu se koristiti samo za sekvence čije su odgovarajuće strukture poznate (obično putem rendgenske kristalografije ili NMR spektroskopije) . Budući da su i proteinska i RNA struktura evolucijski očuvanije od sekvence, [19] strukturna poravnanja mogu biti pouzdanija između sekvenci koje su vrlo udaljene i koje su se toliko razilazile da usporedba sekvenci ne može pouzdano otkriti njihovu sličnost.

Strukturna poravnanja koriste se kao "zlatni standard" u ocjenjivanju poravnanja za predviđanje strukture proteina na temelju homologije [20] jer eksplicitno poravnavaju regije proteinske sekvence koje su strukturno slične, a ne oslanjaju se isključivo na informacije o sekvenci. Međutim, jasno je da se strukturna poravnanja ne mogu koristiti u predviđanju strukture jer je barem jedan slijed u skupu upita cilj koji se modelira, a za koji struktura nije poznata. Pokazalo se da, s obzirom na strukturnu usklađenost između ciljne i predloške sekvence, mogu se proizvesti vrlo precizni modeli sekvence ciljnog proteina. Glavni kamen spoticanja u predviđanju strukture temeljene na homologiji je proizvodnja strukturno točnih poravnanja koja se daje samo informacijama o sekvenci. . [20]

DALI Uredi

DALI metoda ili poravnanje matrice udaljenosti je metoda koja se temelji na fragmentima za konstruiranje strukturnih poravnanja na temelju obrazaca kontaktne sličnosti između uzastopnih heksapeptida u sekvencama upita. [21] Može generirati parna ili višestruka poravnanja i identificirati strukturne susjede niza upita u Protein Data Bank (PDB). Korišten je za konstruiranje baze podataka strukturnog poravnanja FSSP (Fold classification based on Structure-Structure alignment of Proteins, or Families of Structurally Similar Proteins). DALI web poslužitelju se može pristupiti na DALI, a FSSP se nalazi u Dali Database.

SSAP Uredi

SSAP (program sekvencijalnog poravnanja strukture) je metoda strukturnog poravnanja koja se temelji na dinamičkom programiranju koja koristi vektore atom-atom u prostoru strukture kao točke usporedbe. Proširen je od svog izvornog opisa kako bi uključio višestruka, kao i parna poravnanja, [22] i korišten je u konstrukciji CATH (Class, Architecture, Topology, Homology) hijerarhijske klasifikacije baze podataka proteinskih nabora. [23] CATH bazi podataka može se pristupiti na CATH klasifikaciji proteinske strukture.

Kombinatorsko proširenje Uredi

Kombinatorna metoda proširenja strukturnog poravnanja generira strukturno poravnanje u paru korištenjem lokalne geometrije za poravnavanje kratkih fragmenata dvaju proteina koji se analiziraju, a zatim sastavlja te fragmente u veće poravnanje. [24] Na temelju mjera kao što su srednja kvadratna udaljenost korijena krutog tijela, udaljenosti ostataka, lokalna sekundarna struktura i okolne značajke okoliša kao što je hidrofobnost susjednih ostataka, generiraju se lokalna poravnanja koja se nazivaju "poravnani parovi fragmenata" i koriste se za izgradnju matrice sličnosti koji predstavljaju sva moguća strukturna poravnanja unutar unaprijed definiranih graničnih kriterija. Put od jednog stanja strukture proteina do drugog se zatim prati kroz matriks proširujući rastuće poravnanje jedan po jedan fragment. Optimalni takav put definira poravnanje kombinatornog proširenja. Web-bazirani poslužitelj koji implementira metodu i pruža bazu podataka parnih poravnanja struktura u Protein Data Bank nalazi se na web stranici Combinatorial Extension.

Filogenetika i usklađivanje sekvenci usko su povezana polja zbog zajedničke potrebe procjene povezanosti sekvenci. [25] Područje filogenetike uvelike koristi poravnanja sekvenci u konstrukciji i interpretaciji filogenetskih stabala, koja se koriste za klasifikaciju evolucijskih odnosa između homolognih gena zastupljenih u genomima divergentnih vrsta. Stupanj do kojeg se sekvence u skupu upita razlikuju kvalitativno je povezan s evolucijskom udaljenosti sekvenci jedna od druge. Grubo govoreći, visoka identičnost sekvence sugerira da dotične sekvence imaju relativno mladog najnovijeg zajedničkog pretka, dok nizak identitet sugerira da je divergencija starija. Ova aproksimacija, koja odražava hipotezu o "molekularnom satu" da se otprilike konstantna stopa evolucijske promjene može koristiti za ekstrapolaciju vremena koje je proteklo otkako su se dva gena prvi put razišla (tj. vrijeme spajanja), pretpostavlja da su učinci mutacije i selekcije konstantan u nizovima sekvenci. Stoga ne uzima u obzir moguću razliku među organizmima ili vrstama u stopama popravka DNK ili mogućem funkcionalnom očuvanju specifičnih regija u sekvenci. (U slučaju nukleotidnih sekvenci, hipoteza molekularnog sata u svom najosnovnijem obliku također odbacuje razliku u stopama prihvaćanja između tihih mutacija koje ne mijenjaju značenje danog kodona i drugih mutacija koje rezultiraju ugradnjom različite aminokiseline u protein). Statistički točnije metode dopuštaju da se stopa evolucije na svakoj grani filogenetskog stabla razlikuje, čime se proizvode bolje procjene vremena spajanja gena.

Progresivne tehnike višestrukog poravnanja nužno proizvode filogenetsko stablo jer uključuju sekvence u rastuće poravnanje prema srodstvu. Druge tehnike koje sastavljaju višestruka poravnanja sekvenci i filogenetska stabla prvo ocjenjuju i sortiraju stabla i izračunavaju višestruko poravnanje sekvenci iz stabla s najvećim brojem bodova. Uobičajene metode izgradnje filogenetskog stabla uglavnom su heurističke jer je problem odabira optimalnog stabla, kao i problem odabira optimalnog višestrukog slijeda, NP-težak. [26]

Procjena značaja Uredi

Usklađivanje sekvenci korisno je u bioinformatici za identifikaciju sličnosti sekvenci, proizvodnju filogenetskih stabala i razvoj homoloških modela proteinskih struktura. Međutim, biološka važnost poravnanja sekvenci nije uvijek jasna. Često se pretpostavlja da poravnanja odražavaju stupanj evolucijske promjene između sekvenci koje potječu od zajedničkog pretka, međutim, formalno je moguće da se konvergentna evolucija može dogoditi da proizvede prividnu sličnost između proteina koji evolucijski nisu povezani, ali obavljaju slične funkcije i imaju slične strukture.

U pretraživanjima baze podataka kao što je BLAST, statističke metode mogu odrediti vjerojatnost da će određeno poravnanje između sekvenci ili regija sekvenci proizaći slučajno s obzirom na veličinu i sastav baze podataka koja se pretražuje. Ove vrijednosti mogu značajno varirati ovisno o prostoru pretraživanja. Konkretno, vjerojatnost slučajnog pronalaženja danog poravnanja povećava se ako se baza podataka sastoji samo od sekvenci iz istog organizma kao slijed upita. Ponavljajući nizovi u bazi podataka ili upitu također mogu iskriviti rezultate pretraživanja i procjenu statističke značajnosti BLAST automatski filtrira takve ponavljajuće sekvence u upitu kako bi izbjegao očite pogotke koji su statistički artefakti.

U literaturi su dostupne metode procjene statističke značajnosti za poremećene sekvence. [25] [27] [28] [29] [30] [31] [32] [33]

Ocjena vjerodostojnosti Uredi

Statistička značajnost ukazuje na vjerojatnost da bi poravnanje određene kvalitete moglo nastati slučajno, ali ne pokazuje koliko je dano poravnanje superiornije u odnosu na alternativna poravnanja istih sekvenci. Mjere vjerodostojnosti poravnanja pokazuju u kojoj su mjeri najbolja bodovna poravnanja za dati par sekvenci u osnovi slična. U literaturi su dostupne metode procjene vjerodostojnosti poravnanja za poravnanja s razmakom. [34]

Funkcije bodovanja Uredi

Odabir funkcije bodovanja koja odražava biološka ili statistička opažanja o poznatim sekvencama važan je za stvaranje dobrog poravnanja. Proteinske sekvence se često usklađuju korištenjem matrica supstitucija koje odražavaju vjerojatnosti danih zamjena od znaka do znaka. Niz matrica nazvanih PAM matrice (Matrice mutacije s točkom prihvaćene, izvorno definirane od strane Margaret Dayhoff, a ponekad nazvane "Dayhoff matrice") eksplicitno kodiraju evolucijske aproksimacije u vezi sa stopama i vjerojatnostima određenih mutacija aminokiselina. Drugi uobičajeni niz matrica bodovanja, poznat kao BLOSUM (matrica zamjene blokova), kodira empirijski izvedene vjerojatnosti zamjene. Varijante obje vrste matrica koriste se za otkrivanje sekvenci s različitim razinama divergencije, čime se dopušta korisnicima BLAST-a ili FASTA-e da ograniče pretraživanja na bliže povezane podudarnosti ili prošire za otkrivanje više divergentnih sekvenci. Kazne za razmake uzimaju u obzir uvođenje jaza - na evolucijskom modelu, mutacije umetanja ili brisanja - i u nukleotidne i u proteinske sekvence, pa bi stoga vrijednosti kazne trebale biti proporcionalne očekivanoj stopi takvih mutacija. Kvaliteta izvedenih poravnanja stoga ovisi o kvaliteti funkcije bodovanja.

Može biti vrlo korisno i poučno isprobati isto poravnanje nekoliko puta s različitim izborima za bodovanje matrice i/ili vrijednosti kazne za razmak i usporediti rezultate. Regije u kojima je rješenje slabo ili nejedinstveno često se mogu identificirati promatranjem koja su područja poravnanja otporna na varijacije u parametrima poravnanja.

Sekvencionirana RNA, kao što su ekspresirane oznake sekvence i mRNA pune duljine, može se uskladiti sa sekvenciranim genomom kako bi se pronašlo gdje se nalaze geni i dobile informacije o alternativnom spajanju [35] i uređivanju RNA. [36] Poravnavanje sekvence također je dio sklopa genoma, gdje se sekvence poravnavaju kako bi se pronašlo preklapanje tako da kontigi (dugi dijelovi slijeda) mogu se formirati. [37] Druga upotreba je SNP analiza, gdje se sekvence različitih individua poravnavaju kako bi se pronašli pojedinačni parovi baza koji se često razlikuju u populaciji. [38]

Metode korištene za usklađivanje bioloških sekvenci također su našle primjenu u drugim područjima, ponajviše u obradi prirodnog jezika i u društvenim znanostima, gdje se Needleman-Wunsch algoritam obično naziva optimalnim podudaranjem. [39] Tehnike koje generiraju skup elemenata iz kojih će se birati riječi u algoritmima za generiranje prirodnog jezika posudile su višestruke tehnike poravnanja sekvenci iz bioinformatike kako bi proizvele lingvističke verzije računalno generiranih matematičkih dokaza. [40] U području povijesne i komparativne lingvistike, usklađivanje niza korišteno je za djelomično automatizaciju komparativne metode kojom lingvisti tradicionalno rekonstruiraju jezike. [41] Poslovna i marketinška istraživanja također su primijenila više tehnika usklađivanja sekvenci u analizi serija kupnji tijekom vremena. [42]

Potpuniji popis dostupnog softvera kategoriziranog prema algoritmu i vrsti poravnanja dostupan je u softveru za poravnavanje sekvenci, ali uobičajeni softverski alati koji se koriste za opće zadatke poravnanja sekvenci uključuju ClustalW2 [43] i T-coffee [44] za poravnanje i BLAST [45] i FASTA3x [46] za pretraživanje baze podataka. Dostupni su i komercijalni alati kao što su DNASTAR Lasergene, Geneious i PatternHunter. Alati označeni kao izvođenje poravnanja sekvenci navedeni su u registru bio.tools.

Algoritmi i softver za poravnanje mogu se međusobno izravno uspoređivati ​​korištenjem standardiziranog skupa referentnih referentnih višestrukih slijedova poravnanja poznatih kao BAliBASE. [47] Skup podataka sastoji se od strukturnih poravnanja, što se može smatrati standardom s kojim se uspoređuju metode koje se temelje isključivo na sekvenci. Relativna izvedba mnogih uobičajenih metoda poravnanja na čestim problemima poravnanja prikazana je u tablici, a odabrani rezultati objavljeni online na BAliBASE-u. [48] ​​[49] Opsežan popis BAliBASE rezultata za mnoge (trenutačno 12) različitih alata za poravnanje može se izračunati unutar proteinskog radnog stola STRAP. [50]


Rezultati

Mape genetskih veza

ARG genetska karta (Slika 1 i Slika S3) sastojala se od 1626 EST-SNP markera i 17 LG-a koji pokrivaju 1337 cM (Tablica S1). Ovo predstavlja povećanje od >1300 lokusa u odnosu na prethodnu ARG kartu koju je konstruirao Heesacker et al. (2009.) i smanjenje s 21 na 17 LG-a (tj., haploidni broj kromosoma ARG). Prosječna udaljenost između markera (isključujući kolokalizirajuće markere) bila je 2,4 cM s maksimalnim razmakom od 45,7 cM (ARG10). ARG karta sastojala se od 567 jedinstvenih lokacija markera s 285 (50%) od tih pozicija koje imaju dva ili više kolokaliziranih markera po poziciji [prosjek 4,8, maksimalno (maks.) 98] (Tablica S2). Genetska karta NIV (Slika 1 i Slika S3) sastojala se od 1194 markera, 17 LG-a i protezala se na 1478 cM (Tablica S1). Prosječna udaljenost međumarkera bila je 2,7 cM s maksimalnim razmakom od 22,7 cM na NIV9. Karta NIV-a pokazala je slične razine kolokalizacije markera s 562 jedinstvene lokacije markera od kojih 249 (44%) ima dva ili više kolokaliziranih markera po poziciji (prosjek 3,6, max 26) (Tablica S2).

Karte genetskih veza Helianthus argophyllus (ARG) i H. niveus ssp. tefrode (NIV). ARG i NIV grupe veza (LG) su označene i kodirane bojom na temelju makrosintenije s H. annuus (ANN) kromosomi ANN1–17 (Bowers et al. 2012.). Sivi segmenti sadrže oznake koje su mapirane na više ANN LG-ova, ne uključujući taj određeni ARG ili NIV LG šrafiranje označava regiju koja je obrnuta u odnosu na ANN, crne strelice označavaju translocirane segmente koji su također obrnuti u odnosu na ANN. Ljestvica lijevo je u centimorganima (cM). Vidi sliku S2 za više detalja.

Synteny procjenjuje

Sintenija između ANN, ARG i NIV za oba skupa markera u paru vrsta (ANN/ARG, ANN/NIV i ARG/NIV) i ukupnog skupa od 295 homolognih markera mapiranih u sve tri vrste prikazana je na slici 2, Slika S4 i Slika S5. Segmenti koji nisu bili kolinearni između vrsta klasificirani su kao obrnuti, a segmenti koji su bili nesintenički klasificirani su kao translocirani (Tablica S3). Imajte na umu da su ove oznake napravljene u odnosu na kartu konsenzusa ANN radi konzistentnosti s postojećom kromosomskom nomenklaturom i da se ne bi trebale tumačiti kao da ukazuju na pretke vs. izvedena stanja. Mogućnost identificiranja preuređenih regija diktira rezolucija markera, koja je definirana i brojem i distribucijom zajedničkih markera. Najmanji invertirani i/ili translocirani segment koji je otkriven bio je 1,1 cM odnosno 2,1 cM za ARG i NIV karte. Prosječna veličina bila je 11,1 cM i 16,7 cM (Tablica S4). Približno 70% obje karte imalo je odgovarajuću razlučivost markera za otkrivanje preuređenih segmenata od >6 cM, a ∼20% karata imalo je razlučivost markera za otkrivanje preuređenja od <2 cM (slika S6 i slika S7).

Genetske karte Helianthus argophyllus (ARG) i H. niveus ssp. tefrode (NIV) u usporedbi s konsenzusnom mapom H. annuus (ANN) iz Bowersa et al. 2012. Kodiranje boja i nomenklatura kromosoma slijede sliku 1. Homologni markeri povezani su linijama. Uključeni su samo ANN markeri mapirani u ARG ili NIV. Vidi sliku S3 i sliku S4 za više detalja.

ANN vs. ARG:

Markeri parova vrsta ANN/ARG (n = 1455) otkrili su prisutnost 12 uglavnom sinteničkih LG-a (1–3, 5, 8–11, 13–15 i 17), 10 obrnutih segmenata i osam translociranih segmenata (Tablica S1 i Tablica S3). Na bazi cijelog genoma (Slika S8), 83% ARG karte je sintetično s ANN konsenzusom, 12% je translocirano, a 5% invertirano. Identificirana su četiri glavna translocirana segmenta: dva nerecipročna translocirana segmenta koji uključuju LG-e ARG4/7 i ARG6/15 i jedan recipročni translocirani segment koji uključuje LG-e ARG12/16 i ARG16/12. Vezana skupina ARG4/7 sastavljena je od segmenta proksimalnog dijela ANN4 umetnutog kao dva dijela u proksimalno područje ANN7. Translocirani segment LG4 obuhvaćao je 6 cM u ANN i 21 cM u ARG. Skupina povezivanja ARG6/15 sastojala se od ANN6 i distalnog kraja ANN15. Skupine veza ARG12/16 i ARG16/12 formirale su recipročno translocirani LG od ANN12 i ANN16. Obrnuti segmenti identificirani su na nekoliko LG-a (1, 2, 4, 5 i 8–11).

Procjena ANN/ARG sintenije na temelju podskupa od 295 markera mapiranih u sve tri vrste bila je nešto viša (89 vs. 83%) sa samo tri invertirana segmenta i tri translocirana segmenta (slika S5, slika S8 i slika S9). Manji broj preuređenih segmenata procijenjen korištenjem ovog podskupa markera vjerojatno je bio posljedica smanjene gustoće markera (1626 markera vs. 295 markera) i pokrivenost karte (samo 62%), s ograničenom pokrivenošću (<25%) na LG-ima 4, 4/7, 10 i 15 (Tablica S5).

ANN vs. NIV:

Cijeli skup homolognih EST-SNP markera (n = 1058) mapirano u NIV i ANN pokazalo je prisutnost 10 uglavnom sinteničkih LG-a (1, 2, 5, 8–11 i 13–15), 13 invertiranih segmenata i 18 translociranih segmenata (Tablica S1). Na bazi cijelog genoma (slika S8), 64% NIV karte bilo je sintenično s ANN konsenzusom (vs. 83% za ARG), 19% je translocirano, a 17% invertirano. Ista četiri glavna translocirana LG-a identificirana u ARG (tj., ARG4/7, ARG6/15, ARG12/16 i ARG16/12) također su identificirani u NIV (tj., NIV4/7, NIV6/15, NIV12/16 i NIV17/16/12), uz nerecipročni translocirani segment distalnog kraja ANN13 na proksimalni kraj ANN4 koji tvori LG NIV13/4. Slično ARG4/7, NIV4/7 je također sadržavao translocirani segment proksimalnog dijela ANN4 umetnut kao jedan komad (vs. dva komada u ARG) u proksimalnu regiju ANN7. Zanimljivo je da se NIV6/15 sastojao od ANN6 i obrnutog proksimalnog kraja ANN15, dok je u ARG-u ovaj translocirani segment uključivao suprotni (distalni) kraj ANN15 (slika 2, slika S4 i slika S5). NIV12/16 i NIV17/16/12 formirali su recipročno translocirani LG od ANN12 i ANN16 slično kao u ARG, međutim, u NIV je distalni kraj ANN17 također bio translociran na proksimalni kraj jednog od NIV recipročnih LG-a koji tvore NIV17/16/ 12. Osim toga, identificiran je i mali translocirani segment ANN16 umetnut u distalni kraj NIV10, kao i niz drugih malih, translociranih regija koje sadrže markere iz više ANN LG-ova na NIV LG-ovima 2, 13/4, 4/7, 9 , 11, 14 i 17. Obrnuti segmenti u odnosu na ANN identificirani su na NIV LG-ima 1, 3, 13/4, 5, 8–11 i 14 s velikim obrnutim segmentima na NIV LG-ima 8 i 9 koji pokrivaju >gt50 cM.

Procjena sintenije ANN/NIV na temelju podskupa od 295 markera mapiranih u sve tri vrste iznosila je 69%, s pet obrnutih segmenata i 10 translociranih segmenata (slika S5, slika S8 i slika S9). Pokrivenost karte u NIV-u korištenjem ovog podskupa markera bila je bolja (74 vs. 62%) nego u ARG-u, uz slabu pokrivenost ograničenu samo na NIV10 (7%) (Tablica S5).

ARG vs. NIV:

ARG i NIV bili su uglavnom sintenički (71-75%) jedan prema drugom s manjim obrnutim ili translociranim segmentima na LG-ima 1-3, 5, 8, 11 i 13, te velikim invertiranim segmentom na LG-u 9 (Slika S10). Kao što je ranije spomenuto, čini se da ARG i NIV dijele brojne translocirane LG-ove u odnosu na ANN, a unutar tih preuređenih segmenata sinteza je uglavnom bila očuvana (npr., proksimalni dio 6/15, 12/16 i distalni dijelovi ARG16/12 i NIV17/16/12). Općenito, pokrivenost markerima bila je prikladna za procjenu sinteze između ARG-a i NIV-a, osim LG-a 10, koji je dijelio samo dva homologna markera s preostalim markerima (četiri u ARG-u i tri u NIV-u) koji se preslikavaju na druge LG-e (5, 8 i 12). /16 u ARG i 2, 5 i 6/15 u NIV).

Populacijska genomska divergencija

Identificirali smo 205.372 SNP-a između ANN-a i ARG-a na temelju naših strogih kontrola kvalitete. Iz ovog odabranog skupa podataka, prosjek za cijeli genom FSV između ANN-a i ARG-a bio je 0,34 ± 0,14 (srednja vrijednost ± SD), s prosjekom od 0,43 ± 0,14 za najpodržanije preraspodjele (0,45 ± 0,12 za obrnute segmente, 0,42 ± 0,15 za translocirane segmente) vs. 0,31 ± 0,13 za ravnotežu genoma (vidi sliku 3 za vizualni sažetak ovih rezultata). Raspodjela i vrijednosti D bili dobro povezani s promatranim FSV vrijednosti (slika S11 i slika S12). Prosjek za cijeli genom D između ANN-a i ARG-a bio je 0,26 ± 0,13 (srednja vrijednost ± SD) s prosjekom od 0,36 ± 0,14 za najbolje podržane preraspodjele (0,36 ± 0,12 za invertirane segmente i 0,35 ± 0,14 za translocirane segmente) vs. 0,24 ± 0,12 za ravnotežu genoma (vidi sliku S11 za vizualni sažetak ovih rezultata). Na temelju testa randomizacije gdje FSV (ili D) statistike su nasumično dodijeljene pozicije genomske karte, a prosječne vrijednosti za preuređene vs. nepreuređeni dijelovi genoma su ponovno izračunati (to je učinjeno 1.000.000 puta za oba FSV i D), uočene razlike su bile vrlo značajne (P < 0,0001). Slične vrijednosti (P < 0,0001) dobiveni su korištenjem neparametarskog Wilcoxonovog testa zbroja ranga uspoređujući preuređene vs. nepreuređeni dijelovi genoma za FSV (ili D) statistika. FSV i D za regije unutar 5 cM od graničnih točaka između preuređenih i nepreuređenih segmenata (0,39 ± 0,15 i 0,31 ± 0,14, redom) bile su nešto manje od vrijednosti uočenih za cijele preuređene regije, ali su i dalje bile značajno (P < 0,0001 Slika 3 i Slika S11) povišeno u odnosu na nepreuređena područja.

Divergencija u cijelom genomu (FSV) između Helianthus annuus (ANN) i H. argophyllus (ARG) u sintenskim i preuređenim regijama genoma. Sintenički dijelovi genoma obojeni su sivom bojom, preuređeni dijelovi su crvenom bojom, a 5-cM regije koje se nalaze u susjedstvu preuređenja su žute boje. Horizontalna isprekidana linija predstavlja srednju vrijednost za cijeli genom FSV. Grupe povezivanja u ANN-u i njihova odgovarajuća lokacija u ARG-u prikazane su ispod x-os. Obrnuti kromosomski segmenti prikazani su zelenom bojom, dok su translocirani segmenti u ARG-u plavom, narančastom, svijetloljubičastom ili tamnoljubičastom bojom.


Rasprava

Mnoštvo studija temeljenih na molekularnim markerima dovelo je do boljeg razumijevanja genetskog sastava Brassica vrsta. SNP markeri bili su od vitalnog značaja za (fino) mapiranje gena od agronomske važnosti s ciljem provedbe oplemenjivanja elitnih kultivara uz pomoć markera. SNP-ovi su raspoređeni mnogo češće u genomu i korišteni su za razvoj molekularno genetskih mapa visoke gustoće i fino mapiranje regije od interesa. Obilje SNP-a u genomu, niska stopa mutacija i visoka heritabilnost nadoknađuje nedostatak bialelizma. SNP-ovi se nalaze nasumično raspoređeni po cijelom genomu iu područjima koja se ponavljaju i koja se ne ponavljaju, međutim oni prisutni u genskim/nerepetitivnim regijama su od velike važnosti. Prisutnost ortolognih regija među progenitorima alopoliploidnog genoma dodaje dodatni sloj složenosti genoma uz elemente koji se ponavljaju. Međutim, nedavni napredak u smanjenju složenosti genoma u kombinaciji s NGS tehnologijama bio je vrlo uspješan u razvoju SNP-ova u usjevima za cijeli genom.

U trenutnoj studiji, par probave restrikcijskih enzima (gđoja i SacI) korišten je za ddRAD sekvenciranje jedinstvenih regija B. juncea. Slična tehnika smanjenja složenosti genoma također je korištena u nekoliko vrsta usjeva [22,23,24] životinja [25] i insekata [26, 27]. Predloženo je nekoliko modifikacija ove tehnike. U slučaju drugih poliploidnih usjeva (pamuk), korištena je tehnika GR-RSC (Genome Reduction-Restriction Site Conservation) i kombinacija EkoRI i BfaI restrikcijski enzimi korišteni su s odabirom veličine između 450 i 600 bp [28] dok je druga studija radije koristila kombinaciju EkoRI i MspI s odabirom veličine oko 200-400 bp [25].

Nakon sekvenciranja genotipova, dobiveno je ukupno 2300 MB podataka o sekvenciji parnih krajeva od šest B. juncea genotipova s ​​prosjekom od 383,33 MB od svakog genotipa. Slično je dobiveno prosječno 147,3 MB podataka nakon dd-RAD sekvenciranja riže [29]. S obzirom na veličinu genoma B. juncea od 955 MB i podataka sekvenciranja pojedinačnog čitanja iz šest genotipova od 1150 MB, pojedinačni genotip predstavlja u prosjeku 20% cijelog genoma i na taj način smanjuje složenost genoma za gotovo pet puta. Druga studija na vrstama Brassica izvijestila je o smanjenju gotovo sličnog dijela genoma nakon ddRAD [30]. Prosječna ocjena kvalitete za oba očitanja bila je u rasponu od 34,63 do 35,40, a 90% podataka o sekvenci s Q ocjenom od najmanje 30 ukazuje da su očitanja sekvenciranja bila visoke kvalitete za referentno poravnanje genoma i identifikaciju SNP-a. Prijavljeni su slični rezultati kvalitete za sekvenciranje velike propusnosti s različitim metodama smanjenja složenosti genoma (SLAF-seq) u čaju [31]. Zbog visokog Q rezultata, veliki udio (gotovo 83%) očitanja sekvence bio je mapiran na jedinstvene pozicije u referentnom genomu što ukazuje na korisnost ddRAD metode za ciljanje jedinstvenih regija u genomu. Mapiranje očitanja u jedinstvene regije također je osiguralo da SNP-ovi iz dupliciranih ili paralognih regija budu isključeni za daljnju analizu.

Tipično, SNP-ovi su raspoređeni po cijelom genomu i utvrđeno je da je prosječna učestalost distribucije SNP-ova između 100 nt do 500 nt. U ovoj studiji, pojava 93% hipervarijabilnih regija (vrućih točaka) SNP-a u kodirajućim regijama Brassica juncea sa SNP-ovima raspoređenim u uzvodno, nizvodno i u međugenskim regijama kodirajućih regija. Većina ovih hipervarijabilnih regija imala je SNP frekvenciju manju od 10 nt. Nadalje, otkrivanje 40 gena/kodirajućih sekvenci u kromosomskim regijama u kojima se nalaze žarišta SNP-a može ukazivati ​​na moguću regulatornu ulogu ovih SNP-ova u ekspresiji ovih gena. Iako je nekoliko prethodnih studija izvijestilo o takvim žarišnim točkama SNP u repetitivnim regijama uglavnom zbog pogrešaka DNA polimeraze što je rezultiralo klizanjem niti i nejednakom razmjenom [32, 33] ili zbog prisutnosti mutacijskih žarišta ili žarišta rekombinacije [34]. Utvrđeno je da su žarišta SNP-a duž svakog kromosoma raspoređena nasumično, a broj SNP-ova uključenih u takva žarišta kretao se od četiri do jedanaest unutar 50 nt kromosomske regije u trenutnoj studiji. Uloga visokog selekcijskog pritiska zbog ekološkog stresa mogla bi dovesti do nakupljanja mutiranih alelnih mjesta u genskim regijama koja poboljšavaju preživljavanje usjeva u nepovoljnim uvjetima okoliša [35, 36].

Visok udio (97%) funkcionalnih SNP-ova u nizu vrlo raznolikih genotipova ukazuje na točnost ddRAD tehnologije da uvijek cilja isti lokus na različite pojedince tijekom pripreme knjižnice i djelomično zbog poboljšanih bioinformatičkih alata za mapiranje sekvenci i identifikaciju SNP-ova za složeni i poliploidni usjevi. SNP-ovi identificirani kroz RAD-seq i njegove modifikacije u prethodnim studijama pokazali su slične razine funkcionalnosti i u drugim usjevima [37, 38]. Bialelni podaci dobiveni iz podskupa od 61 funkcionalnog SNP-a u ovoj studiji mogli su grupirati različite B. juncea genotipove u dva velika klastera - indijski i egzotični (europski) genepool. Rezultati raznolikosti i grupiranja u skladu su s prethodnim studijama temeljenim na SSR-u i drugim sustavima markera. Analiza raznolikosti temeljena na SNP-u također je zaključila da bi mali podskup jednoliko raspoređenih SNP-a bio vrlo koristan za različite genetske analize.

Morfološka karakterizacija šest osobina otkrila je vrlo zanimljive obrasce na korelacijskoj matrici. Bimodalna distribucija za DTF i DTM nakon kombinirane analize svih genotipova pokazala je da su ove dvije osobine kontrolirane različitim skupom gena u indijskim i europskim genskim fondovima. Europski genofon je tradicionalno udomaćen u uvjetima niskih temperatura kratkog dana, dok je indijski genofon pogodniji za sjetvu u uvjetima umjerene do niske temperature koji se uglavnom nalaze u sjeverozapadnim ravnicama indijskog potkontinenta. Hipoteza o različitom skupu gena koji kontroliraju DTF i DTM u indijskim i europskim genskim fondovima dodatno je ojačana dobivanjem unimodalne distribucije za DTF i DTM u korelacijskim matricama pojedinačno za indijske i europske genske fondove. Međutim, detaljna interakcija između genotipa i fenotipa mogla bi se proučavati poduzimanjem QTL analize i drugih genetskih analiza.

U ovoj studiji, zajednički podskup od 61 SNP-a korišten je za analizu raznolikosti, strukture populacije i povezanosti. Za analizu raznolikosti i strukture populacije, podskup SNP-ova mogao je grupirati 80 genotipova u dvije različite skupine, od kojih je svaki bio previše zastupljen genotipovima bilo iz indijskih i europskih (egzotičnih) genopula, što je ukazivalo na korisnost strategije koja uključuje korištenje rijetkih, ali ujednačenih lokalizirani SNP za razne genetske analize.

Podskup SNP-ova koji predstavljaju sve kromosomske regije B. juncea korišten je za identificiranje značajnih asocijacija markera i osobina. Analiza povezanosti korištenjem SNP podskupine uspjela je lokalizirati gene za različita agromorfološka svojstva na različitim kromosomima, identificirajući regije genoma za poduzimanje finog mapiranja svojstava/genomskih regija s velikim brojem molekularnih markera. Većina SNP-ova identificirala je povezanost s više svojstava, što u biti ukazuje na grupiranje gena za više svojstava ili na uključenost istog skupa gena koji reguliraju više svojstava u istim genomskim regijama. Među tim osobinama, DTF i DTM su uvijek imali zajedničku SNP/genomsku regiju povezanu s njima, što implicira da su geni za ove dvije osobine skupljeni zajedno i/ili vjerojatno imaju koreliranu/koordiniranu ekspresiju gena. Nedavna studija, koristeći F2 kartiranje stanovništva, u Brassica napus također je identificirao ko-lokalizaciju QTL-ova (i eQTL-ova) za vrijeme cvatnje i različite morfološke osobine povezane s rastom u zajedničkoj genomskoj regiji kromosoma A10 [39]. U drugoj studiji, QTL-ovi za različite kvalitete i nutritivne osobine ponovno su mapirani na uobičajene regije genetske karte populacije DH (dvostruki haploid) u Brassica napus [40]. Takvi skupovi QTL-ova za više svojstava također su prijavljeni pomoću linija supstitucije segmenta kromosoma (cssls) u Brassica rapa [41]. Visoka korelacija između DTF i DTM osobina, u trenutnoj studiji, između indijskih i europskih genskih skupova također ukazuje na visoku vjerojatnost povezivanja zajedničkih genomskih regija (i SNP-ova) za obje osobine kao što je navedeno i u jednoj od ranijih studija [42 ].

Prisutnost zajedničkog genoma predaka između tri poliploidne vrste dovela je do identifikacije i usporedbe rezultata analize povezanosti. U trenutnoj studiji, asocijacije za DTF mapirane su na kromosome A i B genoma. Slično su geni za vrijeme cvatnje identificirani i na A- i B- podgenomima B. juncea [43]. Dvije vrlo značajne asocijacije za DTF identificirane su svaka na 6,8 MB (A06_6796237) i 23,4 MB (A06_23478761) u trenutnoj studiji su u skladu s rezultatima za gene povezane s vremenom cvjetanja (FTR). Trideset tri gena povezana s vremenom cvjetanja (FTR) identificirana su na kromosomu A06 između 7,2 MB – 21,6 MB regija korištenjem transkriptomske analize [44]. Rezultati analize povezanosti tekuće studije pokazali su da bi podskup rijetkih, ali jednolično lokaliziranih SNP-ova bio vrlo koristan za razgraničenje genomskih regija za osobine od interesa.


Podaci o autoru

Ruqian Lyu i Vanessa Tsui zajednički su prvi autori i dali su veliki doprinos rukopisu.

Pripadnosti

Bioinformatika i stanična genomika, Institut za medicinska istraživanja St. Vincenta, Melbourne, Australija

Ruqian Lyu i Davis J. McCarthy

Melbourne Integrative Genomics, Prirodoslovno-matematički fakultet, Sveučilište u Melbourneu, Melbourne, Australija

Ruqian Lyu i Davis J. McCarthy

Laboratorij za popravak i rekombinaciju DNK, Institut za medicinska istraživanja St. Vincenta, Melbourne, Australija

Vanessa Tsui i Wayne Crismani

Fakultet medicine, stomatologije i zdravstvenih znanosti Sveučilišta u Melbourneu, Melbourne, Australija



Komentari:

  1. Devonn

    posjetila vas je ideja koja jednostavno blista

  2. Groramar

    Mislim, da počinite pogrešku. Mogu braniti položaj. Pišite mi u PM, komunicirat ćemo.

  3. Harris

    Prepustit ću se neću se složiti s tobom

  4. Eldrick

    Apsolutno si u pravu. U njemu je nešto i meni se čini da je to vrlo izvrsna ideja. Složit ću se u potpunosti s tobom.

  5. Farr

    Siguran sam da je ovo - pogrešan način.

  6. Lueius

    I agree, the useful message



Napišite poruku