Eukaryotic Gene Finding

Phạm Quang Minh
(Minh172)

New Member
"bạn" THà với những ai học biology giải thích hộ Minh bé một cái. Mình thấy họ dùng một số cái như: upstream promoter elements, open reading frame (ORF), CpG islands GC content, codon bias... để predict genes.

Chỉ hiểu đại khái là Eukaryotic Gene Finding khó hơn Prokaryotic Gene Finding nhưng mà không biết là nó work như thế nào.

Không hiểu tại sao người ta đã gần giải mã xong bộ gene của người :(
 
Chỉnh sửa lần cuối:
Vậy Minh bé muốn hỏi gì? Hỏi về các thuật ngữ đó, hỏi tại sao Eukaryotic Gene Finding khó hơn Prokaryotic Gene Finding , hay hỏi tại sao người ta đã gần giải mã xong bộ gene của người. Mà lẽ ra phải là :) ở cuối bài chứ sao lại là :( nhỉ?
 
Để giải thích tất cả những cái đấy, be' TH thử nói về Eukaryotic Gene Finding trên một sepuence cụ thể như:

atcaatctca........tttacttggtctatttaaaa....

khoảng vài nghìn bp thì làm thế nào.

Ví dụ như trong Prokaryotic Gene Finding Minh thấy họ thường tìm all possible ORF, ở Eukaryotic Gene Finding thì việc xác định ORF khó hơn, vì thế phải dùng thêm những tính chất khác. Nhưng thấy nó rất tương đối, vì vậy không hiểu tại sao lại có thể nhận dạng gene một cách cụ thể và chính xác.
 
Chịu, Minh bé bắt chị nói kỹ từng bước trên 1 cái sequence cụ thể thế thì chịu. Cái này chắc muốn trả lời phải tra lại sách vở cẩn thận mà mấy tháng nay thì chị đang có exam liên tục. Thử nói về mấy thuật ngữ kia vậy nhé:

1. Cái khái niệm upstream promoter elements Minh bé đưa ra là gì thế? Chị mới chỉ nghĩ ra là chắc chắn phải bao gồm TATA box hoặc initiator element. Đây là 1 highly conserved nucleotide sequence~25-35 base pairs upstream của start site. TATA box hoạt động chức năng tương đương với E. Coli promoter để RNA polymerase II khởi đầu phiên mã.

2. Hầu hết những gene không chứa TATA box hoặc initiator elements thì sẽ chứa 1 đoạn khoảng 20-50 nu giàu CG cách vùng start site khoảng 100-200 base. Chính vùng này gọi là CpG islands vì nó xuất hiện giữa 1 sea DNA sequences low in CG residues. Trong quá trình phiên mã, nhân tố SP1 sẽ nhận biết ra vùng này.

Trong gene Finding, không thể chỉ bắt đầu từ start site. Start codon thì là AUG rồi và các possible OFR cũng chỉ có 3, rite? Nhưng mà việc xác định đoạn trước promoter mới là rất khó, chính vì thế người ta phải dựa vào rất nhiều yếu tố như TATA box, initiator elements hoạc promoter proximal elements... Mỗi thử sẽ đóng góp vài phần trăm cho việc nhận dạng gene.

Khó nhận biết các đoạn trước promoter là 1 trong những lý do khiến Eukaryotic Gene Finding khó hơn Prokaryotic Gene Finding. Ngoài ra chị nghĩ 1 lý do quan trọng khác là việc eukaryotic genome có sự xen kẽ giữa intron và exon -> RNA splicing. Xuất phát từ 1 gene nhưng do bị spliced in various ways -> nhiều mRNA khác nhau -> 1 protein family. Trên thực tế, khi tạo thư viện cDNA rất hay xảy ra hiện tượng chạy điện di sau PCR vẫn thấy xuất hiện 1 loạt băng->khó khăn trong việc nhận dạng gene.

Tại sao người ta vẫn có thể làm cụ thể và chính xác được: phải dựa vào rất nhiều yếu tố mà (đợi chị hỏi thêm và đọc lại sách đã):)
 
Chỉnh sửa lần cuối:
Những cái đấy thì Minh bé biết nhưng để áp dụng vào một sequence cụ thể thì làm thế nào. Vì Minh bé học bioinformatics nên quan tâm nhiều hơn đến thuật toán.

Ví dụ như dùng GC content, isochores..muốn xác định L1, L2, H1, H2, H3 tương ứng với 39%, 42%, 46%, 49%, 54% GC content on average ( H3 chỉ chiếm 5% genome nhưng chứa 80% "housekeeping" genes... )

Giả sử muốn tìm H3. Minh bé nghĩ là người ta sẽ dùng một cái window site khoảng vài nghìn bp, sau đó duyệt từ trái sang phải sequence tính % GC, rồi so sánh nó với nhau, tìm cái có % GC cao nhất. Nhưng nếu như thế vẫn không hiểu là sẽ xác định điểm bắt đầu và kết thúc của H3 ở đâu. Vì vậy chỉ xác định H3 một cách rất tương đối trên sequence.

Tương tự việc xác định ORF cũng chỉ là tương đối, vậy làm thế nào để có thể identify gene một cách chính xác trên một sequence cụ thể?
 
Thế này thì Minh bé phải kiếm người khác hỏi, hiểu rồi thì giải thích luôn cho chị nghe với. :)
 
Theo Minhbe thì Eukaryotic Gene Finding khó hơn Prokaryotic Gene Finding tại vì:

- Interrupted genes (split genes)

introns and exons

- Large genomes

- Most DNA is non-coding

introns, regulatory regions, “junk” DNA (unknown function)
About 3% coding

- Complex regulation of gene expression

Regulatory sequences may be far away from start codon.

“split” genes make it difficult to define ORFs

Thế nên phần lớn các chương trình sẽ cố gắng tìm kiếm Exon thay vì ORFs.
 

Đính kèm

  • genes.gif
    genes.gif
    6.5 KB · Xem: 33
Như vậy phần lớn các chương trình bắt đầu bằng MSA, so sánh với những genes đã biết rồi, sau đó thì kiểm tra những cái khác, tất cả đều tương đối, nên là chương trình cũng chỉ dựa vào xác suất để ước lượng thôi :(.
 
Cái theo Minh bé ở phía trên là theo Minh bé thật hay theo ai đấy?
 
Hoàng Lê Vĩnh Hưng đã viết:
Cái theo Minh bé ở phía trên là theo Minh bé thật hay theo ai đấy?

Tất nhiên là anh phải theo ông A, rồi ông A lại phải theo ông B, ông B lại phải theo ông C.... search và summarize lại. Tất nhiên nghiên cứu thì phần quan trọng nhất là hoàn thiện và phát triển dựa trên những nền tảng có sẵn. Nhưng trình độ mình chỉ dừng lại ở mức hiểu là họ đã làm được những gì và copy.

Minhbe mà nghĩ ra được những cái ở trên thì năm nay VN có người đầu tiên nhận giải Nobel :D
 
Pham Quang Minh đã viết:
Những cái đấy thì Minh bé biết nhưng để áp dụng vào một sequence cụ thể thì làm thế nào. Vì Minh bé học bioinformatics nên quan tâm nhiều hơn đến thuật toán.
......

Giả sử muốn tìm H3. Minh bé nghĩ là người ta sẽ dùng một cái window site khoảng vài nghìn bp, sau đó duyệt từ trái sang phải sequence tính % GC, rồi so sánh nó với nhau, tìm cái có % GC cao nhất. Nhưng nếu như thế vẫn không hiểu là sẽ xác định điểm bắt đầu và kết thúc của H3 ở đâu. Vì vậy chỉ xác định H3 một cách rất tương đối trên sequence.

Tương tự việc xác định ORF cũng chỉ là tương đối, vậy làm thế nào để có thể identify gene một cách chính xác trên một sequence cụ thể?
Nghĩa là "Minhbe" hỏi cách identify cái sequence của acid nuclein á?
Kiểu Southern-Blott á?
Hay là cách sequence 1 DNA? (cách của Sanger và Coulson)
 
Back
Bên trên