Chịu, Minh bé bắt chị nói kỹ từng bước trên 1 cái sequence cụ thể thế thì chịu. Cái này chắc muốn trả lời phải tra lại sách vở cẩn thận mà mấy tháng nay thì chị đang có exam liên tục. Thử nói về mấy thuật ngữ kia vậy nhé:
1. Cái khái niệm upstream promoter elements Minh bé đưa ra là gì thế? Chị mới chỉ nghĩ ra là chắc chắn phải bao gồm TATA box hoặc initiator element. Đây là 1 highly conserved nucleotide sequence~25-35 base pairs upstream của start site. TATA box hoạt động chức năng tương đương với E. Coli promoter để RNA polymerase II khởi đầu phiên mã.
2. Hầu hết những gene không chứa TATA box hoặc initiator elements thì sẽ chứa 1 đoạn khoảng 20-50 nu giàu CG cách vùng start site khoảng 100-200 base. Chính vùng này gọi là CpG islands vì nó xuất hiện giữa 1 sea DNA sequences low in CG residues. Trong quá trình phiên mã, nhân tố SP1 sẽ nhận biết ra vùng này.
Trong gene Finding, không thể chỉ bắt đầu từ start site. Start codon thì là AUG rồi và các possible OFR cũng chỉ có 3, rite? Nhưng mà việc xác định đoạn trước promoter mới là rất khó, chính vì thế người ta phải dựa vào rất nhiều yếu tố như TATA box, initiator elements hoạc promoter proximal elements... Mỗi thử sẽ đóng góp vài phần trăm cho việc nhận dạng gene.
Khó nhận biết các đoạn trước promoter là 1 trong những lý do khiến Eukaryotic Gene Finding khó hơn Prokaryotic Gene Finding. Ngoài ra chị nghĩ 1 lý do quan trọng khác là việc eukaryotic genome có sự xen kẽ giữa intron và exon -> RNA splicing. Xuất phát từ 1 gene nhưng do bị spliced in various ways -> nhiều mRNA khác nhau -> 1 protein family. Trên thực tế, khi tạo thư viện cDNA rất hay xảy ra hiện tượng chạy điện di sau PCR vẫn thấy xuất hiện 1 loạt băng->khó khăn trong việc nhận dạng gene.
Tại sao người ta vẫn có thể làm cụ thể và chính xác được: phải dựa vào rất nhiều yếu tố mà (đợi chị hỏi thêm và đọc lại sách đã)