Bạch Hưng Nguyên
(NguyenBH)
Thành viên danh dự
Hi all & anh Truong Thang,
1. Hi` hi`, bạn nào mà nói về VNDOCR nhất là các ver1,2 thì phải hỏi anh Truong Thang nhe. Tiết lộ nho nhỏ là anh Thắng là một trong những key-men của nhóm VNDOCR thời đó. Sắp tới VNDOCR sẽ được upgrade len ver3 voi nhiều features mới như export sang PDF chả hạn.
2. Mình xin nêu thêm 1 số vấn đề về việc VNDOCR có đắt hay ko?
Nhiều người nghe cái giá 8Mb thi có vẻ to, chứ thực ra nếu các biết software đó được research & dev trong bao lâu thì mới biết cái giá đó còn rẻ quá. Bắt đầu từ việc thành lập Phòng Nhận Dạng vào năm 1979 ở Viện CNTT và đến khoảng năm 89 thì ra được phần mềm nhận chữ Việt in, sau đó thì trình tự ra đời ver 1,2 của VNDOCR như các bạn đã biết. Vậy từng ấy năm với giá tiền cho 1 needed-software như vậy theo các bạn là rẻ hay đắt?
3. Return to main topic là Language Technologies. Mình nói thật chứ mình mới nghe term nay cách đây khoảng 3 tháng. Thực ra nó bao gồm các research areas sau: machine translation; nlp; speech recognition; speech synthesis; information retrival. Những areas này được nghiên cứu ở một số university lớn mà minh biết như:
- Mĩ: Carnegie Mellon University-Language Tech. Inst.; CU-Boulder; Jonhs Hopkins; MIT; OGI; Bell Lab.
- Europe: EPFL; có 1 ongoing project cực lớn là IM2
- Anh: Edinburg; Leed; Sheffield
- Australia: New south wales; canberra;
- Vietnam: Viện CNTT; DH KHTN-tpHCM; DH Backhoa
Theo mình nghĩ một trong những vấn đề lớn trong nhiều năm tới là vấn đế computers understand human speech. Bạn gì nói software của tấy làm tốt; mình test mấy cái rồi ví dụ ViaVoice, Dragon; recognition rate trung binh la 90-94%;nhu vậy chua thật tốt. Tất nhiên là họ có rất nhiều kinh nghiệm rồi. Bài toán họ giải quyết là continuous speech nen kết quả như vậy về mặt khoa học mình thấy thật tuyệt vời. Về nhận dạng tiếng Việt ở Viện CNTT cũng có một nhóm đang làm được khoảng gần 3 năm & mọi người cũng làm được nhiều thứ như: là build được cơ sở dữ liệu ngữ âm; đang tagging corpus; ...
Mình thấy nếu có bạn nào theo học Lang.Tech. ở các trung tâm trên thì rất tuyệt vời vì học dậy rất bài bản. Mình đã xem qua các course của các trường ở Mĩ, họ dậy một số course như thế này: Computer Assisted Language Learning, Speech II: Phonetics, Prosody, Perception, Synthesis, and Adv. Lab Speech Recognition.
Túm lại, là nếu có càng nhiều người làm L.T nói chung và L.T for VNamese language thì hay quá.
Nguyen
1. Hi` hi`, bạn nào mà nói về VNDOCR nhất là các ver1,2 thì phải hỏi anh Truong Thang nhe. Tiết lộ nho nhỏ là anh Thắng là một trong những key-men của nhóm VNDOCR thời đó. Sắp tới VNDOCR sẽ được upgrade len ver3 voi nhiều features mới như export sang PDF chả hạn.
2. Mình xin nêu thêm 1 số vấn đề về việc VNDOCR có đắt hay ko?
Nhiều người nghe cái giá 8Mb thi có vẻ to, chứ thực ra nếu các biết software đó được research & dev trong bao lâu thì mới biết cái giá đó còn rẻ quá. Bắt đầu từ việc thành lập Phòng Nhận Dạng vào năm 1979 ở Viện CNTT và đến khoảng năm 89 thì ra được phần mềm nhận chữ Việt in, sau đó thì trình tự ra đời ver 1,2 của VNDOCR như các bạn đã biết. Vậy từng ấy năm với giá tiền cho 1 needed-software như vậy theo các bạn là rẻ hay đắt?
3. Return to main topic là Language Technologies. Mình nói thật chứ mình mới nghe term nay cách đây khoảng 3 tháng. Thực ra nó bao gồm các research areas sau: machine translation; nlp; speech recognition; speech synthesis; information retrival. Những areas này được nghiên cứu ở một số university lớn mà minh biết như:
- Mĩ: Carnegie Mellon University-Language Tech. Inst.; CU-Boulder; Jonhs Hopkins; MIT; OGI; Bell Lab.
- Europe: EPFL; có 1 ongoing project cực lớn là IM2
- Anh: Edinburg; Leed; Sheffield
- Australia: New south wales; canberra;
- Vietnam: Viện CNTT; DH KHTN-tpHCM; DH Backhoa
Theo mình nghĩ một trong những vấn đề lớn trong nhiều năm tới là vấn đế computers understand human speech. Bạn gì nói software của tấy làm tốt; mình test mấy cái rồi ví dụ ViaVoice, Dragon; recognition rate trung binh la 90-94%;nhu vậy chua thật tốt. Tất nhiên là họ có rất nhiều kinh nghiệm rồi. Bài toán họ giải quyết là continuous speech nen kết quả như vậy về mặt khoa học mình thấy thật tuyệt vời. Về nhận dạng tiếng Việt ở Viện CNTT cũng có một nhóm đang làm được khoảng gần 3 năm & mọi người cũng làm được nhiều thứ như: là build được cơ sở dữ liệu ngữ âm; đang tagging corpus; ...
Mình thấy nếu có bạn nào theo học Lang.Tech. ở các trung tâm trên thì rất tuyệt vời vì học dậy rất bài bản. Mình đã xem qua các course của các trường ở Mĩ, họ dậy một số course như thế này: Computer Assisted Language Learning, Speech II: Phonetics, Prosody, Perception, Synthesis, and Adv. Lab Speech Recognition.
Túm lại, là nếu có càng nhiều người làm L.T nói chung và L.T for VNamese language thì hay quá.
Nguyen
Chỉnh sửa lần cuối: