MS Speech Recognition Engine

Thái Minh Hoàng Hà
(Jolly Joker)

Điều hành viên<br><a href="http://www.hn-ams.org/f
Anh có tài liệu nào nói về cách lập trình MS Speech Recognition Engine với MS Agent không? Em làm Text to Speech thì được nhưng Speech to Text thì chẳng hiểu phải đọc tài liệu ở đâu?
 
Ko hiểu em Hà hỏi ai, mình cứ nhẩy vô trả lời đại.

1. Download Microsoft Speech SDK 5.1
http://search.microsoft.com/gomsuri...=/msdn-files/027/000/781/msdncompositedoc.xml

2. Em làm Text to Speech cái gi? Tiếng Anh à? Nếu là tiếng Anh thì cả TTS với Speech Recognition đều có thể tham khảo trong Speech SDK của MS. Còn để mấy chuyện đó làm cho tiếng Việt thì đấy là là câu chuyện khác.

Nguyen
 
Cám ơn anh ạ

Em post nhầm đấy ạ. Thế nên lời lẽ không hợp lắm. Cám ơn anh về cái địa chỉ, em đang lập trình bằng MSAgent ấy mà anh
 
Em không hiểu làm sao mà Lạc VIệt từ điển lại cho tiếng Việt vào được. Không biết có phải đấy là engine riêng không anh? Mà cái VnVoice anh có biết phải lấy ở đâu không ạ? Chỉ cho em với!
Cám ơn anh!
 
Hi Ha` & mọi người,

1. LavViet tu dien su dung phuong phap tong hop tieng Viet tu roi rac, nen ko có engine rieng.

2. Phan men VnVoice1.0 la phan mem tong hop tieng Viet o muc am vi, cho phep doc text-to-speech tu moi loai van ban: text, word, clipboard, webpage. VnVoice cung co chuc nang nhan dang tu roi rac tieng Viet, co the cho phep duyet Web bang tieng Viet.
Dia chi lien he:

Phòng Nhận dạng & Công nghệ Tri thức
Viện Công Nghệ Thông Tin
18 Hoàng Quốc Việt
Tel.: 7560537
Email: [email protected]

Nguyen
 
Bác Bach Hung cho hỏi thăm không biết ở cái phòng nhận dạng đó có ai làm về speech recognition dùng hidden markov models không nhỉ. Không biết những software để nhận dạng tiếng Việt hiện giờ khả năng đến đâu? Cám ơn bác.
 
Hi Tung

Hiện giờ Phòng Nhận Dạng & Công Nghệ Tri Thức có làm về speech recognition. Việc sử dụng HMMs là điều đương nhiên, kết quả hiện tại về độ chính xác nhận dạng từ rời rạc là khoảng 95-98%, với từ liên tục kêt quả thấp hơn. Hiện giờ ko có một software nào được gọi là chính thức cho nhận dạng tiếng việt. Tuy nhiên ở mức từ rời rạc và với số lượng từ vựng nhỏ (<100 lệnh) thì độ chính xác mà Phòng ND&CNTT có thể đạt được là 97%.

Nguyen
 
Tuy nhiên ở mức từ rời rạc và với số lượng từ vựng nhỏ (<100 lệnh) thì độ chính xác mà Phòng ND&CNTT có thể đạt được là 97%

Hi,

Nguyên có tình cờ biết cái gì là cái mới so với bọn Tây trong phần mềm đó không? Ví dụ như nhét thêm ngữ pháp tiếng Việt hoặc 1 số đặc trưng nào đó? Hay đơn giản là dùng thuật toán của Tây và thay training set?

Chỉ tò mò thôi, không có ý gì khác
 
troi dat...cac chu ko biet Bach Hung Nguyen la ai a. han la 1 trong cac tac gia cua vnvoice day, hien dang lam o phong nhan dang vien CNTT...cai gi chu cu speech recognition thi hoi BHN la ra het. Vi vay cac chu cung dung co mo ma copy mien phi vnvoice nhe...hien tai thi chua dau..tot nhat la mua di de con xay dung nen CNTT nuoc nha...chu GNU theo kieu mien phi thi ko duoc... :D
phuong cham la GNU VOI PHAN MEM CUA TAY VA NON-GNU VOI PHAN MEM CUA TA. :D

a..vnvoice la cai gi vay bac NGUYEN quang cao tiep cho anh em voi... ;)
 
Đ/c Nguyên thử nghiên cứu thêm vào cái lips movement giống bọn Intel cái nhỉ. Hy vọng có thể tăng thêm độ chính xác cho từ liên tục. 95-98% cho từ rời rạc thì xịn quá rồi, khỏi cần nâng cấp.

Cheer,
ĐTrang
 
Hi all,

1. VnVoice là phần mềm thương phẩm, do đó sẽ có phải trả tiền để sử dụng. Phần đóng góp của tôi trong VnVoice là rất rất nhỏ nên ko dám count credit. VnVoice là tên chung cho những giải pháp về nhận dạng & tổng hợp tiếng Việt của Phòng Nhận dạng & Công nghệ Tri thức, Viện Công Nghệ Thông Tin. VnVoice bao gồm nhiều moduls có thể tách bán riêng lẻ hoặc tích hợp như: giải pháp cho hệ thống UMS (Unifying Message System), giải pháp Vietnamese Text-to-Speech, giải pháp Vietnamese Commands. Kết quả độ chính xác đưa ra là những kết quả được làm trong phòng thí nghiệm. Chúng tôi hiện giờ chưa có khả năng kiểm tra trên diện rộng đại trà.

2.
"
Nguyên có tình cờ biết cái gì là cái mới so với bọn Tây trong phần mềm đó không? Ví dụ như nhét thêm ngữ pháp tiếng Việt hoặc 1 số đặc trưng nào đó? Hay đơn giản là dùng thuật toán của Tây và thay training set?
"

- Thứ nhất làm cho tiếng Việt => phải dùng mô hình ngôn ngữ phù hợp cho tiếng Việt, nghĩa là đương nhiên phải có thay đổi trong cây suy diễn văn phạm ngôn ngữ.
- Thứ hai "thuật toán của Tây" và "training set" là 2 vấn đề không đơn giản. Lí do, thường thì các thuật toán nó chạy tốt với training set này nhưng có khi lại hy sinh khi chạy set khác. Nên, phải xây dựng được một corpus đủ lớn gồm có training và testing sets sao cho có thể cover được một số lượng đáng kể các "khả năng". Nói suông thì chỉ 2 câu nhưng để làm corpus cho tiếng nói thì rất vất vả, mệt mỏi, và chán. Chỉ có điều ko làm thì ko có gì mà dùng.

3. Về Lips Movement, kĩ thuật này, mặc dù cũng đã cố gắng thu thập tài liệu. chúng tôi chưa có điều kiện nghiên cứu thử nghiệm. Điền Trang có thể cho tôi một số thông tin về lips movement được ko?

4. Vấn đề speech processing là một vấn đề lớn bao trùm & liên quan nhiều nhánh khoa học như: signal processing; natural language processing; pattern recognition; statistics & probability; linguistics; phonetics; neural network;... Chính vì vậy đòi hỏi một đội ngũ đông đảo người nghiên cứu am hiểu các khía cạnh này. Không rõ có bạn nào trong HAO cũng đang hứng thú với vấn đề này ko?

Nguyen
 
Hi,

Trang cũng không có nhiều tài liệu cụ thể về lips movement. Nguyên có thể search trên internet để xem hãng Intel implment thế nào. Nhưng đây là một số suy nghĩ của Trang.
+ Lips Snap shot: chỉ cần lấy một ảnh tĩnh vào thời điểm âm được phát ra rồi dùng ảnh này như một attribute nữa để giúp phán đoán âm.

+ Lips Movement: thêm vào thuật toán trên bằng cách analyze chuỗi hình ảnh. Có thể là 3 ảnh: lúc bắt đầu phát âm, khi âm peak và khi kết thúc.

Nhưng để implement được hai attributes trên thì cần có chương trình định vị (đánh dấu) những điểm interest trên ảnh để tính ra những giá trị riêng cho mỗi từ. Cái này thì phải trial and error thôi chứ cũng chưa có ai thành công cả (nhất là với tiếng Việt). Có thể tham khảo thêm ở face recognition.

Trang có học một chút về Data Mining và Machine Learning nên cũng thích tìm hiểu về lĩnh vực này. Không biêt đ/c Nguyên có dùng thử chương trình nào tên là WEKA chưa nhỉ http://www.cs.waikato.ac.nz/ml/weka/

Chương trình này có thể giúp mình xem được điểm mạnh và yếu của các thuật toán về learning. Chương trình chạy trên Java nên hơi chậm nhưng rất dễ viết các module plug-n-play.

Cheer,
ĐTrang
 
Rất cám ơn bác Nguyên, thông tin của bác rất bổ ích. Còn bác Trang, chẳng hay bác đang học về Data Mining ở trường nào đấy ạ?
 
Trang học về Data Mining từ 2 năm trước cơ. Ở University of Texas at San Antonio và chỉ làm research assistant được khoảng nửa năm thôi.
 
Back
Bên trên