PhD Lương Chi Mai & First Vietnamese OCR

Lưu Công Thành
(congthanh)

Điều hành viên
Các bạn làm ơn cho biết đánh giá của mình về sản phẩm phần mềm OCR này của VN cái nhé! Mình chưa được test nên không biết nó làm việc trên công nghệ nào?

Theo I-Today

I-Today - nhắc đến những thành tựu mà công nghệ thông tin Việt Nam đã đạt được trong hơn hai chục năm qua, không thể phủ nhận vai trò rất tích cực của các nhà khoa học nữ. Một trong số đó là tiến sĩ Lương Chi Mai, người đã được dự án công nghệ thông tin Việt Nam - Canada trao tặng phần thưởng danh dự dành cho nữ cán bộ xuất sắc ngành công nghệ thông tin năm 1999.

Năm 1998, lần đầu tiên góp mặt trong làng tin học, VnDOCR đã nhận được sự ủng hộ nhiệt tình của người sử dụng. Khi đó, bài toán về nhận dạng chữ Việt in, đặc biệt là dấu tiếng Việt là trở ngại lớn nhất mà từ trước đó chưa có chương trình nào vượt qua. Sau nhiều năm mong đợi, VnDOCR là sản phẩm phần mềm nội địa mang đặc thù tiếng Việt đầu tiên đã vượt qua rào cản này. Phiên bản 1.0 của VnDOCR đã chứng tỏ những thành công sớm của mình bằng sự kiện đoạt giải nhất cuộc thi sản phẩm công nghệ thông tin tại tuần lễ tin học Việt Nam lần thứ VIII (1998). Năm 1999, VnDOCR tiếp tục đoạt giải nhất giải thưởng VIFOTEC, giải thưởng sáng tạo về khoa học và công nghệ Việt Nam do liên hiệp các hội khoa học và kỹ thuật Việt Nam và bộ khoa học công nghệ và môi trường trao cho công trình nghiên cứu khoa học xuất sắc trong ngành công nghệ thông tin.

Cho đến nay, VnDOCR là một trong số hiếm đề tài nghiên cứu khoa học tồn tại được ngoài phòng thí nghiệm, đồng thời là phần mềm nhận dạng chữ Việt được người sử dụng chấp nhận. Mặc dù đã có những sản phẩm cạnh tranh nhưng VnDOCR vẫn luôn ở thứ hạng cao nhất trong khối phần mềm nghiệp vụ có giá trị ứng dụng phổ thông được bạn đọc PC World Việt Nam bình chọn nhiều năm liền, mà gần đây nhất là năm 2002.

Người gắn bó sâu đậm nhất với VnDOCR chính là tiến sĩ Lương Chi Mai, trưởng phòng nhận dạng và công nghệ tri thức, phó viện trưởng viện công nghệ thông tin.

Tự nhận mình là người rất nguyên tắc, nhưng cảm nhận đầu tiên của tôi khi gặp chị chính là sự trẻ trung, nhanh nhẹn và hiện đại bởi kiểu tóc cắt ngắn và tác phong làm việc rất nhiệt tình.

Kể về quãng thời gian gắn bó với lĩnh vực công nghệ thông tin, chị luôn khẳng định mình là người may mắn. Trước tiên, chị được sinh ra trong gia đình gắn liền với hoạt động khoa học, chồng cũng cùng ngành nên chị nhận được sự chia sẻ và thông cảm rất nhiều từ phía gia đình. Thứ hai, chị đã chọn đúng nghề mình yêu thích, được đào tạo trong môi trường bài bản, được sự giúp đỡ ủng hộ của những người đi trước trong một tập thể nghiên cứu. May mắn thứ ba chính là 20 năm "duyên nợ" liên tục với lĩnh vực nhận dạng - quãng thời gian dài hiếm có để thử thách, mà theo chị cũng chính là nguồn lực mang lại cho chị những thành công ngày hôm nay. Năm 1981, sau khi tốt nghiệp đại học tổng hợp tại Liên Xô, ngành toán, chị về làm việc tại viện công nghệ thông tin. Giáo sư Bạch Hưng Khang, viện trưởng viện công nghệ thông tin hiện nay đã phân công chị vào làm tại phòng nhận dạng. Kể từ đó, điểm khởi đầu này như là duyên tiền định cuốn hút chị gắn bó với tập thể nghiên cứu cùng với đề tài "chữ Việt và tiếng Việt" suốt những năm qua. Chị tâm sự: "Nếu không nghiên cứu tiếng của mình, ngôn ngữ của mình thì chẳng ai làm hộ mình cả. Nhiệm vụ của những người làm khoa học là phải nghiên cứu giải quyết những bài toán về chữ và tiếng Việt để Việt Nam có thể hoà nhập với thế giới". Giờ đây, nhắc đến tên chị là người ta liên tưởng ngay đến VnDOCR, đứa con tinh thần đầu tiên mà tập thể phòng nhận dạng đã phát triển. Tính đến nay, chỉ riêng bản VnDOCR chuyên nghiệp đã bán được gần 700 bộ cùng với gần 10.000 bộ được cài đặt theo scanner của HP. Thành công đó, tôi trộm nghĩ, chẳng riêng gì phụ nữ, mà bất cứ nhà lập trình nào cũng ao ước.

Chị liên tục tham gia các đề tài nghiên cứu cấp nhà nước như trí tuệ nhân tạo, nhận dạng và xử lý thông tin hình ảnh (1981-1985 và 1986-1990); các vấn đề hiện đại của công nghệ thông tin (1991-1995 và 1996-2000). Đặc biệt năm 2001, lần đầu tiên nhà nước thực hiện phương thức đấu tuyển để chọn giao đề tài nghiên cứu tới các đơn vị có năng lực, đề tài "Phát triển công nghệ nhận dạng tổng hợp và xử lý ngôn ngữ tiếng Việt (2001-2005)" đã được chọn giao cho phòng nhận dạng của viện chủ trì, và chị được phân công làm chủ nhiệm một đề tài nhánh.

Chị ý thức rằng: một sản phẩm có độ sống trường tồn chỉ khi người tạo ra nó luôn chăm chút và không tự thoả mãn về nó. Chị khẳng định: "Bọn mình sẽ vẫn tiếp tục phát triển VnDOCR cùng những công trình nghiên cứu khoa học khác về vấn đề nhận dạng trong môi trường tiếng Việt". Say sưa chị tâm sự: "Với đề tài này, mình cảm giác có khai thác cả đời cũng không tự thoả mãn hết những yêu cầu mà người sử dụng đặt ra. Chính điều đó thôi thúc mình và nhóm nhận dạng gắn bó với mảng đề tài này bao nhiêu năm trời".

Cũng như nhiều phụ nữ bình thường khác, một ngày làm việc của chị thường khởi đầu bằng việc đưa con đi học và kết thúc là đón con về. Chị quan niệm: "Mình là phụ nữ nên không thể làm mải miết từ sáng tới đêm khuya như nam giới mà quên hết công việc gia đình cũng như thiên chức làm mẹ của người phụ nữ. Đó cũng chính là khó khăn của bất kỳ phụ nữ nào làm công tác nghiên cứu khoa học. Nếu không say mê thì không thể hoàn thành được công việc, sẽ tạo nên sức ì lớn". Đó cũng chính là điều chị luôn đặt ra trước các nữ nhân viên khi quyết định gắn bó với khoa học. Một chút se lòng chị tâm sự: "Nhận thức thế nhưng nhiều khi bị cuốn hút vào công việc nên cũng khó chu toàn. Những lúc như vậy, mình luôn muốn bù đắp nhiều hơn nữa cho con cái và gia đình. Thời gian sau bữa cơm tối, mình dành hoàn toàn cho con, vừa dạy nó học, vừa chơi và làm bạn với nó". Một chút tự hào khi nói về con, như nhiều người mẹ khác, mắt chị ánh lên sự ấm áp và trìu mến.

Trở lại câu chuyện về công việc, chị cho biết hiện viện đang giao cho chị nhiệm vụ tìm biện pháp thúc đẩy để đưa các công trình nghiên cứu áp dụng vào thực tiễn cuộc sống. "Đó chính là mảng yếu của những người thuần làm khoa học như bọn mình - chị phân tích - nếu chỉ tập trung nghiên cứu nhưng cái mà mình tự cho là cần thiết thì công trình đó chỉ có giá trị khoa học trên văn bản mà không mang lại những giá trị đích thực cho cuộc sống". Để làm được nhiệm vụ này, trước mắt chị dự định sẽ xây dựng một nhóm có chức năng marketing, họ sẽ là đầu mối tìm kiếm các đơn đặt hàng cho bộ phận nghiên cứu. Song song đó, nhóm sẽ thu nhận những ý kiến phản hồi từ người sử dụng, đồng thời tổ chức tuyên truyền, giới thiệu và quảng bá rộng rãi. Khẽ nghiêng chiếc đồng hồ cát trên bàn, chị kể: "Mình rất tâm đắc với câu ví von của một chuyên gia công nghệ thông tin Singapore khi họ tặng cho mình món quà này tại hội nghị: giữa công trình nghiên cứu khoa học và thực tiễn cuộc sống là một đoạn thắt nút cổ chai, nhiệm vụ của nhưng người làm công nghệ thông tin là phải làm sao để hai phần này hoà nhập được với nhau như khi ta nghiêng chiếc đồng hồ cát".

Câu chuyện giữa chúng tôi thỉnh thoảng bị đứt quãng để chị xử lý một số việc chuyên môn. Tranh thủ, tôi tò mò quan sát bàn làm việc của chị. Bên cạnh hình ảnh quen thuộc của một văn phòng với máy tính, máy in, sổ sách giấy tờ, là những đồ kỷ niệm xinh xắn đầy nữ tính: một cái chặn giấy mã não vàng hoe màu nắng, một quả trứng đá xanh, một bông hoa hồng bằng thuỷ tinh trong trẻo, đặc biệt tấm hình cậu con trai cưng được gắn trong khung pha lê trong suốt. Một sự giao thoa khéo léo nơi chị, giữa công việc và gia đình, phải làm sao cho 2 miền trách nhiệm đó luôn cân bằng. Đó phải chăng chính là nghệ thuật sống, nghệ thuật để thành đạt của người phụ nữ?

Theo PC World VN
 
Em đã được hân hạnh sử dụng (ké) phiên bản 1.0 của VnDOCR. Phải nói thật là sau khi scan với recommend settings, khoảng 50-70% các chữ có dấu bị sai. 8 triệu VND hồi đấy (khoảng 3 năm trước) cho sản phẩm này là một sự phí phạm lớn.
Phiên bản 2.0 thì em chưa được thử. Không biết có khá hơn gì không.
 
Natural Language Processing.

Phạm Quang Linh đã viết:
Em đã được hân hạnh sử dụng (ké) phiên bản 1.0 của VnDOCR. Phải nói thật là sau khi scan với recommend settings, khoảng 50-70% các chữ có dấu bị sai. 8 triệu VND hồi đấy (khoảng 3 năm trước) cho sản phẩm này là một sự phí phạm lớn.
Phiên bản 2.0 thì em chưa được thử. Không biết có khá hơn gì không.

Với tư cách là người có mấy năm làm việc trong lĩnh vực khó chơi này của CNTT, tôi có vài ý kiến cá nhân để chúng ta có những đánh giá khách quan về chất lượng và mức độ hữu hiệu của một chương trình.

Nếu ai đã từng sử dụng những phần mềm liên quan đến công nghệ nhận dạng (chữ in, chữ viết tay, tiếng nói...) thì khó có thể đảm bảo chất lượng nhận dạng đúng gần 100% được. Ngoài yếu tố quan trọng nhất là công nghệ nhận dạng được sử dụng trong software đó. chất lượng đầu vào dữ liệu và trình độ của users cũng ảnh hưởng đáng kể đến hiệu quả của software.

Trong lĩnh vực nhận dạng chữ in (Optical Character Recoginition - OCR) mà VnDOCR là một sản phẩm loại này dành cho tiếng Việt, yếu tố chất lượng đầu vào phụ thuộc bản sach gốc mà bạn scan vào như thế nào. Nếu đó là bản đã qua mấy lần photocopy rồi thì dù công nghệ nhận dạng có tốt thế nào cũng chịu. User có thể kiểm tra chất lượng khi nhìn vào ảnh của trang sách. Nếu các chữ có nhiều nét đứt thì độ chính các thấp là đương nhiên vì hầu hết các chương trình nhận dạng chữ Latinh như Anh, Pháp, Việt... đều dựa vào các đường vector liên thông trong chữ để xác định chữ đó là gì. Một số công nghệ nhận dạng dựa vào bitmap của các ký tự và tiến bộ hơn nữa là kết hợp cả 2 cách + một số giải thuật thống kê. Một đặc tính nữa của chương trình nhận dạng là phụ thuộc font chữ. Rất ít software kể cả của Anh, Pháp có thể nhận dạng được tất cả các loại font. Thường thì họ chỉ tập trung vào 3 dòng font chính là Times, Arial (variable-width) và Courier (fixed-width font). Những font chữ hoa lá dành cho mỹ thuật kiểu như trong quảng cáo của Coca-Cola thì máy tính khó mà nhận dạng nổi. Đối với users, khi anh ta scan trang sách vào, nếu trang sách đặt nghiêng cũng ảnh hưởng tới chất lượng nhận dạng. Sơ qua như vậy để mọi người thấy những yếu tố căn bản ảnh hưởng tới chất lượng đầu vào và trình độ của user. Những phần mềm kiểu này đòi hỏi trình độ user cao hơn nhiều so với những software thông thường well-defined and stable input kiểu như MS-Word, Excel...

Đó là khó khăn chung của các OCR software. Riêng với tiếng Việt, về mặt công nghệ nhận dang chúng ta đi sau các nước khoảng hơn 10 năm. Chưa kể nhiều công nghệ họ không công bố thì mình cũng không có cách gì mà học được từ họ cả. Ngoài ra, theo quan điểm của tôi, OCR cũng là một ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Thường công nghệ nhận dạng thôi chưa đủ. Nếu software có thêm sự hỗ trợ từ các kỹ thuật xử lý ngôn ngữ nữa, chắc chắn chất lượng sẽ tăng lên đáng kể. Ví dụ: chữ "m" nếu bị đứt nét ở giữa rất hay bị nhận nhầm ra "rn" - r và n. Nếu chương trình có sự hỗ trợ từ phần kiểm tra chính tả hay ngữ pháp tiếng Việt thì những lỗi nhận dạng sẽ giảm thiểu. Đó chỉ là một ví dụ đơn giản. Nhiều lỗi khác phức tạp hơn đòi hỏi sự kết hợp nhiều kỹ thuật vào mới giải quyết được. Đáng tiếc là hiện nay, Việt nam chưa có một cách tiếp cận tổng thể về vấn đề xử lý ngôn ngữ tự nhiên tiếng Việt. VnDOCR chỉ là một khía cạnh rất nhỏ trong cả một bài toán lớn. Vấn đề NLP cho tiếng Việt chỉ có người Việt tự làm thôi. Microsoft hay bất cứ công ty nào sẽ không ai làm thay cho mình cả. Nó đòi hỏi sự hợp tác của giới ngôn ngữ và chuyên gia CNTT ở Việt nam. Thông thường NLP nằm trong một dự án lớn của chính phủ trong nhiều năm mới có thể đạt được một kêt quả nào đó.

Tiếng Anh thì mọi người rõ rồi. Kiểm tra chính tả và ngữ pháp trong MS-Word là gần như hoàn hảo nên OCR của họ đạt chất lượng gần 100% cũng là điều dễ hiểu. Chưa kể nhận dạng ký tự tiếng Anh dễ hơn tiếng Việt nhiều vì tiếng Việt có 2 tầng chính: tầng dấu ở trên cùng; tầng chữ + dấu ở dưới cho dấu nặng. Font tiếng Việt lại không thống nhất. VnTimes và VNI-Times khác nhau rất xa. Ký tự tiếng Anh chỉ có 1 tầng nên việc nhận dạng dễ hơn hẳn. Tiếng Nhật, Hoa còn khó hơn nữa vì chữ Hán có rất nhiều nét giao cắt nhau. Tôi đã từng được chứng kiến OCR, nhận dạng viết tay, nhận dạng tiếng nói và dịch tự động cho tiếng Nhật. Chất lượng hầu hết là xấp xỉ 100%. Căn bản là người Nhật đã giải quyết triệt để bài toán lớn về NLP nên kết quả đó được ứng dụng vào trong các ứng dụng trên hết sức hiệu quả. NLP thực ra là hệ quả trong dự án máy tính thế hệ thư 5 (không thành công) của Nhật từ cuối 80s đến giữa 90s. Hiện nay, trên thế giới, Nhật vẫn đang dẫn đầu trong công nghệ nhận dạng. Rất nhiều công nghệ NLP do các tập đoàn CNTT nắm giữ, không công bố.

Trong mấy ứng dụng cơ bản kể trên, theo tôi OCR là bài toán dễ nhất và Việt nam đang ở trong giai đoạn cố gắng hoàn thiện giải pháp cho bài toán này. Mức độ tiếp theo là nhận dạng chữ viêt tay (hand-written recognition) và tiếng nói (voice recognition), dịch tự động (machine translation). Hiện nay ở Việt nam một số nơi đang tiến hành xây dựng software cho dịch tự động Anh - Việt tuy nhiên chương trình chỉ giải quyết được một số câu đơn giản. Hơn nữa văn phong (style) lại rất không natural.

Hy vọng là sau khoảng 5 năm nữa CNTT của nước nhà sẽ có bước tiến nhảy vọt trong NLP và sau đó là một loạt sản phẩm nhập liêu tự động (automatic data entry) chât lượng cao sẽ ra đời.

NTT.
 
Bác Thắng nhận xét hoàn toàn đúng, riêng chỉ có đoạn cuối bảo 5 năm nữa Việt Nam sẽ nhảy vọt thì chắc là sai hị hị. NLP muốn đạt đến mức natural thì còn phải chờ đợi sự phát triển của công nghệ sinh học, mô phỏng được chính xác neural networks chứ có nhập vào bao nhiêu dữ liệu thì cũng không thể đủ được. Nhật tuy là số một về AI, nhưng cái machine translation của nó em nghĩ chỉ dịch được văn bản thôi, còn dịch văn thì chả có cái máy nào dịch được. Hiện nay nhiều công ty đi theo hướng làm computer aided translation, và cái này có tương lai hơn machine translation, ít ra là trong 10-20 năm nữa. Mà translation memory muốn làm hiệu quả cũng phải thuật toán kinh phết chứ không đùa đâu.
 
Chào các bạn,
Bài toán NLP thì cho đến giờ có lẽ là the most "holly grail" problem của AI, 5 năm nữa cũng chưa biết thế nào. Còn speech recognition thì có vẻ có nhiều achievements hơn, theo mình biết (cho tiếng Anh).

Btw, theo mình biết nhóm của chị Chi Mai rất năng động, và chị Mai có tính cách cũng rất hay nữa :)
 
Nguyễn Minh Châu đã viết:
Bác Thắng nhận xét hoàn toàn đúng, riêng chỉ có đoạn cuối bảo 5 năm nữa Việt Nam sẽ nhảy vọt thì chắc là sai hị hị. NLP muốn đạt đến mức natural thì còn phải chờ đợi sự phát triển của công nghệ sinh học, mô phỏng được chính xác neural networks chứ có nhập vào bao nhiêu dữ liệu thì cũng không thể đủ được. Nhật tuy là số một về AI, nhưng cái machine translation của nó em nghĩ chỉ dịch được văn bản thôi, còn dịch văn thì chả có cái máy nào dịch được. Hiện nay nhiều công ty đi theo hướng làm computer aided translation, và cái này có tương lai hơn machine translation, ít ra là trong 10-20 năm nữa. Mà translation memory muốn làm hiệu quả cũng phải thuật toán kinh phết chứ không đùa đâu.

Tôi cũng chỉ hy vọng trong 5 năm VN sẽ thành công. Hiện tại NLP là một hướng chính trong những ngành công nghệ trọng điểm nghiên cứu của chính phủ: CNTT, vật liệu, sinh học và nông nghiệp (?? not sure). Ở Nhật NLP của họ mất khoảng 10 năm và qui mô dự án của họ lớn hơn mình nhiều. VN có lợi thế là đi sau nên cũng học hỏi được nhiều từ Mỹ, Nhật... cộng với tiến bộ kỹ thuật của thế kỷ 21 này. Như vậy tôi đưa ra con số 5 năm kể cũng không đến nỗi quá xa vời NẾU các chuyên gia của ta làm việc thực sự có kết quả và được sự hỗ trợ kinh nghiệm và kỹ thuật từ mấy nước phát triển đi trước.

Về machine translation, tôi đồng ý là chỉ dịch văn phong theo chuẩn do ngôn ngữ học hoặc báo chí hàng ngày. Bởi vì dữ liệu của NLP là dựa trên những tài liệu chuẩn này. Mấy ông nhà văn hay biến hóa nên câu cú của họ không phải là dạng chính tắc cho giới bình dân.
 
Nguyễn Trường Thắng đã viết:
Ở Nhật NLP của họ mất khoảng 10 năm và qui mô dự án của họ lớn hơn mình nhiều.

Bác đang ở JP với lại học IT nên có lẽ biết rõ hơn, nhưng mà tôi vẫn hay theo dõi một số tạp chí chuyên ngành về IT (ví dụ như MT) thì cái trò này bọn Nhật với Tây Âu bắt đầu nghiên cứu trước khi có PC ấy, nghĩa là vào những năm 60-70 đã có nghiên cứu rồi!
 
Hi sempai Thắng. Em đang học tiếng Nhật ở Osaka. Rất vui được quen anh. Mong anh chỉ giáo nhiều nhé.
 
Cái gì thế này, sao chú Đình Anh đã tranh thủ nhanh thế! Hic hic!
Em cũng hi sempai Thắng! Anh Thắng ơi, giờ anh đang Master, Doctor hay đang đi làm rồi? Trường mình có vẻ không thích qua đây lắm nên chẳng thấy ai lên tiếng gì hết, em mới biết có mấy người (2 khóa em + 1 khóa 96-99 + 1 khóa 95-98 (đây là 2 sempai trực tiếp của em):rolleyes: )! よろしくお願いします!
:cool:
 
Lưu Công Thành đã viết:
Bác đang ở JP với lại học IT nên có lẽ biết rõ hơn, nhưng mà tôi vẫn hay theo dõi một số tạp chí chuyên ngành về IT (ví dụ như MT) thì cái trò này bọn Nhật với Tây Âu bắt đầu nghiên cứu trước khi có PC ấy, nghĩa là vào những năm 60-70 đã có nghiên cứu rồi!

Sorry for late reply. Đúng là mấy cái trò này bọn Âu Mỹ có nghiên cứu từ lâu rồi nhưng chủ yếu là các mô hình lý thuyết toán học thôi. Hồi đó tốc độ máy tính và bộ nhớ còn hạn chế rất nhiều nên không đem vào ứng dụng được. Từ đầu thập kỷ 90 trở lại đây do tốc độ CPU và kích thước bộ nhớ tăng lên nhiều lần mà bọn này mới giở lại mấy đống lý thuyết đó đem ra thử nghiệm.

By the way, chào hai kouhai (後輩) Nguyen Dinh Anh và Nguyễn Kiên Cường. Welcome to Japan! (日本へようこそ!). Không chỉ trường Ams không thích qua Nhật mà đấy là tình trạng chung. Lưu học sinh VN ở Nhật ít nếu so với mấy nước nói tiếng Anh. Học bổng ít mà ngôn ngữ lại khó nữa. VN có lẽ vẫn coi trọng bằng cấp các nước nói tiếng Anh hơn chăng? Cả 2 hiện đang có thời gian luyện tiếng Nhật thì tập trung học cho tốt. Sống ở Nhật mà không giao tiếp được tiếng Nhật thì không khác gì sống ở hoang đảo. Dân Nhật hầu như không biết tiếng gì ngoài tiếng Nhật cả. Nếu cần kinh nghiệm gì thì liên lạc email với anh.

Anh bây giờ đang làm PhD nhưng không còn dính với chuyên ngành Nhận dạng và Xử lý Ngôn ngữ Tự nhiên nữa. Sang đây phát-xít Nhật bắt làm việc khác nên phải chuyển thôi.
 
Back
Bên trên