Chuyển UNICODE --> UTF8?

Lưu Công Thành
(congthanh)

Điều hành viên
Mình đang có nhu cầu chuyển Database tiếng Việt từ dạng UNICODE16 sang UTF8 để search engine có thể đọc được - có cách nào nhanh nhất không nhỉ?
 
Download database về, cho vào convertor, chuyển sang thể loại mình muốn, upload lên server!

Đây là cách nhanh nhất, so với các cách bên trên :p (nhi`n quanh, chưa có cách nào bên trên cả, hì hì)
 
Convert online: http://www.hn-ams.org/convert
Chương trình convert:
Unikey: http://unikey.sf.net
VL Conversion from VLID Co. http://vlid.tripod.com/vlconversion.htm
Viet to Unicode Converter from vovisoft. http://www.vovisoft.com
UnicodeConverter from Non Sông. http://www.nonsong.org/Unicode/lessons/unicodeconversion.html

Chương trình khác: http://www.ultraedit.com

hoặc tham khảo thêm:
http://www.tti-us.com/uvn/unicode.html

mà trong database của vninvest là UTF-8 encoded đấy chứ? vào sql mà xem!
 
Chỉnh sửa lần cuối:
không phải đâu, thôi để tớ nghiên cứu thêm chứ SE nó không hiểu.
 
Xem thử cái này:

http://vlid.tripod.com/vlconversion.htm

Convert text files from one encoding to another.
Support : VL Wind, VISCII, VPS, VNI, TCVN1, TCVN2, Decimal NCR UTF-8, Unicode UTF-8 (new), Unicode UTF-16
Able to convert whole directory and its subdirectories.
Able to configure key settings for your familiar typing habit other than VIQR standard.
Find and replace text in all files in directory and its subdirectories
 
hi hi , phiền quá , lại còn phải convert , sao bác ko dùng luôn cái code 42 Vietkey ngay từ đầu cho nó trả về code của Unicode khi type có phải nhanh hơn ko ? Đỡ phải suy nghĩ .
 
1: Code 42 của việtkey là cái gì thế Hiền? anh lâu lắm không dùng, quên rồi ;) từ này không phải là standard ;(

2: Dùng ngay từ đầu rôi thì còn hỏi làm gì nữa ;)
 
Hi all,
Minh viết bậy vài dòng bác Thành xem thế nào.
Unicode16 luu tru moi ky tu 2-bytes la ma tuyet doi UCS-2. Con UTF-8 co gang ma hoa UCS-2 duoi dang byte sequence, mat tu 1 den 3 bytes, cu the:
0xxx xxxx (Code<128)
110x xxxx 10xx xxxx (ma duoc 11 bit)
1110 xxxx 10xx xxxx 10xx xxxx (ma duoc 16 bit).
Ma Unicode tuyet doi se duoc dien vao cac bit 'x'.

Nguyen
 
Back
Bên trên