Chuyển đổi văn bản tiếng Việt bỏ dấu kiểu cũ thành kiểu mới và ngược lại Tuesday, February 28, 2012

Để tiện xử lý, văn bản tiếng Việt cần được đưa về một kiểu bỏ dấu nhất định. Để thực hiện công việc này một cách hiệu quả nhất, mình đã kết hợp Pattern và Map. Cảm ơn anh Lê Hồng Phương đã cung cấp danh sách các nguyên âm cần chuyển đổi trong bộ vnTokenizer.

Để thực hiện, người dùng gọi hàm toNewAccent() hoặc toOldAccent(). Đây là toàn bộ mã nguồn:

0 comments:

Share this post:
| More