Để tiện xử lý, văn bản tiếng Việt cần được đưa về một kiểu bỏ dấu nhất định. Để thực hiện công việc này một cách hiệu quả nhất, mình đã kết hợp Pattern và Map. Cảm ơn anh Lê Hồng Phương đã cung cấp danh sách các nguyên âm cần chuyển đổi trong bộ vnTokenizer.
Để thực hiện, người dùng gọi hàm toNewAccent() hoặc toOldAccent(). Đây là toàn bộ mã nguồn:
0 comments:
Post a Comment