data: A Shell repository from Turbocharge Vietnamese NLP and Innovate Telex Input Method - Turbocharge Vietnamese NLP and Innovate Telex Input Method

Kho ngữ liệu tiếng Việt

Chọn lọc từ nhiều nguồn. Tiêu đề bản tin, facebook comments, wikipedia, subtitles ...
Tổng dữ liệu nén gần 700mb (file .7z), tổng dữ liệu giải nén gần 3.5Gb (file .txt)
Các files ngữ liệu được nén dưới định dạng 7z còn khoảng 20% dung lượng gốc mà tốc độ giải nén vẫn nhanh (không bị quá chậm như khi sử dụng hệ nén paq).

Gần 1Gb dữ liệu trộn từ:

10 triệu comments từ các nhóm trên Facebook.

Không nhớ lấy từ nguồn nào, có thể từ FPT hoặc VinAI

Không nhớ lấy từ nguồn nào

# "content":"ông a để tóc này đẹp hơn nài",
sed -e 's|.*content\"\:\"\([^"]*\).*|\1|' fb_comment_10m > fb_comments.txt