-
Chọn lọc từ nhiều nguồn. Tiêu đề bản tin, facebook comments, wikipedia, subtitles ...
-
Tổng dữ liệu nén gần 700mb (file .7z), tổng dữ liệu giải nén gần 3.5Gb (file .txt)
-
Các files ngữ liệu được nén dưới định dạng 7z còn khoảng 20% dung lượng gốc mà tốc độ giải nén vẫn nhanh (không bị quá chậm như khi sử dụng hệ nén paq).
- Dùng https://github.com/variar/klogg để đọc file text kích thước lớn
Gần 1Gb dữ liệu trộn từ:
- Một phần
news_titles.txt
- Một phần
fb_comments.txt
- Toàn bộ
opensub.txt
- Phần sau
vietai_sat.txt
(truyện, wikipedia)
10 triệu comments từ các nhóm trên Facebook.
Trích xuất từ http://103.140.38.25/corpus/fb_comment_10m.7z
Nguồn gốc https://github.com/binhvq/news-corpus
Download từ https://drive.google.com/open?id=1ypvEoGRNWrNLmW246RtBm9iMyKXm_2BP
Nguồn gốc https://github.com/binhvq/news-corpus
Không nhớ lấy từ nguồn nào, có thể từ FPT hoặc VinAI
Không nhớ lấy từ nguồn nào
Download từ https://storage.cloud.google.com/vietai_public/best_vi_translation/train.vi
Mô tả https://github.com/vietai/SAT/blob/main/scrape_sources.txt
Nguồn gốc https://github.com/vietai/SAT
# "content":"ông a để tóc này đẹp hơn nài",
sed -e 's|.*content\"\:\"\([^"]*\).*|\1|' fb_comment_10m > fb_comments.txt