Vietnamese Dataset
, Text Classification
.
- Tập dữ liệu VNews8td là tập dữ liệu Tiếng Việt. Được thu thập từ trang báo mạng VnExpress từ ngày 01/06/2023 - 01/06/2024. Phiên bản
8td
bao gồm 8 danh mục lớn nhất, mỗi văn bản bao gồm tiêu đề (title) và phần mô tả (description) của bài báo. - Tập dữ liệu giành cho bài toán phân loại văn bản (Text Classification / Document Classification).
- Tập dữ liệu được chia thành 3 phần:
- Training set - 70%
- Validation set - 10%
- Test set - 20%
- Tập dữ liệu gồm 8 lớp, tương ứng với 8 danh mục phổ biến trên VnExpress là:
- doisong (Đời sống)
- giaoduc (Giáo dục)
- khoahoc (Khoa học)
- kinhte (Kinh tế)
- suckhoe (Sức khỏe)
- thegioi (Thế giới)
- thethao (Thể thao)
- thoisu (Thời sự)