Bạn sử dụng hàm `preprocess()` của class `TextPreprocess` để tiền xử lý dữ liệu nhé, input của hàm này là một câu.
Closed this issue · 1 comments
monterga commented
bạn cho mình hỏi là nếu muốn xử lý nguyên một bộ data lớn thì làm thế nào ạ. Có thể cho mình 1 đoạn code ví dụ được không.
Cám ơn bạn nhiều lắm
behitek commented
Bạn đọc từng dòng text vào và xử lý thôi.
Bạn xem file này mình có sử dụng để xử lý bộ dữ liệu của wiki đấy.
https://github.com/NguyenVanHieuBlog/vietnamese-stopwords/blob/master/wiki_parser.py