ltkk/vietnamese-stopwords

Bạn sử dụng hàm `preprocess()` của class `TextPreprocess` để tiền xử lý dữ liệu nhé, input của hàm này là một câu.

Closed this issue · 1 comments

bạn cho mình hỏi là nếu muốn xử lý nguyên một bộ data lớn thì làm thế nào ạ. Có thể cho mình 1 đoạn code ví dụ được không.

Cám ơn bạn nhiều lắm

Bạn đọc từng dòng text vào và xử lý thôi.
Bạn xem file này mình có sử dụng để xử lý bộ dữ liệu của wiki đấy.
https://github.com/NguyenVanHieuBlog/vietnamese-stopwords/blob/master/wiki_parser.py