binhvq/news-corpus

Script chuẩn hóa demo-full.txt

Luvata opened this issue · 4 comments

Anh có thể public source code chuẩn hóa để tạo file có format như demo-full.txt không ạ ?
Em đang chuẩn hóa bộ dữ liệu 21/05 và muốn reproduce lại pipeline chuẩn hóa cũ và có thể cải thiện thêm.
Em cảm ơn anh nhiều ạ.

Em đang sử dụng Beautifulsoup để lấy các paragraph, chi tiết về clean em sẽ cập nhật thêm trong các comment sau. Cảm ơn anh và team đã public bộ dữ liệu này ạ

@Luvata không biết bạn đã chuẩn hóa được chưa, có thể chia sẻ được không?

@Luvata thank for sharing entire processed dataset, but can i get source code to adapt some preprocessing on text?