Script chuẩn hóa demo-full.txt
Luvata opened this issue · 4 comments
Luvata commented
Anh có thể public source code chuẩn hóa để tạo file có format như demo-full.txt
không ạ ?
Em đang chuẩn hóa bộ dữ liệu 21/05 và muốn reproduce lại pipeline chuẩn hóa cũ và có thể cải thiện thêm.
Em cảm ơn anh nhiều ạ.
Luvata commented
Em đang sử dụng Beautifulsoup để lấy các paragraph, chi tiết về clean em sẽ cập nhật thêm trong các comment sau. Cảm ơn anh và team đã public bộ dữ liệu này ạ
tranmanhdat commented
@Luvata không biết bạn đã chuẩn hóa được chưa, có thể chia sẻ được không?
Luvata commented
tranmanhdat commented
@Luvata thank for sharing entire processed dataset, but can i get source code to adapt some preprocessing on text?