/docbao-open-data

Cung cấp thư viện Python để khai thác dữ liệu báo chí quét được từ các hệ thống sử dụng Đọc Báo

Primary LanguagePython

Khai thác dữ liệu mở từ dự án Theo Dõi Báo Chí

Theo Dõi Báo Chí là website tổng hợp tin tức từ trên 50 tờ báo điện tử phổ biến nhất Việt Nam. Dự án cũng kì vọng trở thành nguồn dữ liệu mở lớn nhất về tin tức tiếng Việt với dữ liệu khoảng 25.000 tiêu đề báo được xuất bản trong 1 tuần gần đây nhất và được cập nhật liên tục với tần suất 10p/lần.

Để việc khai thác, sử dụng dữ liệu mở từ dự án Theo Dõi Báo Chí được dễ dàng, Đọcbáo-Open-Data cung cấp thư viện bằng ngôn ngữ Python hỗ trợ tự động update dữ liệu từ server về local, và trả về data dưới dạng list dễ xử lý (xem thêm file example.py để biết chi tiết). Dự án kì vọng sẽ thúc đẩy việc ứng dụng Machine Learning trong xử lý tiếng Việt nói chung và các bài toán liên quan tới dữ liệu báo chí nói chung.