- Có Docker, Docker Compose, Docker Desktop
- Tải MongoDB Compass về để xem data trong MongoDB
- Chạy các thành phần với Docker:
docker compose up
- Demo crawl data và lưu vào MongoDB:
- Chạy Docker và đợi cho các container chạy hết
- Chạy data_ingestion.py
- Chạy crawler:
cd dataCrawler
scrapy crawl <league/club/player>
- (Xem kết quả) Vào MongoDB Compass kết nối với URI:
mongodb://localhost:27017
- Load dữ liệu từ MongoDB, xử lý bằng Spark, lưu vào Postgres (Phần này đang test, về sau sẽ không dùng notebook mà chạy python trực tiếp):
- Mở Pyspark Notebook:
- Khi có Pyspark Notebook (Jupyter), chạy các notebook ở folder
spark
.
-
Lưu data vào Postgres:
- Mỗi data từ MongoDB sẽ gồm
id
,info
vàstats
- Lưu
info
của từng thành phầnleague
/club
/player
vào mỗi bảng (VD: tên bảnginfo.player
,info.club
,...). Khóa chính làid
. - Tách các bảng con bên trong stats ra, lưu vào bảng (VD: data shooting của tất cả player sẽ có tên
player_stats.shooting
,...). Khóa chính sẽ làid
vàSeason
. - Làm một vài phần tiền xử lý data.
- Mẫu hàm lấy từ MongoDB và lưu vào Postgres có trong
test.ipynb
- Mỗi data từ MongoDB sẽ gồm
-
Visualize data (Nghiên cứu thêm)