Predict which Tweets are about real disaters and which ones are not
Thông tin cuộc thi: https://www.kaggle.com/competitions/nlp-getting-started/overview
STT | MSSV | Họ và tên | |
---|---|---|---|
01 | 20120328 | Hoàng Đức Nhật Minh | 20120328@student.hcmus.edu.vn |
02 | 20120224 | Trần Thị Mỹ Trinh | 20120224@student.hcmus.edu.vn |
03 | 20120210 | Trần Thị Kim Tiến | 20120210@student.hcmus.edu.vn |
04 | 20120307 | Phạm Gia Khiêm | 20120307@student.hcmus.edu.vn |
05 | 20120231 | Phan Huy Trường | 20120231@student.hcmus.edu.vn |
06 | 20120578 | Phạm Quốc Thái | 20120578@student.hcmus.edu.vn |
Github: https://github.com/yakhimm/Disaster_Tweets
Nội dung công việc | Thành viên thực hiện |
---|---|
Khám phá dữ liệu (EDA) | Trinh |
Tiền xử lý dữ liệu | Thái, Trường |
Xây dựng mô hình | Minh, Khiêm, Tiến |
Phân tích và đánh giá kết quả | Minh, Khiêm, Tiến |
Cải thiện độ chính xác | Minh, Khiêm |
Tìm hiểu lý thuyết của mô hình | Tiến, Trường |
Quay video | Cả nhóm |
https://drive.google.com/file/d/1P-iorRwk_3gTU3eBUQAGBCdA1SJfQzDQ/view?usp=sharing
Với yêu cầu của cuộc thi Kaggle là phân loại Tweet, dựa trên dữ liệu đầu vào là 1 bài Tweet có nội dung là một đoạn văn bản thuần, cần tiến hành phân loại thành hai nhóm 0 - Không có thảm họa và 1 - Có thảm họa. Dựa theo yêu cầu và bộ dữ liệu được cung cấp, nhóm đã tiến hành khám phá, tiền xử lý dữ liệu, xây dựng, huấn luyện mô hình thích hợp để hoàn thành yêu cầu phân loại Tweet của đề bài.
Nhóm sử dụng mô hình BERT.
- BERT là viết tắt của từ Bidirectional Encoder Representation from Transformer nghĩa là mô hình biểu diễn từ theo 2 chiều ứng dụng kỹ thuật Transformer.
- Được train trên Wikipedia (~2.5B words) và Google’s BooksCorpus (~800M words)
- Mô hình BERT nhóm sử dụng: bert-base-uncased với 110 triệu tham số. Với base tương ứng với 12 encoder transformer layer, và uncased phù hợp sử dụng cho các ngôn ngữ không dấu, như tiếng anh.
Nhóm đạt được rank 112, sau khi trừ các 34 hack account có độ chính xác là 100%, thì nhóm đạt rank 78, thuộc top 7.8%