ทดลองการตัดประโยคภาษาไทยแบบบ EDU โดยใช้ CRF
โครงการนี้เป็นการทดสอบ !!!
รันบน Python 3 เท่านั้น
ก่อนใช้งานให้ทำการติดตั้ง PyThaiNLP รุ่นทดสอบโดยใช้คำสั่ง
pip install --ignore-installed https://github.com/PyThaiNLP/pythainlp/archive/dev.zip
และติดตั้ง dill , sklearn-crfsuite ด้วยคำสั่ง
pip install emoji sklearn-crfsuite
คำอธิบาย
- ไฟล์ features.py เป็น features ในการ train ตัดประโยค
- ไฟล์ train.py เป็นไฟล์ที่ใช้ train ข้อมูล
- ไฟล์ predata.py เป็นไฟล์สำหรับเตรียมข้อมูลในการ train
- ไฟล์ using.py เป็นไฟล์รันสำหรับตัดประโยค
- ไฟล์ data.txt เป็นไฟล์ตัวอย่างประโยคสำหรับใช้ Train ตัวตัดประโยค
- ไฟล์ tokenizeword.py เป็นไฟล์สำหรับใช้ตัดคำ
โครงการนี้เป็นการทดสอบการตัดประโยคภาษาไทย
- ให้ทำการติดตั้ง PyThaiNLP ก่อน
- รันไฟล์ using.py
ตัวอย่างการใช้งาน
Text : สวัสดีครับเรามาลองตัดประโยคภาษาไทยกัน
sent : สวัสดีครับ/เรามาลองตัดประโยคภาษาไทยกัน
พัฒนาโดย นาย วรรณพงษ์ ภัททิยไพบูลย์
นักศึกษาชั้นปีที่ 2
สาขาวิทยาการคอมพิวเตอร์และสารสนเทศ คณะวิทยาศาสตร์ประยุกต์และวิศวกรรมศาสตร์
มหาวิทยาลัยขอนแก่น วิทยาเขตหนองคาย