/thai-sent_tokenize

Primary LanguagePythonApache License 2.0Apache-2.0

thai sent tokenize

ทดลองการตัดประโยคภาษาไทยแบบบ EDU โดยใช้ CRF

โครงการนี้เป็นการทดสอบ !!!

รันบน Python 3 เท่านั้น

ก่อนใช้งานให้ทำการติดตั้ง PyThaiNLP รุ่นทดสอบโดยใช้คำสั่ง

pip install --ignore-installed https://github.com/PyThaiNLP/pythainlp/archive/dev.zip

และติดตั้ง dill , sklearn-crfsuite ด้วยคำสั่ง

pip install emoji sklearn-crfsuite

คำอธิบาย

  • ไฟล์ features.py เป็น features ในการ train ตัดประโยค
  • ไฟล์ train.py เป็นไฟล์ที่ใช้ train ข้อมูล
  • ไฟล์ predata.py เป็นไฟล์สำหรับเตรียมข้อมูลในการ train
  • ไฟล์ using.py เป็นไฟล์รันสำหรับตัดประโยค
  • ไฟล์ data.txt เป็นไฟล์ตัวอย่างประโยคสำหรับใช้ Train ตัวตัดประโยค
  • ไฟล์ tokenizeword.py เป็นไฟล์สำหรับใช้ตัดคำ

การใช้งาน

โครงการนี้เป็นการทดสอบการตัดประโยคภาษาไทย

  • ให้ทำการติดตั้ง PyThaiNLP ก่อน
  • รันไฟล์ using.py

ตัวอย่างการใช้งาน

Text : สวัสดีครับเรามาลองตัดประโยคภาษาไทยกัน
sent : สวัสดีครับ/เรามาลองตัดประโยคภาษาไทยกัน

พัฒนาโดย นาย วรรณพงษ์ ภัททิยไพบูลย์

นักศึกษาชั้นปีที่ 2

สาขาวิทยาการคอมพิวเตอร์และสารสนเทศ คณะวิทยาศาสตร์ประยุกต์และวิศวกรรมศาสตร์

มหาวิทยาลัยขอนแก่น วิทยาเขตหนองคาย