kaogeek/thailand-budget-pdf2csv

Parsing issue in "AMOUNT" field

p16i opened this issue · 4 comments

p16i commented

Hi,

Thank you very much for your effort!

I've played with field (on Google Spreadsheet) a bit and found that there are some issues on parsing AMOUNT.
Many values there don't look correct (in numerical sense). You can try to reproduce the screenshot by sorting AMOUNT.

image

Because the information in the file is quite important, we really need to make sure that these issue get fixed asap before anyone would try to use it and compute statistics from the data.

Good catch! Here are the item ids of those problematic rows:

2022.3.5.5911
2022.3.5.1163
2022.3.5.2534
2022.3.5.2609
2022.3.5.4210
2022.3.8.5729
2022.3.5.1884
2022.3.8.4416
2022.3.8.2665
2022.3.8.3163
2022.3.8.1311
2022.3.8.2218
2022.3.1.1727
2022.3.8.4689
2022.3.5.3201
2022.3.8.3375
2022.3.14.705
2022.3.5.2920
2022.3.4.1264
2022.3.16(2).507
2022.3.8.1453
2022.3.3(3).1530
2022.3.8.1545
2022.3.5.3223
2022.3.3(4).537
2022.3.5.5539
2022.3.7.502
2022.3.8.1515
2022.3.14.371
2022.3.13(1).479
2022.3.8.3421
2022.3.8.3022
2022.3.8.2910
2022.3.8.2948
2022.3.10.1452
2022.3.12.1911
2022.3.4.2078
2022.3.5.3080
2022.3.8.2592
2022.3.7.737
2022.3.5.5227
2022.3.8.2481
2022.3.14.925

Hello our progressive fellows! Thanks you all for the contribution by reporting the issue here!

Our team have acknowledged these issues before releasing the first version of data (Jul 21, 21).

It was our unclear communication that we didn't provide the discretion manual about "how to" use this data apparently.

So, we've just provided this MANUAL yesterday, including USER CAUTION, DATA VERIFICATION STEPS and COMMON KNOWN ERRORS.

As you can see in the last section of this document, the COMMON KNOWN ERRORS, there are three types of common errors which the user should be clearly informed: OCR Error, Syntactic Error and Compiler Error.

For the error in AMOUNT field that @heytitle stated above, it seems to be an OCR Error which we have to manually edit by hand. However, since the project is still under "Work In Progress" and we've planned to improve our compiler, developing compiler source code, to fix Syntactic Error and Compiler Error in the near future. Hence, the OCR Error should be the last to be fixed.

Lastly, I'll let this issue open and I'll keep you guys in touch when there is the further release.

Cheers!

p16i commented

Hi,

Thank you for your reply!

Perhaps, we can add some description and the link to the manual document in this repository as well. Because you said that the project is WIP (hence, some data rows might not be correct), it would be better that the status is explicitly communicated.

@asiripanich already provided row IDs that THIS issue exists, but I wonder whether there are any other issues that we have not found yet.

bact commented

For the error in AMOUNT field that @heytitle stated above, it seems to be an OCR Error which we have to manually edit by hand. However, since the project is still under "Work In Progress" and we've planned to improve our compiler, developing compiler source code, to fix Syntactic Error and Compiler Error in the near future. Hence, the OCR Error should be the last to be fixed.

คิดว่าแล้วแต่ว่าจะตั้งจุดประสงค์ของโครงการว่าอะไรบ้างครับ ถ้าเน้นตัวเครื่องมือเป็นหลัก เห็นด้วยว่าก็ไม่ต้องไปสนใจข้อผิดพลาดระหว่างนี้ เพราะการผลิตข้อมูลเพื่อนำไปใช้ไม่ใช่เรื่องหลักของโครงการ

อย่างไรก็ตาม ในระหว่างนี้ถ้าโครงการนี้ (หรือโครงการอื่นที่ fork ออกไป) มองว่าจุดประสงค์นี่ก็อยากให้มีข้อมูลเอาไปใช้ระดับหนึ่งด้วย เท่าที่ทำได้ (ดังที่ได้เปิดให้ดาวน์โหลดชุดข้อมูล) การแก้ไขข้อผิดพลาด (ด้วยมือ) ไปพลางก่อน ก็น่าจะเป็นเรื่องที่ทำได้เหมือนกัน

อย่างน้อยที่สุดในหน้าที่มีลิงก์ไปหาข้อมูล อาจจะเพิ่มลิงก์คล้ายๆ ERRATA เอาไว้สักหน้าหนึ่ง เพื่อแจ้ง KNOWN ERRORS เท่าที่ได้รับแจ้งมาครับ