yagays/ja-timex

[Bug] 漢数字の時刻表現のspanがずれる

reonyanarticle opened this issue · 2 comments

🐛 Bug

説明

入力した文章から抽出したtimexがもっているspanの長さが想定していた長さとちがう。

現状挙動

text = "平成三十一年に起きた出来事はなんですか?"
timex = TimexParser().parse(text)
print(timex[0].span)
# (0,5)

理想の挙動

text = "平成三十一年に起きた出来事はなんですか?"
timex = TimexParser().parse(text)
print(timex[0].span)
# (0,6)

再現方法やエラー内容

実行環境

  • ja-timexのバージョン : 0.2.0
  • Pythonのバージョン : 3.8.10
  • OSの情報: MacOS Bigsur

追加/補足情報

もしかしてbugではなく、一度漢数字をアラビア数字にしたあと、spanをとっているのでしょうか?そういう仕様なのでしょうか?
もしそうでしたら、変更前の文字列のspan情報が欲しいというfeatureを投げたいです。

返信遅れてしまい申し訳ありません。

確かにspanの位置がずれており、漢数字からアラビア数字へ変換する際の文字長の変化に対応できていないことが原因です。こちらは修正対象のバグとして対応します。