textlint-ja/textlint-rule-ja-unnatural-alphabet

不自然なアルファベットを判定するときに漢字を無視する

hata6502 opened this issue · 4 comments

  • かな漢字変換されており、このアルファベットは意図的に入力されたと思われる。
    点pは動く。
    うp主です。

  • かな漢字変換されてないため、タイポと思われる。
    てんpは動く。
    うpぬしです。


    「不自然なアルファベット」を判定するとき、以下のような正規表現を使うのはいかがでしょうか?
    アルファベットの前後の文字は、漢字を除いてひらがなのみを対象にします。
    /[ぁ-んー][a-zA-Z]+[ぁ-んー]/

azu commented

TAIOU DEKNAI {SPACE}{ENTER}
対応でk内

みたいなパターンがあるきがしますね
IMEによって違う感じはしますが、Google IMEだと結構このような入力ミス多い感じがします。(変換結果をほぼみないで確定してしまうので)

Jun-21-2021.18-46-43.mp4
azu commented

IMEによって癖がだいぶ違うので、なにかしらのオプションわけができるといいですが、
あんまり網羅的に癖がわかってない感じはします…

IME 側で対処するべき問題な気がしますね。

textlint だと、入力し終えたテキストを lint することが多いため、タイポが意図的なのか判定が難しい……