nikaido/law_xmls

数式などのタグの処理

Closed this issue · 3 comments

laws/H07/H07SE317.xml など、次の表記が残っているので適切に修正する。

二・二<COMPOSE><SUP><FONT SIZE="-1">′</FONT></SUP></COMPOSE>・二<COMPOSE><SUP><FONT SIZE="-1">"</FONT></SUP></COMPOSE>—トリクロロトリエチルアミン

変換すべき文字列は下記の通り。

  • <BR /> -> <br/>
  • <COMPOSE> ->
  • </COMPOSE> ->
  • <SUP> -> <sup>
  • </SUP> -> </sup>
  • <SUB> -> <sub>
  • </SUB> -> </sub>
  • <FONT SIZE="-1"> ->
  • </FONT> ->
  • <DIVERG> ->
  • </DIVERG> ->
  • − -> - (U+2212 -> U+FF0D)
  • — -> - (U+2014 -> U+FF0D)

下2つは罫線(ダッシュ)の問題。

下記タグも追加。

  • <RUBY> ->
  • </RUBY> ->

直ったはず。