ruby script.rb inputfile
输入是html文件。内容有英文有中文。输出必须是英文和中文的unicode编码,加上&#前缀和;后缀。
这样,文件里面的所有字符都是ascii字符,且浏览器可以把中文字形显示出来。
为什么需要这样转换我不记得了。但这是需求。
因此我写了这个脚本。
其实我不知道如何递归处理html的嵌套标签。
我使用hpricot看到了 traverse_all_element 这个方法,但不知道怎么用。
我的需求是
输入
some words 中文 english **
我希望在处理p的时候,能暂时不处理嵌套的span,转换p的其它内容,然后再处理span。
如果我直接去处理 p.inner_html 会把错的,因为它返回的是一个hpricot的对象,不是字符串!
请高手指教。
我准备看看nokogiri。虽然它看起来特别负载。