/-XML-Reader-Lofter-Data-Backup

XML readers for xml files of LOFTER users data

Primary LanguagePython

-XML-Reader-Lofter-Data-Backup

XML readers for xml files of LOFTER users data

Introduction

  • 用于整理导出lofter的主页xml日志内的文章和插图
  • 编码为UTF-8,与xml日志编码一致
  • 文章以txt格式保存在同路径下的Articles文件夹下,txt文件包含标题、发表时间、修改时间、Tag、正文、文章内插入的链接、评论
  • 文章内插入的图片保存在同路径下的Images文件夹
  • 插图保存在同路径下的Photos文件夹,包含每一条lof插图的所有图片,以及用txt文件保存该条发表时间、修改时间、Tag、插图描述、插入的链接、评论
  • 整理文章请运行readLof.exe可执行文件,插图为readLof_photo.exe可执行文件

How to Run

Environment

  • Windows 7/8/XP/10

Run

  • 下载后直接运行readLof.exereadLof_photo.exe
  • 运行后,在弹出的文件选择框中选择需要整理的xml日志文件(一定不要选其他格式的文件或者非lofter日志文件,不然请关掉程序重来)
  • 等待命令行窗口执行完毕自动退出,完成整理导出

Attention

  • 所有文章的txt文件命名使用文章标题,没有标题则用“无题_<发布时间>”的格式命名,文章插图用“<文章标题>_<图片序号>”的格式命名
  • 所有插图以“插图_<发布时间>_<图片序号>”的格式命名,插图的描述和评论等的txt文件以“插图_<发布时间>”的格式命名
  • lofter日志只包括了标题、发布时间、修改时间、Tag、图片、正文、文内链接、评论,不包括热度
  • 由于有的图片源链接会失效或者连接超时,所以会出现timeout和403 forbidden的情况,这种情况可以多次运行程序尝试重备份,但是通常情况下该下不下来还是下不下来(……
  • 文章导出比较快,插图类看情况可能要花比较长的时间,当然100条以下的插图lof还是很快可以下载完所有图片的
  • 关于评论:由于xml日志内,每条回复的被回复人只有一串字符串代码id而不是昵称,回复的发布人才同时有昵称和代码id,因此比较影响阅读
  • 文章标题内的尖括号、英文双引号、星号、英文问号、正反竖斜杠属于Windows违法的文件命名符号,因此全部替换为了“-”符号,但是正文的这些符号不受影响
  • 文章内出现的尖括号等html语言字符在xml日志内均自动转成了代码,目前没有实现将这些代码还原符号的功能
  • 文内链接统一整理写入了txt文件结尾(评论之前),没有位于原本插入的位置