fisheepx/tencent-weibo-exporter

Windows下测试无法运行,乱码

Closed this issue · 15 comments

C:\Users\wangl\Desktop\version14>python tencent_weibo.py
寮€濮嬪垎鏋愯吘璁井鍗氱銆€1 椤?..Traceback (most recent call last):
File "tencent_weibo.py", line 155, in
weibo.start()
File "tencent_weibo.py", line 122, in start
print '寮€濮嬪垎鏋愯吘璁井鍗氱銆€%s 椤?..' % self.page_index
IOError: [Errno 0] Error

环境:Py2.7.14 pip已经安装docx,中文windows,unicode中文

朋友的提示是编码问题不是IO,npp里面转换成GBK print里面的中文就全乱码了,和上面的一毛一样
他的解决方法是
暴力注释掉所有print,就能跑了………

顺便,应该是pip install python-docx,docx里面并没有Document

换用登陆版之后,一直卡在“打开我的广播超时...”这里,偶尔登录失败倒是能抓到数据……

尝试修复中文问题失败……即使将全部print语句中的中文替换成英文,也仍然无法正常运行,因为判断过程中仍然有好多中文出现。
看来目前最简单的办法就是使用PyCharm,Eclipse之类的IDE来执行,即可成功。

如果登录版也无法成功执行,也请使用PyCharm,Eclipse等IDE来执行。

我会更新README,提醒大家使用IDE来执行,感谢回馈!

不仅这样,还有不能翻页的问题,还有抓取中途弹错误直接结束的问题,前者自己修复了但好像依旧不是很好用,后者真的…………emmmm
六万多条微博显然非登陆版已经不能满足需求了,但是确实……问题还是很多的…………

顺便中途弹错误可能是由于我移除了抓取图片相关的,但是前部有图片的正常抓取啊就很迷了…………
因为腾讯微博现在的服务器图片基本上是抓不下来的状态…………希望可以下一版中加一个图片开关

还是非常感谢您能有心写这样一个过气平台的爬虫

weibo.start()      

File "C:/Users/wangl/Desktop/loginver5/tencent_weibo.py", line 120, in start
self.get_items()
File "C:/Users/wangl/Desktop/loginver5/tencent_weibo.py", line 83, in get_items
tencent_util.add_quotation(self.document, quotation)
File "C:\Users\wangl\Desktop\loginver5\tencent_util.py", line 172, in add_quotation
quotation_items = analyze_quotation(quotation)
File "C:\Users\wangl\Desktop\loginver5\tencent_util.py", line 251, in analyze_quotation
quotation_items = re.findall(pattern, quotation)[0]
IndexError: list index out of range

我把非登录版的代码更新到了Python3的运行环境,
中文乱码问题终于被修复了。
Python2的情况下直接在控制台运行乱码问题真的是个大坑……

最新更新的version15文件夹下的代码,
使用Python3运行应该是可以正确备份的,
所有LOG也可以正常在控制台下显示。

今天把登录版本的代码也更新到了Python3环境,
只不过腾讯微博与在的服务器速度太慢了,
登录和打开我的广播的地方sleep设置了10秒,
如果不行可以自行修改。

对,腾讯的土豆服务器实在是…………事实上我这儿图片基本加载不出来了,抓取速度慢到爆…………
所以能否请您加个拉取图片的开关?

登录版与非登录版的第一个版本中都没有备份图片的功能,你看下能满足你的需求吗?

啊不敢说是需求啦,还得感谢您有心做这个过气微博的工具呢,本来励志苦学py根据您的自行修改结果还是零基础完全搞不定……
第一个版本的话没图片备份速度就很快,但是好像并不会把转播评论的原文弄下来…………这就比较…………

其实你可以换一个快点的网络试一下,虽然速度慢,但是在我的网络下是可以连图片完全备份下来的。

可是速度慢要命啊,并没有续传的设计,然而我微博大概七万条…………
图片基本上要等到超时失败,基本不可用了都,朋友试过也这样…………

这种脚本续传是没意义的。

现在还有乱码吗?

突然发现说了好多题外的233333
这个issues可以关啦,没乱码www谢啦

嗯,没乱码这个就解决啦。

想让不加载图片的修改挺简单的,你也说你想学Python,不防就借此机会学习也不错。
提示一下,
tencent_weibo.py 的第94行 tencent_util.add_picture(self.document, story)注释掉,
tencent_util.py 的192行 add_quotation()方法内添加图片部分的代码注释掉就可以了。