问题反馈:最后一段缺失+长视频下载失败+使用体验
Opened this issue · 2 comments
- 音频最后一小段缺失,没有输出到outputs的文本文件中。不确定是切分音频最后一段掉了,还是whisper出结果最后一段没输出,这个是恶性bug。
- 比较直接用whisper转文字,和使用bili2text的结果:从准确度上看,直接转不切分更好;从格式上看,bili2text更好,句读清晰;从耗时上看,1h16min的视频,同样设备,直接用whisper耗时39min左右,bili2text切分后转文字,耗时没有明显降低,我的体感甚至是更耗时了。
- 如果非要切分,我的思路是使用ffmpeg的识别音频静默点切分,避免破句,给文字识别造成不必要的困难。
- 这不是一个开盒即用的产品。作为用户,我之前没有任何AI方向的经验,环境安装耗时5h,反反复复,各种问题层出不穷,最后磕磕绊绊才完成,效果很惊喜,但也就意味着这只能给有CS背景的人使用,用户群体骤然缩小。如果可以的话,可以优化一下安装功能,把一些必要的文件都打包进去,安装自动配置环境,如果暂时做不到,短期内至少给出明确的版本要求,例如驱动版本,cuda版本,pytorch版本等等。
- UI交互,卡顿很明显,有种单线程的美,这里优化好了,体验可以涨很多。
- 最后,感谢付出,省了我很大功夫,非常有用!!!上面的得要求都是我使用的时候踩的坑,希望这个项目顺利发展。
在较短视频,1h30min,大小60M,能够正常下载,提取的情况下,长视频2h,大小390M下载失败。失败案例,BV1wNUkYnEH4,本地尝试3次,每次都报同样的错误。
bug 复现:
激活conda环境后输入python main.py
输入BV号,BV1wNUkYnEH4
显示下载进度,到13%,73% ,76%都发生错误。
报错信息如下:
发生错误: ('Connection broken: IncompleteRead(314215918 bytes read, 96323721 more expected)', IncompleteRead(314215918 bytes read, 96323721 more expected))
Traceback (most recent call last):
File "E:\Projects\bili2text\main.py", line 9, in
foldername = run_split(filename)
File "E:\Projects\bili2text\exAudio.py", line 47, in run_split
flv_mp3(name, target_name=folder_name)
File "E:\Projects\bili2text\exAudio.py", line 8, in flv_mp3
clip = VideoFileClip(f'{folder}/{name}.mp4')
File "D:\Tools\Miniconda\Miniconda3_py39\envs\py10\lib\site-packages\moviepy\video\io\VideoFileClip.py", line 88, in init
self.reader = FFMPEG_VideoReader(filename, pix_fmt=pix_fmt,
File "D:\Tools\Miniconda\Miniconda3_py39\envs\py10\lib\site-packages\moviepy\video\io\ffmpeg_reader.py", line 35, in init
infos = ffmpeg_parse_infos(filename, print_infos, check_duration,
File "D:\Tools\Miniconda\Miniconda3_py39\envs\py10\lib\site-packages\moviepy\video\io\ffmpeg_reader.py", line 270, in ffmpeg_parse_infos
raise IOError(("MoviePy error: the file %s could not be found!\n"
OSError: MoviePy error: the file bilibili_video/None.mp4 could not be found!
Please check that you entered the correct path.
很高兴可以帮到你!感谢支持!
- 音频确实问题这个是我没有测试出来的,我可能后期再测试一下;
- 音频切分主要不是因为耗时,我最开始做切分功能是因为看到了一篇研究说Whisper这样的模型(在去年刚开始开发的时候)转换长音频会出很多错误,于是就把每一个音频都裁断了再转换。不过这个功能可能如今已经不需要了(?),我会再做测试滴。
- 这个点子很好!确实应该从静音的地方开始切割,考虑会在后面的版本支持
- 这一点已经在考虑的范围内了,因为之前有计划过加上自动安装做成一个整合包,后来是因为考虑到有人会用这个项目洗稿搬运视频,所以给这个项目加上了一点使用门槛;不过这两年这类的项目越来越多,小程序都有好多这种程序,但是转换要充VIP,动辄都是几十几百块,所以这个项目后续肯定会加上低门槛整合包的。这个项目最初就是帮助我将视频内容转换成文字,放进我的第二大脑知识库,让这种新兴的信息渠道不会因为记忆力下降而忘记。感谢重新提醒!大家的使用反馈是我改进的动力!
- 最开始做UI的时候没想到这么多人用,就随便糊了一个,算是背上了技术债吧,不过确实,现在这么多人在使用也应该好好优化一下UI了。
最后关于你的报错,很多代码当时都是选择了最快的开发路径,有些代码我现在都不知道当时为什么要这么写😂。后续计划会重构这些代码的,谢谢!
祝好!