/obj-data-process

一个集成了多个模型实现的有多种非结构化数据处理功能的python后端服务,效果不好且不稳定,只是为了PPT好看。慎用

Primary LanguagePython

TODO-LIST(极大可能不做了)

  • 搜索模块的去重
  • 文字转语音的去除第一秒以及语音调整
  • 返回文件
  • 提取视频字幕

视频提取关键帧

Katna

音频降噪

DCCRN

跨模态搜索

towhee贯穿全部,使用了Clip等模型,faiss进行存储,googletrans进行中译英

  • 文本/图片 搜图
  • 文本/视频 搜视频
  • 查重没写

超分(提高清晰度)

Real-ESRGAN

语音克隆

MockingBird(含降噪)

翻译

googletrans

安装

python相关依赖在requirements.txt中 还要自行安装FFMPEG 注意根目录下两个app文件都要启动,因为关键帧服务和部分服务冲突,只好拆分服务