从0到1,构建跨模态搜索引擎!
我们将基于mooc场景,搭建一个深度理解视频,文本,PPT内容的跨模态搜索引擎。直接搜索到,你最关心的那个知识点!
- 抓取的站点: Coursera,edX,Udacity,**大学MOOC(任选一个)
- 抓取的信息:
- 课程基本信息:开课学校,主讲老师,课程简介,课程主页URL
- 每节课:单次课URL,视频,字幕,课程说明,单次课材料(PPT/pdf)
- 已经爬好的10门课程的全部课程内容(mp4 + srt + pdf + json )
- 爬虫系统
输入: 课程的URL与存储路径,比如:https://www.coursera.org/learn/machine-learning 输出: 课程的全部内容(mp4 + srt + pdf + json)
- 系统说明书
- 给定视频文件,生成字幕文件(srt)
- 对视频字幕与课程信息的翻译(英文 -> 中文)
-
视频字幕提取系统
输入: 单个视频 输出: 视频的字幕文件
-
文本翻译系统
输入: 英文的txt文件 输出: 中文的txt文件
-
系统说明书
- 根据文本,在大规模语料中快速检索出相似的句子
- 基于粗排模型,召回一批句子
- 基于精排模型,准确找出相似的句子
-
文本检索文本系统
输入: 文本query + 句子的集合 输出: 指定时间内,存在结果,输出相匹配的句子
-
系统说明书
- 根据query文本,定位到视频中某一帧
- 根据Coco等数据集的特点,从YouTube上下载可用的视频文件
- 文本检索视频系统
输入: 文本query + 多个视频 输出: 如果存在结果,输出指定视频编号+定位的秒
- 系统说明书
- 根据query文本,定位到PPT的某一页
- 基于PPT分享网站构建PPT数据集
- 文本检索PPT系统
输入: 文本query + 多个PPT文件 输出: 如果存在结果,输出指定PPT文件,以及该PPT文件的第几页
- 系统说明书
- 根据query图片,快速定位到视频中某一帧
- 图片检索图片系统
输入: 图片 + 视频的集合 输出: 如果存在结果,输出相匹配的图片
- 系统说明书
- 根据图片,从多个PPT文件中快速检索出相似的图片
- 基于PPT分享网站构建PPT数据集
- 图片检索图片系统
输入: 图片 + 多个PPT文件 输出: 如果存在结果,输出指定PPT文件,以及该PPT文件的第几页
- 系统说明书
- 分组说明:每组不超过5个人,自由组队,选出组长。
- 选题说明:请组长尽快在群里说明分组情况,以及选题,每个模块不超过3个小组,先到先得!
- 代码规范:
- 全部代码基于Python3.6实现
- 代码遵守Google代码规范
- 代码需要有规范的注释,遵循注释规范
- 系统需要在Ubuntu 16.04环境下可以运行,文档需要注明系统的依赖
- 作业提交时间: 2019.11.17(周日),作业提交地点:中教1011,具体各组提交时间表见下面的表格。作业提交时候需要拷贝代码和文档,并进行演示。
- requests / xpath / re / scrapy
- selenium + Chrome
- OCR / Speech to Text
- TensorFlow Neural Machine Translation Tutorial
- Elesticsearch
- Annoy: Approximate Nearest Neighbors in C++/Python optimized for memory usage
- Pre-Train NLP Model: ELMO / BERT
- Pre-Train CV Model: Resnet / VGG
- Cross-Modal Learning in Real World
GOOGLE IS ALL YOU NEED
模块 | 分组 | 提交作业时间段 |
慕课网站爬虫模块 | 王佳佳,汪舰,王维,王浚宇,于明飞 | 13:00 - 13:20 |
李东,李世林,谢斌辉,彭成,李浩宇 | 13:20 - 13:40 | |
唐汉霖,毛洪力,邵靖斐,赵菊文 | 13:40 - 14:00 | |
视频字幕提取与翻译模块 | 徐恒达,郭佳楠,柏宇,林书阳,辛成鑫 | 14:00 - 14:20 |
陈牧乔,付乐萌,徐逍君,孙今达 | 14:20 - 14:40 | |
赖一多,于杨,郭振宇,王艳平,李丽丽 | 14:40 - 15:00 | |
文本检索文本模块 | 张思嘉,程浩东,李敏琴,殷昕,朱乐 | 15:00 - 15:20 |
陈秀琦,钟子岳,及朋飞,马思怡 | 15:20 - 15:40 | |
张辰,曹健,展佳傲,杜建成,陆旭阳 | 15:40 - 16:00 | |
文本检索视频模块 | 何龙,郑俊康,佘宇峰,薛晓军,周泳宇 | 16:00 - 16:20 |
文本检索PPT模块 | 王蔚然,冯姝榕,黄云飞,王元杰,赵培雯 | 16:20 - 16:40 |
李佳钰,徐兰天,王文琪,刘龙耀,贺韵 | 16:40 - 17:00 | |
任泽槟,陈立围,王海,费伟伦 | 17:00 - 17:20 | |
图片检索视频模块 | 李彤,刘东辉,邵江逸,宫佳豪 | 17:20 - 17:40 |
图片检索PPT模块 | 耿坤男,吴昊,苏静宇,孙佩霞 | 17:40 - 18:00 |
戴子彭,赵一诺,高硕,葛晶,苏丽敏 | 18:00 - 18:20 | |
刘曦,焦青青,吴楠楠,辛永顺 | 18:20 - 18:40 |
A: 每个小组都需要自己构建数据集;爬虫模块是跟其他小组完全独立的一项工作。