Cross-Modal-Search-Engine

从0到1，构建跨模态搜索引擎！

简介

我们将基于mooc场景，搭建一个深度理解视频，文本，PPT内容的跨模态搜索引擎。

直接搜索到，你最关心的那个知识点！

模块列表

1. 慕课网站爬虫模块

作业内容

抓取的站点: Coursera,edX,Udacity,**大学MOOC（任选一个）
抓取的信息:
1. 课程基本信息:开课学校，主讲老师，课程简介，课程主页URL
2. 每节课:单次课URL，视频，字幕，课程说明，单次课材料（PPT/pdf）

提交内容

已经爬好的10门课程的全部课程内容（mp4 + srt + pdf + json ）

爬虫系统

输入: 课程的URL与存储路径，比如：https://www.coursera.org/learn/machine-learning
输出: 课程的全部内容(mp4 + srt + pdf + json)

系统说明书

2. 视频字幕提取与翻译模块

作业内容

给定视频文件，生成字幕文件（srt）
对视频字幕与课程信息的翻译（英文 -> 中文）

提交内容

视频字幕提取系统

输入: 单个视频
输出: 视频的字幕文件

文本翻译系统

输入: 英文的txt文件
输出: 中文的txt文件

系统说明书

3. 文本检索文本模块

作业内容

根据文本，在大规模语料中快速检索出相似的句子
基于粗排模型，召回一批句子
基于精排模型，准确找出相似的句子

提交内容

文本检索文本系统

输入: 文本query + 句子的集合
输出: 指定时间内，存在结果，输出相匹配的句子

系统说明书

4. 文本检索视频模块

作业内容

根据query文本，定位到视频中某一帧
根据Coco等数据集的特点，从YouTube上下载可用的视频文件

提交内容

文本检索视频系统

输入: 文本query + 多个视频
输出: 如果存在结果，输出指定视频编号+定位的秒

系统说明书

5. 文本检索PPT模块

作业内容

根据query文本，定位到PPT的某一页
基于PPT分享网站构建PPT数据集

提交内容

文本检索PPT系统

输入: 文本query + 多个PPT文件
输出: 如果存在结果，输出指定PPT文件，以及该PPT文件的第几页

系统说明书

6. 图片检索视频模块

作业内容

根据query图片，快速定位到视频中某一帧

提交内容

图片检索图片系统

输入: 图片 + 视频的集合
输出: 如果存在结果，输出相匹配的图片

系统说明书

7. 图片检索PPT模块

作业内容

根据图片，从多个PPT文件中快速检索出相似的图片
基于PPT分享网站构建PPT数据集

提交内容

图片检索图片系统

输入: 图片 + 多个PPT文件
输出: 如果存在结果，输出指定PPT文件，以及该PPT文件的第几页

系统说明书

其他说明

分组说明：每组不超过5个人，自由组队，选出组长。
选题说明：请组长尽快在群里说明分组情况，以及选题，每个模块不超过3个小组，先到先得！
代码规范:
1. 全部代码基于Python3.6实现
2. 代码遵守Google代码规范
3. 代码需要有规范的注释，遵循注释规范
4. 系统需要在Ubuntu 16.04环境下可以运行，文档需要注明系统的依赖
作业提交时间: 2019.11.17（周日），作业提交地点：中教1011，具体各组提交时间表见下面的表格。作业提交时候需要拷贝代码和文档，并进行演示。

参考内容

requests / xpath / re / scrapy
selenium + Chrome
OCR / Speech to Text
TensorFlow Neural Machine Translation Tutorial
Elesticsearch
Annoy: Approximate Nearest Neighbors in C++/Python optimized for memory usage
Pre-Train NLP Model: ELMO / BERT
Pre-Train CV Model: Resnet / VGG
Cross-Modal Learning in Real World

GOOGLE IS ALL YOU NEED

分组汇总

模块	分组	提交作业时间段
慕课网站爬虫模块	王佳佳，汪舰，王维，王浚宇，于明飞	13:00 - 13:20
	李东，李世林，谢斌辉，彭成，李浩宇	13:20 - 13:40
	唐汉霖，毛洪力，邵靖斐，赵菊文	13:40 - 14:00
视频字幕提取与翻译模块	徐恒达，郭佳楠，柏宇，林书阳，辛成鑫	14:00 - 14:20
	陈牧乔，付乐萌，徐逍君，孙今达	14:20 - 14:40
	赖一多，于杨，郭振宇，王艳平，李丽丽	14:40 - 15:00
文本检索文本模块	张思嘉，程浩东，李敏琴，殷昕，朱乐	15:00 - 15:20
	陈秀琦，钟子岳，及朋飞，马思怡	15:20 - 15:40
	张辰，曹健，展佳傲，杜建成，陆旭阳	15:40 - 16:00
文本检索视频模块	何龙，郑俊康，佘宇峰，薛晓军，周泳宇	16:00 - 16:20
文本检索PPT模块	王蔚然，冯姝榕，黄云飞，王元杰，赵培雯	16:20 - 16:40
	李佳钰，徐兰天，王文琪，刘龙耀，贺韵	16:40 - 17:00
	任泽槟，陈立围，王海，费伟伦	17:00 - 17:20
图片检索视频模块	李彤，刘东辉，邵江逸，宫佳豪	17:20 - 17:40
图片检索PPT模块	耿坤男，吴昊，苏静宇，孙佩霞	17:40 - 18:00
	戴子彭，赵一诺，高硕，葛晶，苏丽敏	18:00 - 18:20
	刘曦，焦青青，吴楠楠，辛永顺	18:20 - 18:40

FAQs

Q: 检索模块自己构建数据集吗？还是等待爬虫模块的同学完成？

A: 每个小组都需要自己构建数据集；爬虫模块是跟其他小组完全独立的一项工作。

BIT-IR/final-project-2019

Cross-Modal-Search-Engine

简介

模块列表

1. 慕课网站爬虫模块

作业内容

提交内容

2. 视频字幕提取与翻译模块

作业内容

提交内容

3. 文本检索文本模块

作业内容

提交内容

4. 文本检索视频模块

作业内容

提交内容

5. 文本检索PPT模块

作业内容

提交内容

6. 图片检索视频模块

作业内容

提交内容

7. 图片检索PPT模块

作业内容

提交内容

其他说明

参考内容

分组汇总

FAQs

Q: 检索模块自己构建数据集吗？还是等待爬虫模块的同学完成？