/final-project-2019

BIT IR Final Project 2019

MIT LicenseMIT

Cross-Modal-Search-Engine

从0到1,构建跨模态搜索引擎!

GitHub stars GitHub issues GitHub license

简介

我们将基于mooc场景,搭建一个深度理解视频,文本,PPT内容的跨模态搜索引擎。

直接搜索到,你最关心的那个知识点!

模块列表

1. 慕课网站爬虫模块

作业内容

  • 抓取的站点: Coursera,edX,Udacity,**大学MOOC(任选一个)
  • 抓取的信息:
    1. 课程基本信息:开课学校,主讲老师,课程简介,课程主页URL
    2. 每节课:单次课URL,视频,字幕,课程说明,单次课材料(PPT/pdf)

提交内容

  • 已经爬好的10门课程的全部课程内容(mp4 + srt + pdf + json )
  • 爬虫系统
    输入: 课程的URL与存储路径,比如:https://www.coursera.org/learn/machine-learning
    输出: 课程的全部内容(mp4 + srt + pdf + json)
    
  • 系统说明书

2. 视频字幕提取与翻译模块

作业内容

  • 给定视频文件,生成字幕文件(srt)
  • 对视频字幕与课程信息的翻译(英文 -> 中文)

提交内容

  • 视频字幕提取系统

    输入: 单个视频
    输出: 视频的字幕文件
    
  • 文本翻译系统

    输入: 英文的txt文件
    输出: 中文的txt文件
    
  • 系统说明书

3. 文本检索文本模块

作业内容

  • 根据文本,在大规模语料中快速检索出相似的句子
  • 基于粗排模型,召回一批句子
  • 基于精排模型,准确找出相似的句子

提交内容

  • 文本检索文本系统

    输入: 文本query + 句子的集合
    输出: 指定时间内,存在结果,输出相匹配的句子
    
  • 系统说明书

4. 文本检索视频模块

作业内容

  • 根据query文本,定位到视频中某一帧
  • 根据Coco等数据集的特点,从YouTube上下载可用的视频文件

提交内容

  • 文本检索视频系统
    输入: 文本query + 多个视频
    输出: 如果存在结果,输出指定视频编号+定位的秒
    
  • 系统说明书

5. 文本检索PPT模块

作业内容

  • 根据query文本,定位到PPT的某一页
  • 基于PPT分享网站构建PPT数据集

提交内容

  • 文本检索PPT系统
    输入: 文本query + 多个PPT文件
    输出: 如果存在结果,输出指定PPT文件,以及该PPT文件的第几页
    
  • 系统说明书

6. 图片检索视频模块

作业内容

  • 根据query图片,快速定位到视频中某一帧

提交内容

  • 图片检索图片系统
    输入: 图片 + 视频的集合
    输出: 如果存在结果,输出相匹配的图片
    
  • 系统说明书

7. 图片检索PPT模块

作业内容

  • 根据图片,从多个PPT文件中快速检索出相似的图片
  • 基于PPT分享网站构建PPT数据集

提交内容

  • 图片检索图片系统
    输入: 图片 + 多个PPT文件
    输出: 如果存在结果,输出指定PPT文件,以及该PPT文件的第几页
    
  • 系统说明书

其他说明

  • 分组说明:每组不超过5个人,自由组队,选出组长。
  • 选题说明:请组长尽快在群里说明分组情况,以及选题,每个模块不超过3个小组,先到先得!
  • 代码规范:
    1. 全部代码基于Python3.6实现
    2. 代码遵守Google代码规范
    3. 代码需要有规范的注释,遵循注释规范
    4. 系统需要在Ubuntu 16.04环境下可以运行,文档需要注明系统的依赖
  • 作业提交时间: 2019.11.17(周日),作业提交地点:中教1011,具体各组提交时间表见下面的表格。作业提交时候需要拷贝代码和文档,并进行演示。

参考内容

GOOGLE IS ALL YOU NEED

分组汇总

模块 分组 提交作业时间段
慕课网站爬虫模块 王佳佳,汪舰,王维,王浚宇,于明飞 13:00 - 13:20
李东,李世林,谢斌辉,彭成,李浩宇 13:20 - 13:40
唐汉霖,毛洪力,邵靖斐,赵菊文 13:40 - 14:00
视频字幕提取与翻译模块 徐恒达,郭佳楠,柏宇,林书阳,辛成鑫 14:00 - 14:20
陈牧乔,付乐萌,徐逍君,孙今达 14:20 - 14:40
赖一多,于杨,郭振宇,王艳平,李丽丽 14:40 - 15:00
文本检索文本模块 张思嘉,程浩东,李敏琴,殷昕,朱乐 15:00 - 15:20
陈秀琦,钟子岳,及朋飞,马思怡 15:20 - 15:40
张辰,曹健,展佳傲,杜建成,陆旭阳 15:40 - 16:00
文本检索视频模块 何龙,郑俊康,佘宇峰,薛晓军,周泳宇 16:00 - 16:20
文本检索PPT模块 王蔚然,冯姝榕,黄云飞,王元杰,赵培雯 16:20 - 16:40
李佳钰,徐兰天,王文琪,刘龙耀,贺韵 16:40 - 17:00
任泽槟,陈立围,王海,费伟伦 17:00 - 17:20
图片检索视频模块 李彤,刘东辉,邵江逸,宫佳豪 17:20 - 17:40
图片检索PPT模块 耿坤男,吴昊,苏静宇,孙佩霞 17:40 - 18:00
戴子彭,赵一诺,高硕,葛晶,苏丽敏 18:00 - 18:20
刘曦,焦青青,吴楠楠,辛永顺 18:20 - 18:40

FAQs

Q: 检索模块自己构建数据集吗?还是等待爬虫模块的同学完成?

A: 每个小组都需要自己构建数据集;爬虫模块是跟其他小组完全独立的一项工作。