/nlp_paper_study

研读顶会论文,复现论文相关代码

Primary LanguageJupyter Notebook

【关于 NLP】 那些你不知道的事

作者:杨夕

项目地址:https://github.com/km1994/nlp_paper_study

个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。

目录

介绍

会议收集篇

NLP 学习篇

理论学习篇

经典论文研读篇
transformer 学习篇
预训练模型篇
  • LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classification
  1. 【关于 Domain/Intent Classification 】那些你不知道的事
  2. 【关于 槽位填充 (Slot Filling)】那些你不知道的事
  3. 【关于 上下文LU】那些你不知道的事
  4. 【关于 自然语言生成NLG 】那些你不知道的事
  5. 【关于 DSTC 】那些你不知道的事
  6. 【关于 E2E 】那些你不知道的事
    1. 【关于 TC_Bot(End-to-End Task-Completion Neural Dialogue Systems) 】那些你不知道的事
  1. 【关于 rasa 安装 】那些你不知道的事
  2. 【关于 rasa 基本架构 】那些你不知道的事
  3. 【关于 rasa中文对话系统】那些你不知道的事
  4. 【关于 rasa中文对话系统构建】那些你不知道的事
  5. 【关于 rasa->NLU 】那些你不知道的事
  6. 【关于 rasa -> Core -> FormAction 】那些你不知道的事
  7. 【关于 rasa -> Core -> Stories 】那些你不知道的事
  8. 【关于 rasa -> Core -> Action 】那些你不知道的事

视频学习篇

实战篇

Elastrsearch 学习篇

推荐系统 学习篇

竞赛篇

  • 项目目标
    • 实现一个 基于 百度百科 的 ES 全文检索平台
  • 项目流程
    • step 1: 编写 网络爬虫 爬取 百度百科 数据;
    • step 2: 爬取数据之后,需要进行预处理操作,清洗掉 文本中噪声数据;
    • step 3: 将输入 导入 ES ;
    • step 4: 利用 python 编写 后台,并 对 ES 进行查询,返回接口数据;
    • step 5: ES 数据前端展示;
    • step 6: 百度百科 知识图谱构建
    • step 7:百度百科 知识图谱检索与展示
  • 数据介绍:
    • 本项目通过编写爬虫爬取 百度百科 数据,总共爬取 名称、链接、简介、中文名、外文名、国籍、出生地、出生日期、职业、类型、中文名称、代表作品、民族、主要成就、别名、毕业院校、导演、制片地区、主演、编剧、上映时间 等400多个 指标,共爬取数据 98000 条。
  • 数据预处理模块

爬取的数据根据名称可以分为 人物、地点、书籍、作品、综艺节目等。

类别 指标量 数量 筛选方式
人物 109 27319 国籍、职业、出生日期、出生地有一个不为空
地点 124 9361 地理位置、所属地区有一个不为空
书籍 45 3336 作者 不为空
作品 45 8850 主演为空,中文名称不为空
综艺节目 108 5600 主演、导演都不为空
  • 1、wordCount

  • 2、RDDStudy

    • 内容:RDD编程,熟悉算子,读写文件
    • 第3章 Spark编程基础
      • 3.1 Spark入门:RDD编程
      • 3.2 Spark入门:键值对RDD
      • 3.3 Spark入门:共享变量(提升-分布式必备)
      • 3.4 数据读写
        • 3.4.1 Spark入门:文件数据读写
  • 3、sparkSQLStudy

    • 内容:DataFrame,SparkSQL
    • 第4章
      • 4.1 Spark SQL简介
      • 4.2 DataFrame与RDD的区别
      • 4.3 DataFrame的创建
      • 4.4 从RDD转换得到DataFrame
  • 4、Parquet_JDBC_IO_Study

  • 5、MLlibStudy

    • 内容:MLlib流设计,特征工程
    • 第6章 Spark MLlib
      • 6.1 Spark MLlib简介
      • 6.2 机器学习工作流
        • 6.2.1 机器学习工作流(ML Pipelines)
        • 6.2.2 构建一个机器学习工作流
      • 6.3 特征抽取、转化和选择
        • 6.3.1 特征抽取:TF-IDF
        • 6.3.4 特征变换:标签和索引的转化
        • 6.3.5 特征选取:卡方选择器