NLProject

参与人: 卢俊良

项目文档

DAG流处理模块

ToDoList

20180513

    • 适配**金融商品交易所,大连商品交易所
    • 优化DAG模式的新闻处理流程
    • 完善文档资料
    • 优化预处理逻辑
    • 增加提取期货品种的功能

20180504

    • Text类分解 -> 多个不同新闻源的处理方法 (插件的形式)
    • 处理多个交易所的新闻来源(上海期货交易所,**金融商品交易所,大连商品交易所),可以按这个来分解Text类
    • 加入流处理模式,利用字典定义整个处理流程
    • 加入数据库写入接口模块
    • 建立数据库,与原始数据隔离
    • 期货代码只需保存字母和数字的形式

20180427

    • 以费用类型(手续费、交易限额)作为类型,对新闻进行分类
    • 根据某个期货代码,获取近期相关的(费用变动)新闻
    • 找出所有的期货代码和期货货物名称,制作字典方便分词
    • 统一数据获取接口
    • 分词和向量化模块解耦