Target

  • 整理通用的预处理功能

Todo list

  • utils for ohers work

Dataset for training

Preprocessing

  • A First-level folder for Preprocessing, contains Data Augmentation, Data Clean, Data Translate, Data Visualization

    Data Annotator Data Augmentation Data Clean Data Translate Data Visualizaiton
    BRAT Over Sampling punction
    Active Learning Under Sampling stop-words
    Data-Generation vocablary

Pipeline

  • 聚类
  • 下采样
  • 噪声去除

Out of Memory

  • 分而治之/hash映射 + hash统计 + 堆/快速/归并排序;
  • 双层桶划分
  • Bloom filter/Bitmap;
  • Trie树/数据库/倒排索引;
  • 外排序;
  • 分布式处理之Hadoop/Mapreduce。

Reference

小样本不平衡样本

  • 训练一个有效的神经网络,通常需要大量的样本以及均衡的样本比例,但实际情况中,我们容易的获得的数据往往是小样本以及类别不平衡的,比如银行交易中的fraud detection和医学图像中的数据。前者绝大部分是正常的交易,只有少量的是fraudulent transactions;后者大部分人群中都是健康的,仅有少数是患病的。因此,如何在这种情况下训练出一个好的神经网络,是一个重要的问题。 本文主要汇总训练神经网络中解决这两个问题的方法。
  • Training Neural Networks with Very Little Data - A Draft -arxiv,2017.08
    • “Training Neural Networks with Very Little Data”学习笔记

View of Corpus too big

使用无监督和半监督来减少标注

结构化数据标记

  • 一般采用json-ld 格式
  • 对非结构化数据进行组织时, 一般使用schema.org 定义的类型和属性作为标记(比如json-ld),且此标记要公开

Schema.org

Data Format

  • iconv -f gb2312 -t utf-8 aaa.asp -o bbb.asp
  • iconv -f utf-16 -t utf-8 train.txt -o train.txt