/DataX-Masking

DataX 3.0 平台上脱敏算法的集成与实现。

Primary LanguageJavaOtherNOASSERTION

DataX-Masking

DataX-Masking 是在 DataX 3.0 基础上二次开发得到的大数据脱敏平台,可以快速地在数据传输过程中对指定的单个或多个字段用可选的脱敏方法进行处理。

一般主要运行在linux系统。

Features

DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。

DataX-Masking 通过扩展DataX的transformer中间件,集成了多种脱敏算法。

DataX使用手册:DataX-Introduction

支持的脱敏方法

平台中的脱敏方法可以分为两类,一种是常用的脱敏方法,这种方法计算开销比较小;另一种是加密方法,这种方法计算开销较大,一般而言用时较久。

脱敏方法名称 描述 示例
Hiding 将数据置为常量,一般用于处理不需要的敏感字段。 500 ->0
false->true
Floor 对整数或浮点数或者日期向下取整。 -12.68->-12
12580->12000
2018-05-10 10:17->2018-05-01 6:00
Enumerate 将数字映射为新值,同时保持数据的大小顺序。 500->1500 600->1860 700->2000
Prefix Preserve 保持前n位不变,混淆其余部分。可针对字母和数字字符在同为字母或数字范围内进行混淆,特殊符号将保留。 10.199.90.105->10.199.38.154
18965432100->18985214789
MD5 不可逆的hash摘要方法。将不定长的数据映射成定长的数据(长度为32的字符串)。 你好世界!->4f025928d787aa7b73beb58c1a85b11d
EDP Epsilon Differential Privacy 17.5 -> 17.962
AES AES-128-CBC 对称加密 你好世界!-> 12da3fedd5f0992447b1c7b4af0d7133
FPE format Preserving Encryption abcdefg -> iskejtl
RSA RSA 非对称密钥加密算法 加密:明文->长度为256字串(1024位二进制整数的16进制表示法)
解密:加密后的字串->明文

Support Data Channels

DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图,详情请点击:DataX数据源参考指南

类型 数据源 Reader(读) Writer(写) 文档
RDBMS 关系型数据库 MySQL
            Oracle         √         √    
SQLServer
PostgreSQL
DRDS
达梦
通用RDBMS(支持所有关系型数据库)
阿里云数仓数据存储 ODPS
ADS
OSS
OCS
NoSQL数据存储 OTS
Hbase0.94
Hbase1.1
MongoDB
Hive
无结构化数据存储 TxtFile
FTP
HDFS
Elasticsearch

DataX-Masking Contributor

  • Liu Kun
  • Liu Wenyan
  • Wang Hao
  • Liu Jiaye

我要开发新的插件

请点击:DataX transformer插件开发

License

This software is free to use under the Apache License Apache license.