/DPT

Process any datasets.

Primary LanguagePython

使用IO.py读取/输出文件:
	import IO
	# readData()读取文件
	    # 支持csv,h5(返回的是pandas的DataFrame格式)
	    # 支持npy,bin(返回np.array格式)
	    例如:
	        a = IO.readdata(path)
    # 输出(写入)文件
	    # 支持bin,npy(要求data为np.array)
	    # 支持csv(要求data为pandas的DataFrame)
	    # 最好存为npy格式
	    例如:
	        IO.writeData(path, data, name = "...", fileType = 'npy')
使用washData.py来清洗数据:
    import washData as wd
    # filterOfNan(): 过滤出数据中的'nan',若某条数据中出现过两次以上(包括两次),就进行标记(在最后一个维度标记为'1')。
        例如:
            d = wd.filterOfNan(data)
            # 其中data为数据矩阵,其格式为pandas.DataFrame()
    # encodeTheClass(): 将输入数据的某一列内类别编码成代数形式。
        例如:
            d = wd.encodeTheClass(data, col = 3)
            # 其中data为numpy.array, col为你想编码的data中的某一列的列数
            # col = 3 表示编码第四列
            # 返回的为编码后的data矩阵
    # val2DiscreteArr(): 将一列数据的代数形式转化为one-hot形式。
        如:[1,2,3,4,5,6]
            1->100000
            2->010000
            ...
            6->000001
        例如:
            d = val2DiscreteArr(colData)
            # 其中colData为一列代数数据
            # 返回值为one-hot矩阵
    # delMarkedData(): 根据索引删除数据中的某些条目
        例如:
            d = delMarkedData(data, markedIndex, col)
            # 其中data为源数据
            # markedIndex为一列索引数据
            # col为索引在data查找的列号
            # 返回值为处理完毕的data数据
    # processTime(): 为处理时间值的数据,从时间信息中提取小时值,并将值落在24小时的某个区间内
        例如:
            d = processTime(timeCol, num = 6)
            # 其中timeCol为包含时间信息的数组
            # num为将24小时划分的区间的个数
            # 返回值为处理好的时间数组
使用fileOp.py来对文件夹或者数据进行操作:
    # file_name(): 获取目录下所有文件的文件名
        # 只支持一级目录
        例如:
            fileNames = file_name(path)
            # path为一级目录
            # 返回值为包含文件名的列表
    # splitData(): 将数据等分为多个batch
        例1:
            batchs = splitData(data, num = 10)
            # 以上是直接读取数据的方法
            # data为numpy.array
            # num为你将数据切分成的份数
        例2:
            batchs = splitData(path, num = 10)
            # 以上为从硬盘读取数据的方法
            # path为文件路径
            # num同上
            # 返回值为由一批切分好的数据所组成的列表