flink-china/flink-training-course

实时训练如何生成正负样本

gzy0-0 opened this issue · 0 comments

在曝光和点击进行interval join 时生成的数据是正样本,但是需要拿到曝光没有点击的数据。interval join 是否可以输出该数据,比如在数据淘汰的时候?
使用cogroup 的话,由于

public static long getWindowStartWithOffset(long timestamp, long offset, long windowSize) {
return timestamp - (timestamp - offset + windowSize) % windowSize;
}

曝光和点击可能位于不了一个window,这个情况怎么处理呢,非要借助外部存储进行记录吗