chenditc/investment_data

关于release tag中发布的数据

Closed this issue · 7 comments

qengli commented

感谢你实现了一个较为可靠的数据源,我想请教一下,github中你每天发布的数据包是全量数据吗?这些tag是每天固定几点钟更新的?这样我就偷懒可以做个脚本直接从github上下载就可以了

一般是下午5点开始跑,什么时候跑完不一定。我的 release 更新只是方便研究使用,不保证实时性,出 bug 的时候断更也是有可能的。

qengli commented

嗯,那我是否应该这样做比较好?

  1. 在本地clone你instrument_data的数据库
  2. daily_update.sh 每天从tushare更新数据
  3. 再用dump_qlib_bin.sh 更新到qlib的数据目录中

目前出现问题的主要是 tushare 数据更新不及时,有的时候行情数据到晚上7、8点才更新。我觉得比较理想的解决方案是 #6

最好是有额外的数据源补充,不然你自己在本地跑也不能解决 tushare 数据更新不及时的问题。

qengli commented

谢谢你的回复。
另外我再请教一个问题,希望你能帮我解惑
我更新了最新的数据后,检查calenda最新日期确实是2023-06-09了,如下图
image

但是做过因子处理后的数据却只到2023-06-08,没有2023-06-09的数据,如下图。能否告诉我这是什么原因呢?
image

如果没有最新一天的因子数据,就在没法在实盘中做明天的预测了

这个应该和你使用的 processor 有关。这个问题还是更适合在 qlib 社区讨论:https://github.com/microsoft/qlib/issues

6月9日的数据是缺失,不是与使用的 processor 有关。这种情况已经频繁发生了。
6月12日的数据可用。
我现在换掘金的数据源了。

另外觉得用dolt真不如简单的csv存储方便。

qengli commented

掘金的数据如何使用,能否交流一下?