wxjiao/ParroT

关于 run_clm_llms.py修改

andongBlue opened this issue · 2 comments

感谢您对llms在翻译社区的贡献!

想问您所提到在run_clm_llms.py文件中的修改主要有哪些呢?

wxjiao commented

你好,这个文件刚刚有所更新。
以最新版为准,修改主要包括几个方面:

  • 数据加载(340-370行):支持在local dataset上的streaming
  • Padding检查(430-460)
  • 数据预处理(470-560):改变数据预处理部分,移除block split,只计算output loss
  • Data collator(650-660):动态padding

感谢您的回复,最近正在了解该项目的代码,您的指出给社区提供了更为详细的帮助,再次感谢您对llms在翻译社区的贡献!