更换数据训练报错

Question

更换数据训练报错

Closed this issue a year ago · 6 comments

大佬好，我用了你的数据训练模型没有问题，但我自己标了一些数据后生成的训练集总是报错，报错信息如下：

Traceback (most recent call last): File "main.py", line 190, in <module> main(data_name) File "main.py", line 153, in main dev_data = [json.loads(d) for d in dev_data] File "main.py", line 153, in <listcomp> dev_data = [json.loads(d) for d in dev_data] File "/root/miniconda3/lib/python3.8/json/__init__.py", line 357, in loads return _default_decoder.decode(s) File "/root/miniconda3/lib/python3.8/json/decoder.py", line 337, in decode obj, end = self.raw_decode(s, idx=_w(s, 0).end()) File "/root/miniconda3/lib/python3.8/json/decoder.py", line 355, in raw_decode raise JSONDecodeError("Expecting value", s, err.value) from None json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)

我核对了我的文件格式，都是按照你的来写，也尝试过更换标准的json文件格式，但都是报错，我的部分数据是这种格式：

{"id": "TEX0001", "text":["6", ".", "为", "进", "一", "步", "加", "大", "增", "值", "税", "留", "抵", "退", "税", "政", "策", "实", "施", "力", "度", "，", "着", "力", "稳", "市", "场", "主", "体", "稳", "就", "业", "，", "现", "将", "扩", "大", "全", "额", "退", "还", "增", "值", "税", "留", "抵", "税", "额", "政", "策", "行", "业", "范", "围", "有", "关", "政", "策", "公", "告", "如", "下", "："], "labels":["O", "O", "O", "O", "O", "O", "O", "O", "B-税费种类", "I-税费种类", "I-税费种类", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-税费种类", "I-税费种类", "I-税费种类", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]} {"id": "TEX0003", "text":["8", ".", "（", "一", "）", "符", "合", "条", "件", "的", "批", "发", "零", "售", "业", "等", "行", "业", "企", "业", "，", "可", "以", "自", "2", "0", "2", "2", "年", "7", "月", "纳", "税", "申", "报", "期", "起", "向", "主", "管", "税", "务", "机", "关", "申", "请", "退", "还", "增", "量", "留", "抵", "税", "额", "。"], "labels":["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-所属行业", "I-所属行业", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]} {"id": "TEX0004", "text":["9", ".", "（", "二", "）", "符", "合", "条", "件", "的", "批", "发", "零", "售", "业", "等", "行", "业", "企", "业", "，", "可", "以", "自", "2", "0", "2", "2", "年", "7", "月", "纳", "税", "申", "报", "期", "起", "向", "主", "管", "税", "务", "机", "关", "申", "请", "一", "次", "性", "退", "还", "存", "量", "留", "抵", "税", "额", "。"], "labels":["O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "B-所属行业", "I-所属行业", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O", "O"]}
请大佬指教

Answer 1 · 2023-07-31T05:52:55.000Z

解决了，谢谢！

Answer 2 · 2024-03-08T14:39:37.000Z

请问你是怎么解决的？

Answer 3 · 2024-03-09T01:11:50.000Z

这个问题我印象里应该是由于数据的最后一行存在换行符，但时间有点久了，你可以尝试一下，如果还有问题，欢迎交流

Answer 4 · 2024-03-09T02:17:58.000Z

这个问题我印象里应该是由于数据的最后一行存在换行符，但时间有点久了，你可以尝试一下，如果还有问题，欢迎交流

解决了，非常感谢

Answer 5 · 2024-03-29T03:17:09.000Z

你好，我想请教一下，原博主自带数据集dgre运行成功，但是再换成自己数据集时，自己的数据集格式应该调成什么样的格式呢？能不能帮忙给一个实例，以下是本人数据集中的一条实例：

{"id":65521,"text":"811：北京市发展和改革委员会发文字号：京发改〔2023〕293号公布日期：2023.03.03施行日期：2023.03.03时效性：现行有效效力位阶：地方规范性文件法规类别：能源综合规定节能管理北京市发展和改革委员会关于印发数据中心项目年可再生能源利用水平核实评价技术导则（试行）的通知（京发改〔2023〕293号）各有关单位：根据《关于进一步加强数据中心项目节能审查的若干规定》（京发改规〔2021〕4号）相关工作要求，为依据节能审查意见和节能报告做好取得节能审查批复的数据中心项目的年可再生能源利用水平核实评价工作，我们研究制定了《数据中心项目年可再生能源利用水平核实评价技术导则（试行）》，现予以印发。试行期间，如有问题和意见建议，请及时反馈。特此通知。北京市发展和改革委员会 2023年3月3日附件：数据中心项目年可再生能源利用水平核实评价技术导则（试行）附件预览无相关内容","entities":[{"id":473,"label":"政策主体-政策制定者","start_offset":341,"end_offset":352},{"id":483,"label":"政策过程-政策评估","start_offset":261,"end_offset":267},{"id":5917,"label":"政策主体-政策制定者","start_offset":103,"end_offset":114}],"relations":[],"Comments":[]}。

Answer 6 · 2024-03-29T03:22:24.000Z

Kkx-b ***@***.***>于2024年3月29日周五11:17写道：

你好，我想请教一下，原博主自带数据集dgre运行成功，但是再换成自己数据集时，自己的数据集格式应该调成什么样的格式呢？能不能帮忙给一个实例，以下是本人数据集中的一条实例： {"id":65521,"text":"811：北京市发展和改革委员会发文字号：京发改〔2023〕293号公布日期：2023.03.03施行日期：2023.03.03时效性：现行有效效力位阶：地方规范性文件法规类别：能源综合规定节能管理北京市发展和改革委员会关于印发数据中心项目年可再生能源利用水平核实评价技术导则（试行）的通知（京发改〔2023〕293号）各有关单位：根据《关于进一步加强数据中心项目节能审查的若干规定》（京发改规〔2021〕4号）相关工作要求，为依据节能审查意见和节能报告做好取得节能审查批复的数据中心项目的年可再生能源利用水平核实评价工作，我们研究制定了《数据中心项目年可再生能源利用水平核实评价技术导则（试行）》，现予以印发。试行期间，如有问题和意见建议，请及时反馈。特此通知。北京市发展和改革委员会 2023年3月3日附件：数据中心项目年可再生能源利用水平核实评价技术导则（试行）附件预览无相关内容","entities":[{"id":473,"label":"政策主体-政策制定者","start_offset":341,"end_offset":352},{"id":483,"label":"政策过程-政策评估","start_offset":261,"end_offset":267},{"id":5917,"label":"政策主体-政策制定者","start_offset":103,"end_offset":114}],"relations":[],"Comments":[]}。 — Reply to this email directly, view it on GitHub <#5 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ANN257YB356HKMNCUUJTFYLY2TMMVAVCNFSM6AAAAAA25XMUTOVHI2DSMVQWIX3LMV43OSLTON2WKQ3PNVWWK3TUHMZDAMRWGU2TCOBZGM> . You are receiving this because you modified the open/close state.Message ID: ***@***.***>

你好，我印象里原repo里应该是附带data sample，建议你仔细查看一下，另外我印象里标注格式应该是BIO，跟你的标注数据格式并不是很相符，可以参考sample调整一下