哪位大神可以指点下如何制作train.json文件？

Question

哪位大神可以指点下如何制作train.json文件？

cxhermagic opened this issue 2 years ago · 8 comments

cxhermagic commented 2 years ago

感觉用["train.txt", "train.txt", "train.txt"]这种方式不行，其中train.txt里面是斗破苍穹的文本

Answer 1 · 2023-01-07T16:00:49.000Z

读取小说文件json一直报错，我还以为可以直接读取小说为json结果不行？

Answer 2 · 2023-01-07T16:03:14.000Z

'''
如果训练材料是全部堆在一起不分篇章的话用这个文件
'''
真是骗到我了

Answer 3 · 2023-01-07T16:44:43.000Z

我知道怎么搞了，代码有坑

Answer 4 · 2023-01-12T04:51:07.000Z

是不是json太长了读取失败？如果这样的话可以参考一下这个 #174 (comment)

Answer 5 · 2023-01-12T04:55:52.000Z

如果要训练一本书推荐用train_single.pyREADME中也有说明

Answer 6 · 2023-02-17T07:51:06.000Z

这样的格式
["文章内容","文章内容2"，“文章内容3”]

Answer 7 · 2023-02-17T07:51:48.000Z

我想知道的是，可不可以搞多个train.json, 训练多个后，模型文件生成在一个bin里。

Answer 8 · 2023-03-25T13:27:30.000Z

你可以自己修改代码，不过我写了个简单的小程序用来创建train.json

# -*- coding: utf-8 -*-
import json
import sys
import os

with open('train.json', 'a+', encoding='utf-8') as t:
    t.seek(0)
    try:
        content = json.load(t)
    except json.JSONDecodeError:
        json.dump([], t)
        content = []

    t.seek(0)

    try:
        sys.argv[1]
    except IndexError:
        for each in os.listdir():
            if each.endswith('.txt'):
                with open(each, 'r+', encoding='utf-8') as f:
                    print(f'loaded: {each}')
                    content.append(f.read())
    else:
        with open(sys.argv[1], 'r+', encoding='utf-8') as f:
            print(f'loaded: {sys.argv[1]}')
            content.append(f.read())

    t.truncate()
    json.dump(content, t, ensure_ascii=False)

    print(f'writed {len(content)} objects.')