cgsvv/AISubtitle

错行现象很严重,几乎每页都有

Opened this issue · 13 comments

它太考虑上下文了,总是提前翻译后面的内容,以至于不能跟原文一一对应。需要优化prompt

cgsvv commented

嗯,我也遇到了这个问题。我目前用的prompt是

system: 你是一个专业的翻译。请逐行翻译下面的文本到英文,注意保留行号及换行符。

user msg是十条字幕,去了时间戳,但保留序号,如下

111
hey

112
can you two please focus

大家有想到什么更好的prompt也可以帮我试一下,多谢

嗯,我也遇到了这个问题。我目前用的prompt是

system: 你是一个专业的翻译。请逐行翻译下面的文本到英文,注意保留行号及换行符。

user msg是十条字幕,去了时间戳,但保留序号,如下

111
hey

112
can you two please focus

大家有想到什么更好的prompt也可以帮我试一下,多谢

promp:你是一个专业的字幕翻译员,现在我有一个字幕文件如下,请按照字幕的特性翻译该文件。

另外,建议每当翻译了10句过后,再总结一下这十句话,作为后面翻译10句话的摘要,这样后面每翻译十句,都不断生成摘要,最终翻译出来的质量应该会更统一一些。

再修改了下promp
你是一个专业的字幕翻译员,现在我有一个字幕文件如下,请使用人人影视字幕组的翻译风格以及字幕的特性翻译该文件。
111
Hey.
112
Can you two please focus?
113
l'm sorry,Claire.
114
Did you sleep?
115
No.
116
You?
117

  • we can band together toshow off just how great...
    118
    No.
    119
  • And l remind you,if you know anything,
    120
    anything at all,

111
嘿。
112
你们能不能专心点?
113
抱歉,克莱尔。
114
你睡了吗?
115
没有。
116
你呢?
117
我们可以团结一致展示自己的优秀…
118
不行。
119
还有,提醒你,如果你知道什么,
120
无论什么,

@mm519897405 我试了你的设定,确实好多了,至少不会有空行了。(我是带着时间戳试的)
我发现带着越多的上下文,翻译就越准确,这是chatgpt区别与传统机翻的最大优势。但是受到token长度的限制,不能无限增加,这是个矛盾。

cgsvv commented

看到一个其他人的prompt,准备拿来试试 链接

You are a program responsible for translating subtitles. Your task is to output the specified target language based on the input text. Please do not create the following subtitles on your own. Please do not output any text other than the translation. You will receive the subtitles as array that needs to be translated, as well as the previous translation results and next subtitle. If you need to merge the subtitles with the following line, simply repeat the translation. Please transliterate the person's name into the local language. Target language: Chinese.

他这个也是一行一行发吧, 没啥用啊

我也想翻译字幕, 还没找到好方法能把行数一一对应

能添加一个自定义prompt的模块吗

既然做成在线的表格式对照翻译,那就应该有手动修改错行内容的功能才对啊!
就是右边翻译出来的每行都可以修改里面的内容,用来人工校对错行的、空白行的内容啊!

我模仿你的拆分成prompt 句子的代码,自己实现了一个翻译器,无论怎么样gpt3.5还会丢失一两个换行符,导致错行,一般是两行叠在一起,这个好像无法避免,还是需要加编辑模式的

既然做成在线的表格式对照翻译,那就应该有手动修改错行内容的功能才对啊! 就是右边翻译出来的每行都可以修改里面的内容,用来人工校对错行的、空白行的内容啊!

另外一个github的软件是有的 [https://github.com/gnehs/subtitle-translator]

我模仿你的拆分成prompt 句子的代码,自己实现了一个翻译器,无论怎么样gpt3.5还会丢失一两个换行符,导致错行,一般是两行叠在一起,这个好像无法避免,还是需要加编辑模式的

把你的翻译器也发出来看看吗兄弟

我只是尝试要它整理成表格来输出,现在做成了油猴脚本,可以点击按钮后把表格最后一列转成可编辑模式,人工校对一番,然后一键复制出结果。
动画油猴脚本ChatGPT翻译字幕
**程序猿做的那个ChatGPT翻译字幕的工具不知道是不是也是这样的思路,我的api key填进去用不了,所以无法知道是不是也可以在翻译后手动校对。
https://github.com/gnehs/subtitle-translator-electron/releases
https://github.com/gnehs/subtitle-translator