第四色vvvv88 鹅厂造了个AI翻译公司:专攻收罗演义,真东谈主和GPT
发布日期:2024-10-26 05:37 点击次数:128
克雷西 发自 凹非寺量子位 | 公众号 QbitAI第四色vvvv88
鹅厂搞了个150多东谈主的“翻译公司”,从雇主到职工都是AI智能体!
主买卖务是翻译收罗演义,质地极高,参与评价的读者合计比真东谈主翻译得还要好。
香蕉视频污在线观看无限次数何况比较于雇佣真东谈主,用它来翻译文学作品,资本镌汰了近80倍。
公司名为TransAgents,每个岗亭都配备了30个不同的职工,能够根传说话、文学和想法受众适配不同的翻译格调。
比较于传统的翻译,产出的译文愈加天真万般,也更恰当想法说话的抒发俗例,文学性也更强。
是以,TransAgents固然在以相似度为基础的自动评估中“失败”,却赢得了读者和专科东谈主士的任性细目。
这么的发达致使让东谈主讴歌说,大意东谈主类对东谈主工智能生成的内容愈加疼爱的期间,就要来了。
还有东谈主暗示,TransAgents是确认我方错看了东谈主工智能的又一凭证——本以为由于模子收尾第四色vvvv88,演义的翻译对AI会极其艰难,收尾AI智能体把这个任务完成得相配好。
是以,TransAgents到底有莫得那么神呢?
真东谈主和GPT-4都说好
为了评估TransAgents的翻译质地,作家采用了WMT2023数据集,需要对其进行篇章级的文学翻译。
该数据集从12部收罗演义中各截取了20个贯串的章节,波及如下八种类型:
游戏类(Video Games,VG)东方魔幻类(Eastern Fantasy,EF)科幻爱情类(Sci-fi Romance,SR)现代爱情类(Contemporary Romance,CR)魔幻类(Fantasy,F)科幻类(Science Fiction,SF)恐怖惊悚类(Horror & Thriller,HT)魔幻爱情类(Fantasy Romance,FR)
滥觞,作家使用d-BLEU进行了自动评估,该程序会与参考样本进行相似度计较,相似度越高得分也就越高。
具体到本技俩当中,参考样本一共有两组,样本一是东谈主工给出的翻译收尾,样本二是对收罗中的双语文本进行对都后得到。
收尾,TransAgents的得分并不睬念念,唯有25分,连SOTA的一半都不到。
但这并不料味着TransAgents的翻译质地不可,而是因为用相似度来意想文学作品翻译的发达,自己就有失偏颇。
文学翻译不是逐字对照,而是需要在语义、口吻、格调等方面进行创造性的调节,这些调节可能导致译文与参考译文在名义上各别较大,相似度不高天然就不料外了。
是以,作家干脆平直让真东谈主(至少10东谈主)来评价翻译的质地,趁机也让GPT-4(0125-Preview)来看了看,在TransAgents、GPT-4(1106-Preview)和真东谈主当中,谁的翻译最佳。
测评者会看到针对并吞段原文的不同翻译,其中真东谈主只看译文,GPT-4则是原文译文都看。
收尾,日本鬼父第三季真东谈主测评者有高出一半都合计TransAgents比东谈主类翻译得更好,8.4%合计两者质地极端,GPT-4也合计TransAgents比我方(和东谈主类)的翻译质地高。
除了这些全球评审除外,两名专科的翻译也合计,固然东谈主工翻译愈加诚挚于原文,但TransAgents给出的翻译理会更有文学色调,愈加精真金不怕火、在遣意用句上体现出了说话禀赋和深厚的文学发达力。
MATTR和MTLD测试缱绻也确认了这少量,尤其是在MTLD上,TransAgents的说话万般性比真东谈主和GPT-4率先了三分之一傍边。
在作家展示的案例中,TransAgents会根据想法说话的俗例对翻译内容作念出调解,真东谈主(Ref1)和GPT-4固然翻的也没错,但比较之下不如TransAgents恰当说话俗例。
另外皮前后一致性上,TransAgents也高出了单纯使用GPT-4,对疏导的原文保持使用不异的译文。
天然,也不是说统统类型它都擅长,在前边提到的8种类型中,TransAgents在游戏、科幻爱情等类型上的发达杰出,而在恐怖惊悚等类型上就比较凡俗了。
△图中虚线代表50%Win rate
同期作家也发现,TransAgents在翻译时并非“照单全收”,而是会出现一定进程的遗漏快意。
不外从测试中未看过原文的读者给出的评分来看,这么的遗漏似乎莫得影响到他们的阅读体验。
是以,这家“翻译公司”是若何运行的呢?
多智能体单干调和
在这个公司当中,不同的智能体离别饰演着CEO、初/高档剪辑、真·翻译、土产货化各人和校对(Proofreader)这些不同的职位,除CEO外每个职位各有30东谈主,每个东谈主擅长的畛域也有所不同,另外还有一个Ghost Agent。
这些智能体由GPT-4-Turbo驱动,每个脚色都包含姓名、年齿、职位、使命年限及掌持的说话等多维度的设定。
接到“客户”的翻译条目后,CEO会综合分析原文和想法说话、文学、想法受众等信息,从几位高档剪辑中采用擅长畛域最匹配的一位。
此时,Ghost Agent会对CEO的采用进行评估,见告其东谈主选是否合适,从而减少采用不妥的快意。
被选择的高档剪辑会与CEO合作,再次集中任务需乞降个东谈主特色,从公司东谈主才库中进一步采用低级剪辑、翻译、土产货化各人和校平等团队成员。
团队组建好后,着手由低级剪辑逐章节识别统统潜在的要道术语,生成开动术语表,交由高档剪辑审查,删除其中的通用术语,生成更变后的术语表,反复迭代直到不需要进一步修改。
然后,集中术语在不同语境下的酷好,高档剪辑会将术语表中的要道术语翻译为想法说话。
有了术语表后,低级剪辑会为每一章生成详备的章节纲领,尽可能保留要道信息和细节,然后照旧让高档剪辑来审查,并删除冗余或不消要的信息,让章节纲领愈加三言二语。
接着,高档剪辑根据更变后的章节纲领编写全书的纲领,抽象主要情节、东谈主物和主题,独立地采用书中的一章,分析其口吻、格统一想法受众,制定翻译格调指南。
翻译格调指南会发送给技俩团队统统成员,以确保译文格调的一致性。
根据格调指南,公司中的真·舌人会逐章节进行初步翻译,把初稿交给低级剪辑审查,搜检是否受命翻译格调指南,并提议立异意见。
在此基础之上,高档剪辑会评估经过修改的译文质地,决定是否需要进一步修改,舌人、低级剪辑和高档剪辑反复迭代,直到译文质地得志条目。
但此时得到的翻译文本并不是终稿,还要交给土产货化各人进行调解。各人会识别可能需要文化调适的内容,如习语、隐喻等等,并对这些内容进行调解,使其在保留原文意图的基础之上更濒临想法说话和文化。
调解后的文本会让低级剪辑和高档剪辑再次审查,确保译文在文化适合性和诚挚度之间获得均衡。
这之后,还有校对东谈主员再次搜检语法、拼写、标点和款式失实,若是有修改,还要再让剪辑进一步审核。
这些经过都走完后,高档剪辑会进行终末的终审,要点存眷相邻章节之间的连贯性,确保情节、东谈主物、主题等元素在全书范围内保持一致,一朝发现问题则发还给前边的团队成员进行修改,直到酿成最终的译本。
若是客户对译本有修改意见,则会再次由高档剪辑牵头,组织干系东谈主员进行修改,直到定稿。
不仅是在使命经过上极其严格表率,在客户对译本惬意后,高档剪辑还会组织技俩团队“开会”进行技俩记忆,共享资格教育。
过程中积蓄的有价值的术语、翻译妙技、文化调适战略等常识会被整理归纳,上传至公司的常识库,供后续技俩参考。
One More Thing
TransAgents一经不是第一个由智能体构成的“公司”了,客岁就有来自清华的“游戏公司”ChatDev爆红收罗,背后所应用的中枢期间即是多智能体。
若是把视野放宽,不单看“公司”,还有斯坦福的AI小镇、清华的AI狼东谈主杀游戏,都在使用多智能体进行着实在东谈主类社会的模拟。
总之跟着大模子连络的潜入,智能体和群体智能实际已成AI连络最热点所在之一,何况从此次的TransAgents来看,多智能体协并吞经着手走漏出了本体效益。
(趁机提一句,有网友发现,从斯坦福小镇到ChatDev,再到此次的TransAgents,多智能体连络的作家是确切可爱《星露谷物语》式的绘制格调。)
天然,也有东谈主对此暗示了担忧,合计由AI来主导翻译,会导致说话的同质化,让万般说话中独到的抒发解除。
更有甚者,一经跳出TransAgents自己,念念到Ilya对大范畴Agent合作的怯生生了……
那么你合计在群体智能这条路上还能创造出什么新奇的效果呢?宽宥在指摘区晒出你的脑洞。
论文地址:https://arxiv.org/abs/2405.11804第四色vvvv88