Loading…

基于细粒度强化学习增强噪声数据的低资源跨语言摘要

TP391; 跨语言摘要是从源语言文档生成目标语言摘要的任务.最近,端到端跨语言摘要模型通过使用大规模、高质量数据集取得令人瞩目的结果,这些数据集通常是通过将单语摘要语料库翻译成跨语言摘要语料库而构建的.然而,由于低资源语言翻译模型性能有限,翻译噪声会严重降低模型性能.提出一种细粒度强化学习方法解决基于噪声数据的低资源跨语言摘要问题.引入源语言摘要作为黄金信号,减轻翻译后噪声目标摘要的影响.具体来说,通过计算源语言摘要和生成目标语言摘要之间的词相关性和词缺失度设计强化奖励,并将其与交叉熵损失相结合优化跨语言摘要模型.为验证所提出模型性能,构建汉语-越南语和越南语-汉语跨语言摘要数据集.实验结果...

Full description

Saved in:
Bibliographic Details
Published in:信息与电子工程前沿(英文版) 2024, Vol.25 (1), p.121-后插19
Main Authors: 黄于欣, 顾怀领, 余正涛, 高玉梦, 潘通, 徐佳龙
Format: Article
Language:Chinese
Online Access:Get full text
Tags: Add Tag
No Tags, Be the first to tag this record!
Description
Summary:TP391; 跨语言摘要是从源语言文档生成目标语言摘要的任务.最近,端到端跨语言摘要模型通过使用大规模、高质量数据集取得令人瞩目的结果,这些数据集通常是通过将单语摘要语料库翻译成跨语言摘要语料库而构建的.然而,由于低资源语言翻译模型性能有限,翻译噪声会严重降低模型性能.提出一种细粒度强化学习方法解决基于噪声数据的低资源跨语言摘要问题.引入源语言摘要作为黄金信号,减轻翻译后噪声目标摘要的影响.具体来说,通过计算源语言摘要和生成目标语言摘要之间的词相关性和词缺失度设计强化奖励,并将其与交叉熵损失相结合优化跨语言摘要模型.为验证所提出模型性能,构建汉语-越南语和越南语-汉语跨语言摘要数据集.实验结果表明,所提出模型在ROUGE分数和BERTScore方面优于其他基线.
ISSN:2095-9184
DOI:10.1631/FITEE.2300296