pc28

加拿大pc28官网网址 用大模子吃瓜更智能了!阿里通义实验室提议新时分线追溯框架,全面提高新闻追溯遵守

发布日期:2024-12-26 13:53    点击次数:146
绽放域和阻滞域TLS都更高效了

目下,大模子不错帮你梳理新闻时分线了,以后吃瓜就更绵薄了!

AI Agent的风,我们赛博乐子东说念主也得吹吹。

这等于来自阿里巴巴通义实验室与上海交通大学的新参议,他们提议了一种基于Agent的新闻时分线选录新框架——CHRONOS。

它不仅不错帮你从海量新闻中追溯出蹙迫事件,更蹙迫的是,它还不错梳理出了了的时分线,以后上网冲浪时各式复杂事件都一目了然。

其中的CHRONOS一词取自希腊外传中的时分之神柯罗诺斯。

该框架通过迭代多轮的自我发问神色,团结检索增强生成工夫,从互联网上检索沟通事件信息,并生成时分功令的新闻选录,为新闻时分线选录生成提供了一种全新的惩办有诡计。

先来一王人瞅瞅几个例子。

比如对于新闻“国足1-0巴林”,CHRONOS大约追溯海量新闻,呈现事件的世代相承。

对于遮掩时分更长的新闻“中国探月工程”,CHRONOS也能聚焦要点事件,呈当前分线发展,使得用户大约一目了然。

补王人绽放域TLS短板

时分线追溯(Timeline Summarization, TLS)任务是一种当然话语处理界限的经典工夫挑战,它旨在从大都文本数据中索取要害事件,并依时代功令枚举,以提供对某一主题或界限历史发展的结构化视图。

举例,在新闻界限,时分线追溯不错匡助用户快速了解一个新闻事件的世代相承。该任务不仅条款识别出蹙迫的事件,还需措施略事件之间的时分沟通和因果沟通,以便生成一个连贯、浮松且信息丰富的时分线选录。

凭据可检索事件的开头,不错将TLS任务细分为阻滞域(closed-domain)和绽放域(open-domain)两个设定:在阻滞域TLS任务中,时分线是从一组预界说的、与特定主题或界限沟通的新闻著作中创建的,而绽放域TLS指的是从互联网上平直搜索和检索新闻著作来生成时分线的进程。

畴昔的职责东要长入于惩办阻滞域上时分线生成问题,而绽放域TLS则需要繁密的信息检索和筛选才气,以及在莫得全局视图的情况下识别和设立事件之间沟通的才气,为这项任务提议了新的要乞降挑战。

迭代检索的CHRONOS框架

为了搪塞上述挑战,团队提议CHRONOS框架,通过迭代发问进行沟通事件检索,生成准确、全面的时分线选录,大约灵验地惩办绽放域和阻滞域两种设定下的TLS任务。

1. 动机

时分线生成的中枢在于设立事件之间的时分和因果沟通。

每个新闻事件都不错被示意为一个不同的节点,任务的标的是设立这些节点之间的边,以展示它们的沟通性,并最终酿成一个异构图,从主题新闻的节点入手。

因此,通过一个检索机制来检索沟通的新闻著作,不错灵验设立这些边,酿成事件之间的沟通。

2. 玄虚

CHRONOS诓骗大模子的才气,通过模拟东说念主类信息检索的进程,即通过提议问题、基于检索截止进一步提议新的问题,最终蚁合对于沟通事件的全面信息并追溯为时分线。

CHRONOS包括以下几个模块:

自我发问 (Self-Questioning):当先搜索粗粒度的新闻配景信息,然后迭代地提议问题,以检索更多沟通新闻。

问题改写 (Question Rewriting):将复杂或进展欠安的问题剖析为更具体、更易检索的查询。

时分线生成 (Timeline Generation):通过吞并每一轮检索生成的时分线走动首一个隆起蹙迫事件的时分线。

3. 自我发问3.1 粗粒度配景调研

在自我发问的运转阶段,CHRONOS使用标的新闻的标题看成要害词进行搜索,以蚁合与标的新闻最平直沟通的信息。

这些信息组成了新闻配景(News Context),为自我发问打下初步基础。

赶到医院后,社区工作人员便帮助王阿姨挂号、缴费、办理手续。王阿姨的子女长期在国外,为安抚她紧张不安的情绪,社区工作人员和楼组长全程陪伴她进行各项检查,仔细倾听医生的诊断与治疗建议,并详细记录注意事项。与此同时,工作人员联系上王阿姨的子女,告知情况,让在国外的亲人能够放心。

3.2 发问示例采用

在粗粒度配景调研之后,CHRONOS诓骗大模子的盘曲文体习才气,通过极少样本提醒来领导模子生成对于标的新闻的问题。

为了评估问题样践诺量,引入了时序信息量(Chrono-Informativeness, CI)的办法,用来预计模子提议的问题检索与参考时分线对王人事件的才气,即高CI值的问题更有可能指令检索到与标的新闻事件沟通的著作,用检索生成的时分线和参考时分线中包含日历的F1分数进行预计。

基于最大化问题集时序信息量的标的,构建一个“新闻-问题”的示例池,用于领导新标的新闻的问题生成。

对于每个新的标的新闻,通过余弦相似性动态检索与标的新闻最相似的样本,确保了样本的盘曲文沟通性和时分信息的准确性。

3.3 迭代发问

CHRONOS通过连气儿迭代发问,逐渐潜入探索事件的细节。

每一轮迭代都基于前一轮的检索截止,以发现新的问题和信息,直到自尊时分线中事件数目或达到最大迭代次数。

3.4 问题改写

查询改写(Query Rewriting)是检索增强生成中常用的优化设施。

在CHRONOS框架中,团队通过对运转发问阶段产生的平日或复杂问题改写为2-3个更易于检索的子问题,大约生成更具体、更有针对性的查询,从而提高搜索引擎的检索成果。

他们相通在提醒中加入极少样本,领导大模子进行灵验改写,将复杂问题调动为更具体的查询,同期保抓问题的原始意图。

3.5 时分线生成

CHRONOS通过两阶段生成圆善的时分线追溯:生成(Generation)和吞并(Merging)。

生成:通过分析每一轮检索到的新闻著作来识别要害事件和老成信息。诓骗大模子的贯通和生成才气,索取每个事件的发寿辰期和沟通细节,并为每个事件撰写浮松的姿色。这些事件和姿色被组织成初步的时分线,按照时分功令枚举,为后续的吞并阶段提供基础。

吞并:将多轮检索生成的初步时分线整合成一个连贯的最终选录。这一进程触及对王人不同时代线中的事件、惩办任何日历或姿色上的袭击,并采用最具代表性和蹙迫性的事件。

全新数据集OPEN-TLS

为了评估TLS系统,参议团队还蚁合了由专科记者撰写的对于近期新闻事件的时分线,构建了一个名为Open-TLS的新数据集。

与以往阻滞域的数据集比较,Open-TLS不仅在数据集范畴和内容上愈加各样化,遮掩政事、经济、社会、体育和科学工夫等多个界限,何况在时效性上更具上风,为绽放域TLS任务提供了一个更全面和更具挑战性的基准。

实验截止

1. 实验设定

实验基于GPT-3.5-Turbo、GPT-4和Qwen2.5-72B分散构建CHRONOS系统,评测绽放域和阻滞域两个设定下TLS的性能进展。使用的评估办法主要有:

ROUGE-N: 预计生成时分线和参考时分线之间的N-gram叠加。具体包括:(1)Concat F1:通过将扫数日历选录贯穿起来估量ROUGE,以评估举座的一致性;(2)Agree F1:仅使用匹配日历的选录估量ROUGE,以评估特定日历的准确性;(3)Align F1:在估量ROUGE之前,先凭据相似性和日历接近性对展望选录和参考选录进行对王人,评估对王人后的一致性。

Date F1:预计生成时分线中日历与参考时分线中实在日历匹配进度。

2. 绽放域TLS

在绽放域TLS的实验中,CHRONOS与几个基线设施进行了比较,包括平直搜索标的新闻(DIRECT)和重写标的新闻以创建查询用于检索(REWRITE)。

对比之下,CHRONOS通过迭代自我发问和检索沟通新闻著作的设施,权臣提高了事件追溯的质料和日历对王人的准确性,在扫数办法上都很是于基线设施。

3. 阻滞域TLS

在阻滞域TLS的实验中,CHRONOS与之前的代表性职责进行了比较,包括:(1)基于事件团聚设施的CLUST (Gholipour Ghalandari and. Ifrim, 2020);(2)基于事件图模子EGC(Li et al., 2021)和(3)诓骗大模子进行事件聚类的LLM-TLS(Hu et al., 2024)。

在Crisis和T17这两个经典数据集上的比较截止领略,CHRONOS达到了与这些职责访佛的进展,在两个数据集的AR-2办法上获得了SOTA成果,评释了其在不同类型事件和时分跨度上的繁密性能和合乎性。

4. 运行时分分析

CHRONOS的另一个上风体目下遵守方面。

与相通基于大模子、但需要处理新闻库中扫数著作的LLM-TLS设施比较,它通过检索增强机制专注于最沟通的新闻著作,权臣减少了处理时分。

这种遵守的提高使其在践诺应用中更为实用,尤其是在需要快速反馈的场景中。

案例参议:苹果产物发布时分线

团队潜入分析了模子在处理具体新闻事件时的进展,通过采用具有代表性的新闻事件,如苹果公司的重要产物发布,大约不雅察到CHRONOS怎样通过由表及里的自我发问和信息检索来生成时分线。

在案例参议中,CHRONOS展示了其大约准确索取要害事件和日历的才气,同期也揭示了在某些情况下可能需要校正的场地,举例对某些事件的遗漏或日历幻觉。

结语

CHRONOS框架通过团结大型话语模子的迭代自我发问和检索增强生成工夫,为时分线追溯任务提供了一种新颖且灵验的惩办有诡计。

这种设施的中枢在于模拟东说念主类的信息检索进程,通过不断地提议和复兴新问题来逐渐潜入贯通事件,最毕生成一个全面且连贯的时分线选录。

实验截止也曾充分评释了CHRONOS在复杂事件检索和构建时分线方面的才气,展示了该框架在践诺新闻时分线生成应用中的应用后劲和准确性。

同期,这种迭代发问的检索生成设施是否具有泛化到通用任务上的才气也值得畴昔进一步参议。

Reference:

[1] Demian Gholipour Ghalandari and Georgiana Ifrim. 2020. Examining the state-of-the-art in news timeline summarization. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 1322–1334, Online. Association for Computational Linguistics.

[2] Manling Li, Tengfei Ma, Mo Yu, Lingfei Wu, Tian Gao, Heng Ji, and Kathleen McKeown. 2021. Timeline summarization based on event graph compression via time-aware optimal transport. In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pages 6443–6456, Online and Punta Cana, Dominican Republic. Association for Computational Linguistics.

[3] Qisheng Hu, Geonsik Moon, and Hwee Tou Ng. 2024. From moments to milestones: Incremental timeline summarization leveraging large language models. In Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 7232–7246, Bangkok, Thailand. Association for Computational Linguistics.

— 完 —加拿大pc28官网网址





Powered by pc28 @2013-2022 RSS地图 HTML地图