你的位置:pc28官网 > 加拿大pc28结果走势数据 > 加拿大pc28开奖统计 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

加拿大pc28开奖统计 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

发布日期:2024-12-22 16:01    点击次数:156

陈丹琦团队又带着他们的降本大法来了——加拿大pc28开奖统计

数据砍掉三分之一,大模子性能却完全不减。

他们引入了元数据,加速了大模子预磨砺的同期,也不增多单独的计较支出。

在不同模子范围(600M - 8B)和磨砺数据着手的情况下,均能末端性能方面的进步。

天然之前元数据道过好多,但一作高天宇暗示,他们是第一个展示它若何影响卑劣性能,以及具体若何本质以确保推理中具备大批实用性。

来望望具体是若何作念到的吧?

元数据加速大模子预磨砺

话语模子预磨砺语料库中存在着格调、界限和质料水平的强大互异,这关于诱惑通用模子才能至关热切,可是高效地学习和部署这些异构数据源中每一种数据源的正确举止却极具挑战性。

在这一配景下,他们建议了一种新的预磨砺纪律,称为元数据转化然后冷却(MeCo,Metadata Conditioning then Cooldown)。

具体包括两个磨砺阶段。

预磨砺阶段(90%),将元数据(如文档 URL 的足够域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行磨砺。

(举例,淌若文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的足够域名c即是 en.wikipedia.org;这种 URL 信息在许多预磨砺语料库中王人很容易获取加拿大pc28开奖统计,它们大多来自 CommonCrawl2(一个灵通的鸠集执取数据存储库))

当使用其他类型的元数据时,URL 应替换为相应的元数据称呼。

他们只计较文档鲜艳的交叉熵亏本,而不推敲模板或元数据中的鲜艳,因为在初步实验中发现,对这些鲜艳进行磨砺会稍许毁伤卑劣性能。

终末10%的磨砺设施为冷却阶段,使用程序数据磨砺,继承元数据转化阶段的学习率和优化器气象,即从上一阶段的终末一个检讨点运升沉学习率、模子参数和优化器气象,并不息凭证打算调理学习率:

根据近期媒体的消息,中乙球队廊坊荣耀之城目前已经落户杭州,成为了杭州第二家男足职业俱乐部。球队定名“杭州临平吴越钱唐队”,将以“杭州临平吴越钱唐足球队”的名称征战新赛季的联赛。

新赛季,随着投资方的更换,这支球队将开始新的征程。细心的球迷已经发现,目前,全新的教练组团队,已经接手球队,开始带队训练。其中,主教练是曾入选“超白金一代”国青的周麟。

1)禁用跨文档Attention,这既加速了磨砺速率(1.6B 模子的磨砺速率提高了 25%),又提高了卑劣性能。

2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档出手,而不是从一个文档的中间出手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实讲解这有益于提迤逦游性能。

本次实验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及有关优化建造。

死亡表露,MeCo 的弘扬赫然优于程序预磨砺,其平均性能与 240B 鲜艳的基线尽头,而使用的数据却减少了 33%。

终末回来,他们主要完成了这三项孝敬。

1、 MeCo 大幅加速了预磨砺。

实考讲解,MeCo 使一个 1.6B 的模子在少用 33% 的磨砺数据的情况下,达到了与程序预磨砺模子一样的平均卑劣性能。在不同的模子范围(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 表露出一致的收益。

2、MeCo 开启了沟通话语模子的新纪律。

举例,使用factquizmaster.com(非信得过URL)不错提高知识性任务的性能(举例,在零次知识性问题解答中足够提高了6%),而使用wikipedia.org与程序的无条目推理比拟,毒性生成的可能性裁减了数倍。

3、消解了 MeCo 的想象选拔,并讲解 MeCo 与不同类型的元数据兼容。

使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按着手将文档归类。因此,即使莫得URL,MeCo 也能有用地整合不同类型的元数据,包括更细致的选项。

陈丹琦团队

论文作家来自普林斯顿NLP小组(从属于普林斯顿话语与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。

一作高天宇,本科毕业于清华,是2019年清华特奖得主,当今普林斯顿五年事博士生,瞻望本年毕业,不息在学界搞接头,接头界限包括天然话语处置和机器学习的交叉界限,非凡关爱诳言语模子(LLM),包括构建期骗程序、提高LLM功能和成果。

Luxi He当今是普林斯顿计较机专科二年事博士生,当今接头要点是相识话语模子并改善其一致性和安全性,硕士毕业于哈佛大学。

YiHe Dong当今在谷歌从事机器学习接头和工程使命,专注于结构化数据的暗示学习、自动化特征工程和多模态暗示学习,本科毕业于普林斯顿。

— 完 —加拿大pc28开奖统计



Powered by pc28官网 @2013-2022 RSS地图 HTML地图