pc28官网
pc28官网
你的位置:pc28官网 > 加拿大pc28在线预测飞飞 > 加拿大pc28官网走势神测 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

加拿大pc28官网走势神测 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减

发布日期:2024-12-20 10:50    点击次数:151

陈丹琦团队又带着他们的降本大法来了——加拿大pc28官网走势神测

数据砍掉三分之一,大模子性能却完全不减。

他们引入了元数据,加速了大模子预考研的同期,也不加多单独的计较支拨。

在不同模子限制(600M - 8B)和考研数据来源的情况下,均能完了性能方面的晋升。

天然之前元数据道过好多,但一作高天宇默示,他们是第一个展示它怎么影响下流性能,以及具体怎么推行以确保推理中具备无数实用性。

来望望具体是怎么作念到的吧?

元数据加速大模子预考研

话语模子预考研语料库中存在着立场、规模和质料水平的纷乱互异,这关于拓荒通用模子智力至关蹙迫,可是高效地学习和部署这些异构数据源中每一种数据源的正确当作却极具挑战性。

在这一布景下,他们建议了一种新的预考研方式,称为元数据退换然后冷却(MeCo,Metadata Conditioning then Cooldown)。

具体包括两个考研阶段。

预考研阶段(90%),将元数据(如文档 URL 的十足域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行考研。

(举例,要是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的十足域名c便是 en.wikipedia.org;这种 URL 信息在许多预考研语料库中齐很容易赢得,它们大多来自 CommonCrawl2(一个敞开的汇集捏取数据存储库))

当使用其他类型的元数据时,URL 应替换为相应的元数据称号。

他们只计较文档绚丽的交叉熵失掉,而不有计划模板或元数据中的绚丽,因为在初步实验中发现,对这些绚丽进行考研会稍稍挫伤下流性能。

终末10%的考研才略为冷却阶段,使用范例数据考研,给与元数据退换阶段的学习率和优化器状况,即从上一阶段的终末一个检查点开动化学习率、模子参数和优化器状况,并不绝阐明经营治愈学习率:

1)禁用跨文档Attention,这既加速了考研速率(1.6B 模子的考研速率提高了 25%),又提高了下流性能。

辽宁省体育局官网在文章中称:去年以来,以辽宁省足球振兴发展座谈会为标志,全省开启了新一轮足球改革振兴。辽宁省委、省政府高度重视足球工作,设立了由省委、省政府领导为召集人,省直有关部门作为成员单位的足球振兴发展工作机制,使辽宁省足球工作迎来了历史性的发展机遇。

2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档开首,而不是从一个文档的中间开首—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实诠释这有益于提上下流性能。

本次实验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实验:600M、1.6B、3B 和 8B,以及有关优化建筑。

销毁透露,MeCo 的发达显豁优于范例预考研,其平均性能与 240B 绚丽的基线相配,而使用的数据却减少了 33%。

终末回归,他们主要完成了这三项孝敬。

1、 MeCo 大幅加速了预考研。

实考诠释,MeCo 使一个 1.6B 的模子在少用 33% 的考研数据的情况下,达到了与范例预考研模子一样的平均下流性能。在不同的模子限制(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 透露出一致的收益。

2、MeCo 开启了调换话语模子的新方式。

举例,使用factquizmaster.com(非真正URL)不错提高知识性任务的性能(举例,在零次知识性问题解答中十足提高了6%),而使用wikipedia.org与范例的无条目推理比拟,毒性生成的可能性缩小了数倍。

3、消解了 MeCo 的贪图聘用,并诠释 MeCo 与不同类型的元数据兼容。

使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按来源将文档归类。因此,即使莫得URL,MeCo 也能灵验地整合不同类型的元数据,包括更精熟的选项。

陈丹琦团队

论文作家来自普林斯顿NLP小组(附庸于普林斯顿话语与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。

一作高天宇,本科毕业于清华,是2019年清华特奖得主,现在普林斯顿五年齿博士生,展望本年毕业,不绝在学界搞盘问,盘问规模包括天然话语责罚和机器学习的交叉规模,尽头暖和假话语模子(LLM),包括构建诳骗要领、提高LLM功能和后果。

Luxi He现在是普林斯顿计较机专科二年齿博士生,现在盘问要点是清爽话语模子并改善其一致性和安全性,硕士毕业于哈佛大学。

YiHe Dong现在在谷歌从事机器学习盘问和工程责任,专注于结构化数据的默示学习、自动化特征工程和多模态默示学习,本科毕业于普林斯顿。

— 完 —加拿大pc28官网走势神测