pc28官网
热点资讯
加拿大pc28开奖网址 陈丹琦团队降本大法又来了:数据砍掉三分之一,性能却完全不减
发布日期:2025-01-03 02:32 点击次数:136
陈丹琦团队又带着他们的降本大法来了——加拿大pc28开奖网址
数据砍掉三分之一,大模子性能却完全不减。
他们引入了元数据,加速了大模子预稽查的同期,也不加多单独的蓄意支出。
在不同模子限度(600M - 8B)和稽查数据起原的情况下,均能罢了性能方面的提高。
诚然之前元数别传念过许多,但一作高天宇暗意,他们是第一个展示它若何影响卑劣性能,以及具体若何推论以确保推理中具备无数实用性。
来望望具体是若何作念到的吧?
元数据加速大模子预稽查
话语模子预稽查语料库中存在着述风、范围和质地水平的广博各别,这关于开荒通用模子智商至关进攻,然而高效地学习和部署这些异构数据源中每一种数据源的正确举止却极具挑战性。
在这一布景下,他们建议了一种新的预稽查要领,称为元数据挽回然后冷却(MeCo,Metadata Conditioning then Cooldown)。
具体包括两个稽查阶段。
预稽查阶段(90%),将元数据(如文档 URL 的扫数域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行稽查。
(举例,要是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的扫数域名c即是 en.wikipedia.org;这种 URL 信息在许多预稽查语料库中齐很容易得回,它们大多来自 CommonCrawl2(一个盛开的采集持取数据存储库))
当使用其他类型的元数据时,URL 应替换为相应的元数据称呼。
他们只蓄意文档美艳的交叉熵亏蚀,而不研讨模板或元数据中的美艳,因为在初步执行中发现,对这些美艳进行稽查会略略毁伤卑劣性能。
终末10%的稽查形式为冷却阶段,使用模范数据稽查,继承元数据挽回阶段的学习率和优化器气象,即从上一阶段的终末一个稽查点运滚动学习率、模子参数和优化器气象,并连续证明相关调治学习率:
1)禁用跨文档Attention,这既加速了稽查速率(1.6B 模子的稽查速率提高了 25%),又提高了卑劣性能。
2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档入手,而不是从一个文档的中间入手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实讲明注解这成心于提上卑劣性能。
本次执行使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了执行:600M、1.6B、3B 和 8B,以及关连优化修复。
礼貌领路,MeCo 的发扬显然优于模范预稽查,其平均性能与 240B 美艳的基线异常,而使用的数据却减少了 33%。
终末转头,他们主要完成了这三项孝顺。
1、 MeCo 大幅加速了预稽查。
实考据明,MeCo 使一个 1.6B 的模子在少用 33% 的稽查数据的情况下,达到了与模范预稽查模子一样的平均卑劣性能。在不同的模子限度(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 领路出一致的收益。
2、MeCo 开启了相通话语模子的新要领。
举例,使用factquizmaster.com(非真确URL)不错提高知识性任务的性能(举例,在零次知识性问题解答中扫数提高了6%),而使用wikipedia.org与模范的无条目推理比较,毒性生成的可能性裁汰了数倍。
3、消解了 MeCo 的假想选定,并讲明注解 MeCo 与不同类型的元数据兼容。
使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按起原将文档归类。因此,即使莫得URL,MeCo 也能灵验地整合不同类型的元数据,包括更细巧的选项。
陈丹琦团队
论文作家来自普林斯顿NLP小组(隶属于普林斯顿话语与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。
一作高天宇,本科毕业于清华,是2019年清华特奖得主,现在普林斯顿五年齿博士生,展望本年毕业,连续在学界搞扣问,扣问范围包括当然话语科罚和机器学习的交叉范围,杰出祥和假话语模子(LLM),包括构建控制程序、提高LLM功能和成果。
Luxi He现在是普林斯顿蓄意机专科二年齿博士生,现在扣问重心是明白话语模子并改善其一致性和安全性,硕士毕业于哈佛大学。
“文革”期间放得最多的电影是三战(《地道战》《南征北战》《地雷战》)、两列宁(《列宁在十月》《列宁在一九一八》),但它们都是“文革”前的电影。“文革”中生产且大红大紫的电影(不包括样板戏搬上银幕的)有五部,它们是《闪闪的红星》《难忘的战斗》《青松岭》《决裂》《春苗》。还有一部《反击》,没有来得及公映,“四人帮”就完蛋了,我在省城搞到票当“内部电影”看过。
这一年,国产剧在绚烂的《繁花》里开场,我们登上《南来北往》的列车目睹社会变迁,追着大草原的风奔赴《我的阿勒泰》,在《山花烂漫时》去大山里的女校了解张校长的故事,然后回到城市里听一首《凡人歌》,回忆温暖过成长经历的《小巷人家》……
YiHe Dong现在在谷歌从事机器学习扣问和工程责任,专注于结构化数据的暗意学习、自动化特征工程和多模态暗意学习,本科毕业于普林斯顿。
— 完 —加拿大pc28开奖网址