陈丹琦团队又带着他们的降本大法来了——
数据砍掉三分之一,大模子性能却完全不减。
他们引入了元数据,加速了大模子预磨真金不怕火的同期,也不增多单独的筹算支拨。
在不同模子限制(600M - 8B)和磨真金不怕火数据开头的情况下,均能竣事性能方面的进步。
陈戌源是中国足协的原主席。去年2月份,陈戌源被调查,理由是涉嫌严重违纪违法。2024年1月份,法院对陈戌源进行公开庭审,检方指控陈戌源累计受贿8103万。3月26日,陈戌源案一审公开宣判,陈戌源被判处无期徒刑。
截至2024年三季报,共有8家机构持仓上海家化,其中其他6家、基金2家,合计持股数39614.78万股,持股市值73.84亿元。
天然之前元数外传念过好多,但一作高天宇示意,他们是第一个展示它何如影响下流性能,以及具体何照实行以确保推理中具备多量实用性。
来望望具体是何如作念到的吧?
元数据加速大模子预磨真金不怕火
说念话模子预磨真金不怕火语料库中存在着述风、畛域和质地水平的盛大互异,这关于勾引通用模子智商至关迫切,关联词高效地学习和部署这些异构数据源中每一种数据源的正确步履却极具挑战性。
在这一配景下,他们提倡了一种新的预磨真金不怕火设施,称为元数据退换然后冷却(MeCo,Metadata Conditioning then Cooldown)。
具体包括两个磨真金不怕火阶段。
预磨真金不怕火阶段(90%),将元数据(如文档 URL 的十足域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行磨真金不怕火。
(举例,要是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的十足域名c便是 en.wikipedia.org;这种 URL 信息在许多预磨真金不怕火语料库中齐很容易取得,它们大多来自 CommonCrawl2(一个盛开的聚聚积手取数据存储库))
当使用其他类型的元数据时,URL 应替换为相应的元数据称号。
他们只筹算文档标志的交叉熵失掉,而不考虑模板或元数据中的标志,因为在初步实际中发现,对这些标志进行磨真金不怕火会稍许毁伤下流性能。
临了10%的磨真金不怕火要领为冷却阶段,使用法式数据磨真金不怕火,经受元数据退换阶段的学习率和优化器景况,即从上一阶段的临了一个查验点运行化学习率、模子参数和优化器景况,并继续把柄筹备调节学习率:
1)禁用跨文档Attention,这既加速了磨真金不怕火速率(1.6B 模子的磨真金不怕火速率提高了 25%),又提高了下流性能。
2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档登程点,而不是从一个文档的中间登程点—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实解释这有意于提上下流性能。
本次实际使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实际:600M、1.6B、3B 和 8B,以及干系优化缔造。
拆开线路,MeCo 的施展显豁优于法式预磨真金不怕火,其平均性能与 240B 标志的基线突出,而使用的数据却减少了 33%。
临了回想,他们主要完成了这三项孝敬。
1、 MeCo 大幅加速了预磨真金不怕火。
实考解释,MeCo 使一个 1.6B 的模子在少用 33% 的磨真金不怕火数据的情况下,达到了与法式预磨真金不怕火模子疏通的平均下流性能。在不同的模子限制(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 线路出一致的收益。
2、MeCo 开启了指引说念话模子的新设施。
举例,使用factquizmaster.com(非着实URL)不错提高学问性任务的性能(举例,在零次学问性问题解答中十足提高了6%),而使用wikipedia.org与法式的无条款推理比较,毒性生成的可能性裁减了数倍。
3、消解了 MeCo 的遐想采用,并解释 MeCo 与不同类型的元数据兼容。
使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按开头将文档归类。因此,即使莫得URL,MeCo 也能有用地整合不同类型的元数据,包括更抽象的选项。
陈丹琦团队
论文作家来自普林斯顿NLP小组(从属于普林斯顿说念话与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。
一作高天宇,本科毕业于清华,是2019年清华特奖得主,现在普林斯顿五年事博士生,展望本年毕业,继续在学界搞筹备,筹备畛域包括天然说念话贬责和机器学习的交叉畛域,突出善良大说念话模子(LLM),包括构建愚弄法式、提高LLM功能和后果。
Luxi He现在是普林斯顿筹算机专科二年事博士生,现在筹备要点是聚拢说念话模子并改善其一致性和安全性,硕士毕业于哈佛大学。
YiHe Dong现在在谷歌从事机器学习筹备和工程责任,专注于结构化数据的示意学习、自动化特征工程和多模态示意学习,本科毕业于普林斯顿。
— 完 —加拿大pc28在线预测