陈丹琦团队又带着他们的降本大法来了——
数据砍掉三分之一,大模子性能却完全不减。
他们引入了元数据,加速了大模子预考试的同期,也不加多单独的计算支拨。
在不同模子鸿沟(600M - 8B)和考试数据着手的情况下,均能竣事性能方面的晋升。
天然之前元数据道过好多,但一作高天宇暗示,他们是第一个展示它怎样影响下流性能,以及具体怎样实行以确保推理中具备大都实用性。
来望望具体是怎样作念到的吧?
元数据加速大模子预考试
言语模子预考试语料库中存在着立场、鸿沟和质地水平的宏大各异,这关于拓荒通用模子才气至关关键,然则高效地学习和部署这些异构数据源中每一种数据源的正确手脚却极具挑战性。
在这一配景下,他们建议了一种新的预考试格式,称为元数据挪动然后冷却(MeCo,Metadata Conditioning then Cooldown)。
具体包括两个考试阶段。
预考试阶段(90%),将元数据(如文档 URL 的皆备域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行考试。
(举例,若是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的皆备域名c即是 en.wikipedia.org;这种 URL 信息在许多预考试语料库中都很容易得到,它们大多来自 CommonCrawl2(一个怒放的网罗捏取数据存储库))
当使用其他类型的元数据时,URL 应替换为相应的元数据称号。
他们只计算文档瑰丽的交叉熵亏本,而不酌量模板或元数据中的瑰丽,因为在初步实践中发现,对这些瑰丽进行考试会稍微损伤下流性能。
终末10%的考试格式为冷却阶段,使用尺度数据考试,给与元数据挪动阶段的学习率和优化器情景,即从上一阶段的终末一个查验点开动化学习率、模子参数和优化器情景,并连接凭证权谋治愈学习率:
1)禁用跨文档Attention,这既加速了考试速率(1.6B 模子的考试速率提高了 25%),又提高了下流性能。
2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档动手,而不是从一个文档的中间动手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实证据这故意于提陡立游性能。
本次实践使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了实践:600M、1.6B、3B 和 8B,以及干系优化拓荒。
戒指透露,MeCo 的进展清醒优于尺度预考试,其平均性能与 240B 瑰丽的基线绝顶,而使用的数据却减少了 33%。
终末回来,他们主要完成了这三项孝顺。
1、 MeCo 大幅加速了预考试。
实考据明,MeCo 使一个 1.6B 的模子在少用 33% 的考试数据的情况下,达到了与尺度预考试模子疏通的平均下流性能。在不同的模子鸿沟(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 透露出一致的收益。
2、MeCo 开启了指引言语模子的新格式。
举例,使用factquizmaster.com(非信得过URL)不错提高知识性任务的性能(举例,在零次知识性问题解答中皆备提高了6%),而使用wikipedia.org与尺度的无条目推理比较,毒性生成的可能性裁减了数倍。
3、消解了 MeCo 的估量打算聘请,并证据 MeCo 与不同类型的元数据兼容。
使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按着手将文档归类。因此,即使莫得URL,MeCo 也能灵验地整合不同类型的元数据,包括更空洞的选项。
陈丹琦团队
论文作家来自普林斯顿NLP小组(附庸于普林斯顿言语与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。
一作高天宇,本科毕业于清华,是2019年清华特奖得主,现在普林斯顿五年岁博士生,瞻望本年毕业,连接在学界搞商量,商量鸿沟包括天然言语科罚和机器学习的交叉鸿沟,特等关心大言语模子(LLM),包括构建行使步伐、提高LLM功能和效果。
据报道,OnePlus Open 2 折叠后的厚度不到 10 毫米,拥有 IPX8 等级--比 OnePlus Open 的 IPX4 等级有所提升。 据悉,该设备的主显示屏将是 8 英寸 2K LTPO,并配有 6.4 英寸 AMOLED 盖板显示屏。 OnePlus Open 2 预计将搭载骁龙 8 Elite 芯片组,最高可配 16GB 内存和 1TB 内部存储空间。
Luxi He现在是普林斯顿计算机专科二年岁博士生,现在商量重心是清楚言语模子并改善其一致性和安全性,硕士毕业于哈佛大学。
YiHe Dong现在在谷歌从事机器学习商量和工程责任,专注于结构化数据的暗示学习、自动化特征工程和多模态暗示学习,本科毕业于普林斯顿。
— 完 —加拿大pc28预测在线