陈丹琦团队又带着他们的降本大法来了——
数据砍掉三分之一,大模子性能却完全不减。
他们引入了元数据,加速了大模子预磨练的同期,也不加多单独的狡计支出。
在不同模子范围(600M - 8B)和磨练数据起首的情况下,均能终了性能方面的擢升。
诚然之前元数据道过许多,但一作高天宇示意,他们是第一个展示它若何影响卑劣性能,以及具体若何实施以确保推理中具备无数实用性。
来望望具体是若何作念到的吧?
元数据加速大模子预磨练
话语模子预磨练语料库中存在着格调、领域和质地水平的高大相反,这关于诱骗通用模子才能至关垂危,然而高效地学习和部署这些异构数据源中每一种数据源的正确行径却极具挑战性。
在这一布景下,他们提议了一种新的预磨练时势,称为元数据转念然后冷却(MeCo,Metadata Conditioning then Cooldown)。
具体包括两个磨练阶段。
预磨练阶段(90%),将元数据(如文档 URL 的完全域名c)与文档拼接(如 “URL: en.wikipedia.org [document]”)进行磨练。
(举例,若是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates,那么文档 URL 的完全域名c便是 en.wikipedia.org;这种 URL 信息在许多预磨练语料库中王人很容易取得,它们大多来自 CommonCrawl2(一个通达的网罗握取数据存储库))
当使用其他类型的元数据时,URL 应替换为相应的元数据称号。
他们只狡计文档标志的交叉熵亏损,而不筹商模板或元数据中的标志,因为在初步试验中发现,对这些标志进行磨练会稍许毁伤卑劣性能。
临了10%的磨练法子为冷却阶段,使用要领数据磨练,接受元数据转念阶段的学习率和优化器情景,即从上一阶段的临了一个查验点启动化学习率、模子参数和优化器情景,并连续凭证筹谋谐和学习率:
1)禁用跨文档Attention,这既加速了磨练速率(1.6B 模子的磨练速率提高了 25%),又提高了卑劣性能。
与此同时,得知埃文凯尔的到来,《731》新电影的导演赵林山也特意来陪他一块参观,顺便帮他解说。在这也不得不提一嘴,《731》这部电影将在2025年7月31号正式上映,到时候大家也可以去看一看。
作为S级片情节很饱满了,夸张但不浮夸。虽然对于我们普通人的人生可能没有什么借鉴意义,作为消遣娱乐还是可以算为好电影。虽然是情S片有L露镜头,但L露的并不过分,而且丝毫没有Y荡羞耻之感。男主的气质不够好,但女主的气质简直不能再棒,身材脸蛋都不完美,但给人舒服的感觉。
2)当将多个文档打包成一个序列时,咱们确保每个序列从一个新文档脱手,而不是从一个文档的中间脱手—当将文档打包成固定长度时,这可能会导致一些数据被丢弃,但事实评释这故意于提上卑劣性能。
本次试验使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了试验:600M、1.6B、3B 和 8B,以及关连优化成立。
斥逐暴露,MeCo 的进展昭着优于要领预磨练,其平均性能与 240B 标志的基线十分,而使用的数据却减少了 33%。
临了顾虑,他们主要完成了这三项孝顺。
1、 MeCo 大幅加速了预磨练。
实考评释,MeCo 使一个 1.6B 的模子在少用 33% 的磨练数据的情况下,达到了与要领预磨练模子调换的平均卑劣性能。在不同的模子范围(600M、1.6B、3B 和 8B)和数据源(C4、RefinedWeb 和 DCLM)下,MeCo 显流露一致的收益。
2、MeCo 开启了指令话语模子的新时势。
举例,使用factquizmaster.com(非实在URL)不错提高知识性任务的性能(举例,在零次知识性问题解答中完全提高了6%),而使用wikipedia.org与要领的无要求推理比拟,毒性生成的可能性裁汰了数倍。
3、消解了 MeCo 的想象遴荐,并评释 MeCo 与不同类型的元数据兼容。
使用散列 URL 和模子生成的主题进行的分析标明,元数据的主要作用是按起首将文档归类。因此,即使莫得URL,MeCo 也能灵验地整合不同类型的元数据,包括更精采的选项。
陈丹琦团队
论文作家来自普林斯顿NLP小组(从属于普林斯顿话语与智能PLI)博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。
一作高天宇,本科毕业于清华,是2019年清华特奖得主,现在普林斯顿五年事博士生,展望本年毕业,连续在学界搞征询,征询领域包括当然话语处置和机器学习的交叉领域,尽头脸色谎言语模子(LLM),包括构建期骗要领、提高LLM功能和成果。
Luxi He现在是普林斯顿狡计机专科二年事博士生,现在征询重心是清楚话语模子并改善其一致性和安全性,硕士毕业于哈佛大学。
YiHe Dong现在在谷歌从事机器学习征询和工程责任,专注于结构化数据的示意学习、自动化特征工程和多模态示意学习,本科毕业于普林斯顿。
— 完 —加拿大28pc预测软件