加拿大pc28官网走势图陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

发布日期：2024-12-23 08:59 点击次数：140

陈丹琦团队又带着他们的降本大法来了——加拿大pc28官网走势图

数据砍掉三分之一，大模子性能却完全不减。

他们引入了元数据，加速了大模子预磨真金不怕火的同期，也不加多单独的缠绵支出。

在不同模子范围（600M - 8B）和磨真金不怕火数据泉源的情况下，均能扫尾性能方面的进步。

固然之前元数传说念过好多，但一作高天宇示意，他们是第一个展示它如何影响卑劣性能，以及具体如何实施以确保推理中具备大皆实用性。

来望望具体是如何作念到的吧？

元数据加速大模子预磨真金不怕火

言语模子预磨真金不怕火语料库中存在撰述风、边界和质料水平的宏大互异，这关于开导通用模子智商至关错误，关联词高效地学习和部署这些异构数据源中每一种数据源的正确行径却极具挑战性。

在这一配景下，他们建议了一种新的预磨真金不怕火阵势，称为元数据治愈然后冷却（MeCo，Metadata Conditioning then Cooldown）。

具体包括两个磨真金不怕火阶段。

预磨真金不怕火阶段（90%），将元数据（如文档 URL 的十足域名c）与文档拼接（如 “URL: en.wikipedia.org [document]”）进行磨真金不怕火。

（举例，若是文档的 URL 是 https://en.wikipedia.org/wiki/Bill Gates，那么文档 URL 的十足域名c即是 en.wikipedia.org；这种 URL 信息在许多预磨真金不怕火语料库中皆很容易赢得，它们大多来自 CommonCrawl2（一个通达的麇集握取数据存储库））

当使用其他类型的元数据时，URL 应替换为相应的元数据称号。

他们只缠绵文档象征的交叉熵赔本，而不辩论模板或元数据中的象征，因为在初步本质中发现，对这些象征进行磨真金不怕火会略略挫伤卑劣性能。

临了10%的磨真金不怕火门径为冷却阶段，使用法式数据磨真金不怕火，招揽元数据治愈阶段的学习率和优化器景况，即从上一阶段的临了一个搜检点运转移学习率、模子参数和优化器景况，并链接凭证缠绵调整学习率：

1）禁用跨文档Attention，这既加速了磨真金不怕火速率（1.6B 模子的磨真金不怕火速率提高了 25%），又提高了卑劣性能。

2）当将多个文档打包成一个序列时，咱们确保每个序列从一个新文档脱手，而不是从一个文档的中间脱手—当将文档打包成固定长度时，这可能会导致一些数据被丢弃，但事实解释这有益于提上卑劣性能。

本次本质使用了Llama Transformer架构和Llama-3 tokenizer。咱们使用四种不同的模子大小进行了本质：600M、1.6B、3B 和 8B，以及干系优化建筑。

按序显现，MeCo 的发扬彰着优于法式预磨真金不怕火，其平均性能与 240B 象征的基线极端，而使用的数据却减少了 33%。

临了记忆，他们主要完成了这三项孝敬。

1、 MeCo 大幅加速了预磨真金不怕火。

实考解释，MeCo 使一个 1.6B 的模子在少用 33% 的磨真金不怕火数据的情况下，达到了与法式预磨真金不怕火模子相易的平均卑劣性能。在不同的模子范围（600M、1.6B、3B 和 8B）和数据源（C4、RefinedWeb 和 DCLM）下，MeCo 显现出一致的收益。

33岁的孙铂，除了2022赛季在黑龙江冰城效力之外，其职业生涯一直在大连球队效力。2024赛季，他代表大连英博出场30次，贡献2进球和6助攻。

国安方面，近期有传闻称旧将比埃拉可能回归，肖赧对此给出否定答案，表示“不可能，球队这个位置不需要补人了”。比埃拉曾在2018年至2021年夏季效力于国安，期间为国安队出战88场比赛，贡献30个进球和30个助攻，是球队的功勋外援。

2、MeCo 开启了指引言语模子的新阵势。

举例，使用factquizmaster.com（非果然URL）不错提高学问性任务的性能（举例，在零次学问性问题解答中十足提高了6%），而使用wikipedia.org与法式的无条目推理比较，毒性生成的可能性裁汰了数倍。

3、消解了 MeCo 的想象遴荐，并解释 MeCo 与不同类型的元数据兼容。

使用散列 URL 和模子生成的主题进行的分析标明，元数据的主要作用是按泉源将文档归类。因此，即使莫得URL，MeCo 也能灵验地整合不同类型的元数据，包括更邃密的选项。

陈丹琦团队

论文作家来自普林斯顿NLP小组（从属于普林斯顿言语与智能PLI）博士生高天宇、Alexander Wettig、Luxi He、YiHe Dong、Sadhika Malladi以及陈丹琦。

一作高天宇，本科毕业于清华，是2019年清华特奖得主，当今普林斯顿五年齿博士生，瞻望本年毕业，链接在学界搞商议，商议边界包括当然言语处治和机器学习的交叉边界，非常神志大言语模子（LLM），包括构建行使设施、提高LLM功能和后果。

Luxi He当今是普林斯顿缠绵机专科二年齿博士生，当今商议要点是通晓言语模子并改善其一致性和安全性，硕士毕业于哈佛大学。

YiHe Dong当今在谷歌从事机器学习商议和工程职责，专注于结构化数据的示意学习、自动化特征工程和多模态示意学习，本科毕业于普林斯顿。

— 完 —加拿大pc28官网走势图

pc28官网

加拿大pc28官网走势图陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

热点资讯

推荐资讯

pc28官网

加拿大pc28官网走势图 陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

热点资讯

推荐资讯

加拿大pc28官网走势图陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减