《开源大模型：ChatGPT之外的未来潜力》

与AI共舞，创享未来！关注公众号，获取独家AI资讯，使用先进AI工具，开启您的智能化生活之旅！

文章主题：机器之心专栏, 论文, 开源大模型, 研究界

机器之心专栏

作者：陈海林，焦方锴，李星漩，秦成伟，赵若辰

论文旨在成为研究界和商业领域的重要资源，帮助他们了解开源大模型的当前格局和未来潜力。

一年前 today，ChatGPT 意外亮相，仿佛预示着人工智能新时代的来临。仅仅两个月的时间，这款创新性的人工智能产品便吸引了超过一亿的用户，其增长速度甚至超过了热门的应用如 TikTok 和 YouTube。似乎每隔一段时间，就会有一些基于生成式人工智能的新兴创业公司成立；而以 ChatGPT 和 GPT-4 为核心的智能助手也逐渐在各个领域中崭露头角，助力广大用户优化工作流程，提升工作效率。

众所周知，ChatGPT 并未公开其源代码，这使得人们对其技术细节无法了解，且其服务范围亦不包括部分国家和地区。这种封闭性引发了一系列问题，例如服务的稳定性、高昂的 API 费用、数据所有权和隐私等问题。因此，相较于闭源模型，开源社区的力量备受期望。然而，尽管许多基础模型在发布时仍无法达到 ChatGPT 的性能水平，但随着技术的不断研究和探索，已有部分开源大模型或小型专有模型逐渐迎头赶上。如图一所示，在一些任务上，最佳的开源大模型的表现甚至优于 ChatGPT。

本周，一项由来自南洋理工大学、Salesforce Research和新加坡科技研究局的联合研究发布了一篇详尽的论文，对各个领域和任务中，ChatGPT 表现出色甚至超越其的开源大模型进行了深入探讨。这项研究的目的是为了提供给学术界和商业领域的专业人士们一个全面了解开源大模型现状和未来潜力的参考资料。

论文链接：https://arxiv.org/pdf/2311.16989.pdf

陈海林、焦方锴、李星漩、秦成伟、Mathieu Ravaut、赵若辰、Caiming Xiong以及Shafiq Joty共同发表了一篇研究论文。

在 Github 上，有一个名为 OpenSource-LLMs-better-than-OpenAI 的项目，其中包含了一些值得关注的数据代码。该项目的主要目标是提高开源语言模型的表现，以期达到甚至超过 OpenAI 的水平。具体而言，研究者们通过改进现有模型，并利用这些改进后的模型来训练新的模型，从而实现了性能的提升。这一项目的成功实现，不仅为人工智能领域带来了新的机遇，也为广大研究人员和开发者提供了一个宝贵的参考案例。

I. 综合能力

Llama-2-70B 作为开源社区中最核心且派生模型最多的 LLM，预训练过程中采用了含有两万亿 Token 的庞大语料库。作为基础模型，Llama-2-70B 在综合性基准测试中展现出了卓越的性能。针对特定指令的微调和以及对齐后的 Llama-70b-chat-70B 在通用对话任务上实现了性能的提升，其在 AlpacaEval（一个测试指令跟随能力的数据集）上的胜率为 92.66%，比 ChatGPT 高出 10.95% 的绝对性能。另外，GPT-4 仍然是所有 LLM 中表现最为突出的，其胜率达到 95.28%。

Zephyr-7B 是由 Huggingface 团队训练的小型语言模型。与 ChatGPT 或者 Llama-2 不同，它使用 Direct Preference Optiomization（DPO，直接偏好优化）完成对齐。在 AlpacaEval 上，Zephyr-7B 取得了 90.6% 的胜率，与 70B 级别的 LLM 表现相当，同样也胜过了 ChatGPT。在 MT-Bench（测试多轮对话和指令跟随能力的数据集）上，Zephyr-7B 的性能甚至超过了 Llama-2-chat-70B。

WizardLM-70B 利用自动化构造的大量复杂程度不同的指令数据进行微调，成为 MT-Bench 上得分最高的开源 LLM，得分为 7.71。它同样在 AlpacaEval 上超过了 ChatGPT。

GodziLLa2-70B 把多种专有 LoRA 和 Guanaco Llama 2 1K 数据集与 Llama-2-70B 相结合，在 Open LLM Leaderboard（结合了多个推理和问答任务的数据集）的表现与 ChatGPT 相当。然而，WizardLM-70B 和 GodziLLa-70B 仍然明显落后于 GPT-4。

UltraLlama 使用了更多样和质量更高的数据进行微调训练，在其提出的基准测试上（未在上图表中展示）与 ChatGPT 的表现持平，并在回答需要结合专业知识的问题上超过了 ChatGPT 的表现。

II. 具体任务上超越 ChatGPT 的开源大模型

1.AI 智能体（Agent）

Lemur-70B-chat 团队探索了训练数据中代码和文本更优的配比。通过在包含 90B Token 和 300K 示例的代码 – 文本混合语料上进行训练和指令微调，Lemur-70B-chat 在能够接收来自环境以及编码任务的自然语言反馈以完成目标的设置下，超越了 ChatGPT 的表现。AgentTuning 结合自行构建的 AgentInstruct 数据集和通用领域指令数据在 Llama-2 上进行指令微调。值得注意的是，AgentLlama-70B 在未见过的智能体任务上达到了与 ChatGPT 持平的表现。

在 ToolBench 平台上，通过对 Llama-2-7B 进行精细调整，我们发现 ToolLLaMA 在工具应用评估方面取得了与 ChatGPT 相媲美的成绩。

FireAct 通过对 Llama-2-13B 进行微调，在 HotpotQA 上胜过基于 ReAct 模式的提示式 ChatGPT。

此外，从 Llama-7B 微调而来的 Gorilla 在编写 API 调用方面优于 GPT-4。

2. 逻辑推理

WizardCoder 和 WizardMatch 基于 WizardLM，在知识的宽度和广度上对微调使用的指令数据集进行了拓展。实验表明，WizardCoder 在 HumanEval 上比 ChatGPT 表现更好，提升了 19.1%。而 WizardMath 在 GSM8K 上与 ChatGPT 相比也取得了了 42.9% 的提升。

除了在智能体相关的任务上表现出色，Lemur 在编程与求解数学题等考察逻辑的任务上性能也得到了显著提升。同时，Lemur-70B 在不经过特定任务微调的情况下，在 HumanEval 和 GSM8K 上的表现显著优于 ChatGPT。此外，Phi 使用高质量教科书语料作为主要数据进行预训练，使得较小的语言模型也可以拥有强大的能力。从结果上看，参数量仅为 1.3B 的 Phi-1 相比 ChatGPT 在 HumanEval 上取得了约 3% 的性能提升。

3. 长文本能力建模

Llama-2-long 使用 16k 上下文窗口对 Llama-2 进行持续训练。其中 Llama-2-long-chat-70B 在 ZeroSCROLLS 上的表现为 37.7，优于 ChatGPT-16k 的 36.7。处理长文本任务的方法通常为两种：（1）采用位置插值扩展上下文窗口，这涉及对更长上下文窗口进行另一轮微调；（2）检索增强，需要访问检索器以查找相关信息。通过结合这两种看似相反的技术，Llama2-70B-32k-ret [ 1 ] 在 7 个长文本任务（包括来自 ZeroSCROLLS 的 4 个数据集）上的平均表现超过了 ChatGPT-16k。

4. 其他特定领域的应用能力

在针对查询的摘要中，研究发现，相较于ChatGPT，微调训练在性能方面具有优势。在CovidET、NEWTS、QMSum以及SQuALITY等数据集上，采用此类方法的平均ROUGE-1得分相较于ChatGPT提升了2个点。

( 2 ) 开放域问答：InstructRetro 在 NQ、TriviaQA、SQuAD 2.0 和 DROP 数据集上展现出比 GPT-3 更好的表现。与相似参数量的专有 GPT-instruct 模型相比，InstructRetro 在一系列短文和长文开放域问答数据集上有 7-10% 的领先。

( 3 ) 医疗：在心理健康方面，MentalLlama-chat-13B 基于 IMHI 训练集微调了一个 Llama-chat-13B 模型。在零样本提示下，MentalLlama-chat-13B 模型在 IMHI 的 10 项任务中，9 项任务的表现优于 ChatGPT。Radiology-Llama-2 模型基于放射学报告对 Llama 进行微调，在 MIMIC-CXR 和 OpenI 数据集上的表现远远优于 ChatGPT 和 GPT-4。

( 4 ) 基于结构化数据的生成：Struc-Bench 在结构化生成数据上对 Llama-7B 模型进行微调。微调后的 7B 模型在基准测试中优于 ChatGPT。

( 5 ) 评论生成：Shepherd 基于社区收集的评论数据和 1317 条高质量人工标注数据在 Llama-7B 上进行微调。在以 GPT-4 作为评估器的情况下，Shepherd 在 60% 以上的情况下胜过或与 ChatGPT 持平。在以人类作为评估者的情况下，Shepherd 几乎与 ChatGPT 持平。

5. 朝着值得信赖的人工智能迈进

可靠性是确保 LLM 在实际应用中至关重要。对 LLM 生成幻觉和不安全内容的担忧会降低用户对 LLM 的信任，并带来巨大的潜在风险。

( 1 ) 幻觉：在微调期间，提高数据的正确性和相关性可以较少模型幻觉的生成。Platypus 收集了一个经过内容过滤、以 STEM 领域高质量数据为主的数据集，并基于该数据集在一系列 LLM 上进行微调，最终在 TruthfulQA 上对于 ChatGPT 表现出了实质性改进（约 20%）。现有的在推理阶段减少模型幻觉的技术主要有三类：（1）特定的解码策略（Chain-of-Verification）、（2）外部知识增强（Chain-of-Knowledge（CoK），LLM-AUGMENTER，Knowledge Solver，CRITIC，Parametric Knowledge Guiding（PKG）等等）（3）多智能体对话（ [ 3 ] ， [ 4 ] ）。这些推理技术与仅使用 ChatGPT 的普通提示策略相比，可以提高答案准确性。目前，ChatGPT 也推出了检索插件（OpenAI，2023a 年），用于访问外部知识以减少幻觉。

( 2 ) 安全性：根据现有的评估结果，ChatGPT 和 GPT-4 模型在安全性评估方面仍然处于领先地位。这主要归功于人类反馈强化学习（RLHF）。RLHF 需要收集大量昂贵的人类标注，这阻碍了其在开源大模型的使用。目前，通过 AI 反馈来代替人类反馈（RLAIF）和直接偏好优化（DPO）等方法的提出可以大大降低 RLHF 的成本。结合并改进这些方法可以给开源 LLM 的安全性带来潜在的改进。

III. 总结

1. 大模型的发展趋势

自从 GPT-3 问世以来，研究人员已经做了大量的工作来推动 LLM 的发展，其中一个重要的研究方向就是扩大模型的参数量（比如 Gopher，MT-NLG 和 PaLM 等）。虽然这些大模型拥有强大的能力，但闭源的特性也限制了它们的广泛应用，因此也有一些工作开始关注开发开源的大语言模型，比如 OPT 和 BLOOM。与此同时，探索如何预训练更小的模型（如 Chinchilla 和 UL2）和指令调整（如 Flan-T5）也是很重要的研究方向。

一年之前 ChatGPT 的出现极大地改变了 NLP 社区的研究重点。为了赶上 OpenAI，Google 和 Anthropic 分别开发了 Bard 和 Claude。虽然它们在许多任务上能够有和 ChatGPT 相似的性能，但它们与 OpenAI 最新的模型 GPT-4 之间仍然存在一些差距。并且由于这些模型的成功主要来源于人类反馈的强化学习（RLHF），研究人员也探索了各种方法来改进 RLHF。

为了促进开源 LLM 的研究，Meta 发布了 Llama 系列模型。此后，基于 Llama 的开源模型开始井喷式出现。一个有代表性的研究方向是使用指令数据对 Llama 进行微调，包括 Alpaca、Vicuna、Lima 和 WizardLM 等。研究者们还探索了基于 Llama 的智能体、逻辑推理和长上下文建模能力。此外，与基于 Llama 开发 LLM 不同，还有许多工作致力于从零开始训练 LLM，例如 MPT、Falcon、XGen、Phi、Baichuan、Mistral、Grok 和 Yi 等。我们相信，开发更强大、更高效的开源 LLM 将是一个非常有前途的未来方向。

2. 怎么才能制作出更好的开源大模型？

虽然头部模型的详细做法往往是保密的，但以下也有一些社区普遍认可的最佳实践：

（1）数据：预训练涉及使用来自公开可访问来源的数万亿 token。相比之下，微调数据数量较少，但质量更高。使用优质数据进行微调的 LLM 可以获得一定的性能改进，特别是在专业领域。

（2）模型架构：尽管大多数 LLM 使用了仅解码器的 Transformer 架构，但很多模型也使用了不同的技术来优化效果。比如 Llama-2 采用了 Ghost attention 以提高多轮对话控制能力，Mistral 采用滑动窗口注意力来处理更长的上下文长度。

（3）训练：使用指令调整数据进行监督微调（SFT）的过程至关重要。对于生成高质量的结果，数万个 SFT 标注就足够了，正如 Llama-2 使用了 27,540 条标注。这些数据的多样性和质量至关重要。在 RLHF 阶段，近端策略优化（PPO）通常是优选的算法，以更好地使模型行为与人类偏好和指令遵循保持一致，这在增强 LLM 的安全性方面起着关键作用。直接偏好优化（DPO）可以作为 PPO 的替代方法。例如，Zephyr-7B 采用了 DPO，在各种常规基准测试中显示出与 70B-LLM 相当的结果，甚至在 AlpacaEval 上超过了 ChatGPT。

3. 漏洞和潜在问题

（1）预训练期间的数据污染：数据污染问题的根源在于基准数据的收集来源已经包含在预训练语料中。因此，解决 LLM 的预训练语料检测问题，探索现有基准测试和广泛使用的预训练语料之间的重叠，以及评估对基准测试的过度拟合等挑战是至关重要的。这些工作对于提高 LLM 的忠实度和可靠性至关重要。未来需要建立披露预训练语料细节的标准化实践，并开发方法来减轻模型开发生命周期中的数据污染问题。

（2）封闭式对齐开发：在广义偏好数据上应用人类反馈的强化学习（RLHF）已经引起了社区越来越多的关注。然而，只有少数几个开源 LLM 使用 RLHF 进行对齐。主要原因为缺乏高质量、公开可用的偏好数据集和预先训练的奖励模型。我们仍然面临着在复杂推理、编程和安全场景中缺乏多样化、高质量和可扩展偏好数据的挑战。

（3）在基本能力上的持续改进难度：回顾本文提到的基本能力的突破揭示了一些具有挑战性的情况：1. 人们已经投入了大量精力来探索改进预训练期间数据混合的方法，以提高构建更强大基础模型的平衡性和鲁棒性。然而，相关的探索成本往往使得这种方法变得不切实际。2. 超越 ChatGPT 或 GPT-4 的模型主要基于来自闭源模型的知识蒸馏和额外的专家注释。虽然高效，但过度依赖知识蒸馏可能会掩盖关于将所提出的方法扩展到教师模型时效果的潜在问题。此外，LLM 预计将充当智能体并提供合理的解释以支持决策，而为了使 LLM 适用于现实场景，注释智能体任务形式的数据也是昂贵且耗时的。从本质上讲，仅通过知识蒸馏或专家注释的优化不能实现模型的持续改进，并且可能有上限。未来的研究方向可能涉及探索新的方法论，如无监督或自监督学习范式，以实现对 LLM 基础能力的持续改进，同时减轻相关的成本。

IV. 结论

在 ChatGPT 发布一周年之际，本文对高性能的开源 LLM 进行了系统调研。结果表明，有很多开源大模型在特定领域上的表现已经赶上甚至超越了 ChatGPT。此外，我们提供了对开源 LLM 的见解、分析和潜在问题的讨论。我们相信，这份调查为开源 LLM 的有前景的方向提供了启发，并将激励该领域的进一步研究和发展，有助于弥合其与付费闭源模型的差距。

参考文献：

[ 1 ] https://arxiv.org/abs/2310.03025

[ 2 ] https://arxiv.org/abs/2302.08081

[ 3 ] https://arxiv.org/abs/2305.13281

[ 4 ] https://arxiv.org/abs/2305.14325

转载请联系本公众号获得授权

机器之心专栏, 论文, 开源大模型, 研究界

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

UI 图表工具

相关文章

发表回复 取消回复

发表回复取消回复