2024年3月IBM 和 NASA 构建语言模型，让科学知识更容易获取-桂林市农业科学研究中心

2024年3月IBM 和 NASA 构建语言模型，让科学知识更容易获取

投稿用户 • 2024年4月18日下午5:23 • 科研百科 • 阅读 59

在一项新的合作中，IBM 和 NASA 通过科学文献训练创建了一套高效的语言模型。基于 Transformer 架构，这些模型可用于各种应用，从分类和实体提取到问答和信息检索。这些模型在多个领域实现了高性能，并且可以迅速响应。为了科学和学术界的利益，我们开源了 Hugging Face 的模型。

基于 Transformer 的语言模型（包括BERT、RoBERTa以及 IBM 的 Slate 和 Granite 系列模型）对于一系列自然语言理解任务来说非常宝贵。这些模型的动力来自于对语言如何运作的统计理解。他们接受蒙蔽语言建模任务的训练，通过用被遮蔽的单词重建句子来学习。分词器将单词分解为模型的单元，在学习大量词汇方面发挥着关键作用。虽然通用文本训练对于在维基百科或 BooksCorpus 等数据集上训练的流行标记器非常有效，但科学领域需要专门的标记器来处理“磷脂酰胆碱”等术语。

我们使用天体物理学、行星科学、地球科学、太阳物理学以及生物和物理科学数据集的 600 亿个代币来训练我们的模型。与通用分词器不同，我们开发的分词器能够识别“轴”和“多晶”等科学术语。与 Hugging Face 上的开源 RoBERTa 模型相比，我们的模型处理的 50,000 个数字B中有一半以上是独特的。

IBM-NASA 模型经过特定领域词汇训练，在流行的BLURB基准（评估生物医学任务的性能）上比开放 RoBERTa 模型高出 5%。它还显示内部科学问答基准的 F1 分数提高了 2.4%，内部地球科学实体识别测试的 F1 分数提高了 5.5%。

我们经过训练的编码器模型可以针对许多非生成语言任务进行微调，并且可以通过检索增强生成（RAG）生成信息丰富的嵌入用于文档检索。RAG 通常遵循两步框架：检索器模型首先对问题进行编码，然后从向量数据库中检索相关文档。然后，这些文档被传递到生成模型来回答问题，同时确保检索到的文档的保真度。

我们在编码器模型之上构建了一个检索器模型，以生成信息丰富的嵌入，映射文本对之间的相似性。具体来说，我们优化对比损失函数，使锚文本的嵌入更接近相关（“正”）文档的嵌入，并远离随机（“负”）文档。

这些模型使用了大约 2.68 亿个文本对，包括标题和摘要以及问题和答案。因此，他们擅长在 NASA 策划的包含约 400 个问题的测试集中检索相关段落。与经过类似微调的 RoBERTa 模型相比，性能提升了 6.5%，与另一种流行的嵌入开源模型BGE-base相比，性能提升了 5%，这证明了这一点。

我们的模型实现的显着增强可归因于专门的训练数据、自定义分词器和训练方法。与 IBM 和 NASA 对开放透明 AI 的承诺相一致，两种模型都可以在 Hugging Face 上使用：编码器模型可以针对空间领域的应用进行进一步微调，而检索器模型则可以用于 RAG 的信息检索应用。我们还与 NASA 合作，使用这些模型增强科学搜索引擎。

2024年3月IBM 和 NASA 构建语言模型，让科学知识更容易获取

相关推荐

分享到：