2024年3月IBM 和 NASA 构建语言模型,让科学知识更容易获取

在一项新的合作中,IBM 和 NASA 通过科学文献训练创建了一套高效的语言模型。基于 Transformer 架构,这些模型可用于各种应用,从分类和实体提取到问答和信息检索。这些模型在多个领域实现了高性能,并且可以迅速响应。为了科学和学术界的利益,我们开源了 Hugging Face 的模型。

基于 Transformer 的语言模型(包括BERTRoBERTa以及 IBM 的 Slate 和 Granite 系列模型)对于一系列自然语言理解任务来说非常宝贵。这些模型的动力来自于对语言如何运作的统计理解。他们接受蒙蔽语言建模任务的训练,通过用被遮蔽的单词重建句子来学习。分词器将单词分解为模型的单元,在学习大量词汇方面发挥着关键作用。虽然通用文本训练对于在维基百科或 BooksCorpus 等数据集上训练的流行标记器非常有效,但科学领域需要专门的标记器来处理“磷脂酰胆碱”等术语。

我们使用天体物理学、行星科学、地球科学、太阳物理学以及生物和物理科学数据集的 600 亿个代币来训练我们的模型。与通用分词器不同,我们开发的分词器能够识别“轴”和“多晶”等科学术语。与 Hugging Face 上的开源 RoBERTa 模型相比,我们的模型处理的 50,000 个数字B中有一半以上是独特的。

IBM-NASA 模型经过特定领域词汇训练,在流行的BLURB基准(评估生物医学任务的性能)上比开放 RoBERTa 模型高出 5%。它还显示内部科学问答基准的 F1 分数提高了 2.4%,内部地球科学实体识别测试的 F1 分数提高了 5.5%。

我们经过训练的编码器模型可以针对许多非生成语言任务进行微调,并且可以通过检索增强生成(RAG)生成信息丰富的嵌入用于文档检索。RAG 通常遵循两步框架:检索器模型首先对问题进行编码,然后从向量数据库中检索相关文档。然后,这些文档被传递到生成模型来回答问题,同时确保检索到的文档的保真度。

我们在编码器模型之上构建了一个检索器模型,以生成信息丰富的嵌入,映射文本对之间的相似性。具体来说,我们优化对比损失函数,使锚文本的嵌入更接近相关(“正”)文档的嵌入,并远离随机(“负”)文档。

这些模型使用了大约 2.68 亿个文本对,包括标题和摘要以及问题和答案。因此,他们擅长在 NASA 策划的包含约 400 个问题的测试集中检索相关段落。与经过类似微调的 RoBERTa 模型相比,性能提升了 6.5%,与另一种流行的嵌入开源模型BGE-base相比,性能提升了 5%,这证明了这一点。

我们的模型实现的显着增强可归因于专门的训练数据、自定义分词器和训练方法。与 IBM 和 NASA 对开放透明 AI 的承诺相一致,两种模型都可以在 Hugging Face 上使用:编码器模型可以针对空间领域的应用进行进一步微调,而检索器模型则可以用于 RAG 的信息检索应用。我们还与 NASA 合作,使用这些模型增强科学搜索引擎。

024年3月IBM

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2024年4月18日 下午5:17
下一篇 2024年4月18日 下午5:29

相关推荐