2024年3月IBM 和 NASA 构建语言模型,让科学知识更容易获取

在一项新的合作中,IBM 和 NASA 通过科学文献训练创建了一套高效的语言模型。基于 Transformer 架构,这些模型可用于各种应用,从分类和实体提取到问答和信息检索。这些模型在多个领域实现了高性能,并且可以迅速响应。为了科学和学术界的利益,我们开源了 Hugging Face 的模型。

基于 Transformer 的语言模型(包括BERTRoBERTa以及 IBM 的 Slate 和 Granite 系列模型)对于一系列自然语言理解任务来说非常宝贵。这些模型的动力来自于对语言如何运作的统计理解。他们接受蒙蔽语言建模任务的训练,通过用被遮蔽的单词重建句子来学习。分词器将单词分解为模型的单元,在学习大量词汇方面发挥着关键作用。虽然通用文本训练对于在维基百科或 BooksCorpus 等数据集上训练的流行标记器非常有效,但科学领域需要专门的标记器来处理“磷脂酰胆碱”等术语。

我们使用天体物理学、行星科学、地球科学、太阳物理学以及生物和物理科学数据集的 600 亿个代币来训练我们的模型。与通用分词器不同,我们开发的分词器能够识别“轴”和“多晶”等科学术语。与 Hugging Face 上的开源 RoBERTa 模型相比,我们的模型处理的 50,000 个数字B中有一半以上是独特的。

IBM-NASA 模型经过特定领域词汇训练,在流行的BLURB基准(评估生物医学任务的性能)上比开放 RoBERTa 模型高出 5%。它还显示内部科学问答基准的 F1 分数提高了 2.4%,内部地球科学实体识别测试的 F1 分数提高了 5.5%。

我们经过训练的编码器模型可以针对许多非生成语言任务进行微调,并且可以通过检索增强生成(RAG)生成信息丰富的嵌入用于文档检索。RAG 通常遵循两步框架:检索器模型首先对问题进行编码,然后从向量数据库中检索相关文档。然后,这些文档被传递到生成模型来回答问题,同时确保检索到的文档的保真度。

我们在编码器模型之上构建了一个检索器模型,以生成信息丰富的嵌入,映射文本对之间的相似性。具体来说,我们优化对比损失函数,使锚文本的嵌入更接近相关(“正”)文档的嵌入,并远离随机(“负”)文档。

这些模型使用了大约 2.68 亿个文本对,包括标题和摘要以及问题和答案。因此,他们擅长在 NASA 策划的包含约 400 个问题的测试集中检索相关段落。与经过类似微调的 RoBERTa 模型相比,性能提升了 6.5%,与另一种流行的嵌入开源模型BGE-base相比,性能提升了 5%,这证明了这一点。

我们的模型实现的显着增强可归因于专门的训练数据、自定义分词器和训练方法。与 IBM 和 NASA 对开放透明 AI 的承诺相一致,两种模型都可以在 Hugging Face 上使用:编码器模型可以针对空间领域的应用进行进一步微调,而检索器模型则可以用于 RAG 的信息检索应用。我们还与 NASA 合作,使用这些模型增强科学搜索引擎。

024年3月IBM

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

(0)
上一篇 2024年4月18日 下午5:17
下一篇 2024年4月18日 下午5:29

相关推荐

  • 全解一款六面体结构化网格划分利器-NUMECA IGG(六面体网格是结构网格吗)

    全解一款六面体结构化网格划分利器-NUMECA IGG(六面体网格是结构网格吗) 导读:前不久,VIP群有人提问:“老师,NUMECA如何计算带蜗壳叶轮机呢”?笔者使用NUMECA…

    科研百科 2024年3月29日
    61
  • 航天三江

    航天三江:中国航天事业的基石 航天三江是中国航天事业的基石,它位于北京市海淀区,是中国航天工业的基础所在。在这里,中国航空航天工业的者们以高度负责的态度,辛勤工作,为中国的航天事业…

    科研百科 2024年10月3日
    17
  • 低代码平台yao

    低代码平台是近年来兴起的一种软件开发工具,它的出现极大地简化了软件开发的流程。低代码平台的核心理念是通过图形化界面和可视化编程,使开发者能够快速构建应用程序,而无需编写大量的代码。…

    科研百科 2024年3月1日
    120
  • 软件系统购买合同(购买合同管理软件)

    购买合同管理软件: 实现更高效合同管理的关键 随着商业竞争的加剧,合同管理的重要性也越来越凸显。合同管理可以帮助企业更好地跟踪和管理合同,减少合同漏洞和纠纷,提高合同执行效率,降低…

    科研百科 2024年9月1日
    28
  • B站上线漫画App,拥有《火影忍者》等正版漫画(b站上线漫画app,拥有《火影忍者》等正版漫画软件)

    新京报快讯(记者 陆一夫)11月13日,新京报记者从知情人士处获悉,哔哩哔哩(以下简称“B站”)已上线漫画产品。目前哔哩哔哩漫画App已经可以在App store和应用宝等安卓平台…

    科研百科 2024年5月20日
    60
  • 曾光:中国疾控系统如何改革?(中国疾控体系改革)

    中国的新冠疫情防控取得阶段性胜利,疾控系统功不可没。这个胜利迎来了疾控系统改革的春天,不要认为胜利了,公共卫生、疾控系统就没有问题 文 | 孙爱民 辛颖 编辑 | 王小 在新冠肺炎…

    科研百科 2024年2月2日
    191
  • 视频产生收益的平台有那些

    视频产生收益的平台有哪些 随着互联网的发展,视频已经成为了一种非常流行的娱乐方式。同时,随着视频行业的不断发展,越来越多的平台开始提供视频收益服务,让用户可以通过观看视频获得一定的…

    科研百科 2024年10月27日
    0
  • 山东省中青年教师教育科研项目

    山东省中青年教师教育科研项目 近年来,山东省中青年教师教育科研项目得到了越来越多的关注和支持。作为山东省教育领域的重要项目之一,这些项目旨在促进中青年教师的成长和发展,提升山东省教…

    科研百科 2024年10月25日
    1
  • 临海:“5S”管理焕发党建新活力(党建5s工作法)

    来源:中国临海新闻网 党建强,则发展强。 今年来,临海市以组织力评估体系为机关党建工作绘制清晰“施工图”,精耕细作,激活社会发展“一池春水”,为高质量发展注入强劲动能。 “把创新作…

    科研百科 2023年11月11日
    120
  • 信息化系统建设项目管理

    信息化系统建设项目管理 随着信息技术的快速发展,信息化系统建设项目已经成为企业运营中不可或缺的一部分。信息化系统建设项目管理的好坏将直接影响到项目的质量、进度和成本,因此,做好信息…

    科研百科 2024年12月10日
    0