首个金融领域的开源中文预训练语言模型Fi

江苏白癜风QQ交流群 http://nvrenjkw.com/nxzx/5717.html
背景及下载地址

为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技AILab近期开源了基于BERT架构的金融领域预训练语言模型FinBERT.0。据我们所知,这是国内首个在金融领域大规模语料上训练的开源中文BERT预训练模型。

相对于Google发布的原生中文BERT、哈工大讯飞实验室开源的BERT-wwm以及RoBERTa-wwm-ext等模型,本次开源的FinBERT.0预训练模型在多个金融领域的下游任务中获得了显著的性能提升,在不加任何额外调整的情况下,F-score直接提升至少~5.7个百分点。

对于深度学习时代的自然语言处理技术,我们一般认为存在两大里程碑式的工作。第一个里程碑是在0年逐渐兴起,以WordVec为代表的的词向量技术;第二个里程碑则是在08年以BERT为代表的深度预训练语言模型(Pre-trainedLanguageModels)。

一方面,以BERT为代表的深度预训练模型在包括文本分类、命名实体识别、问答等几乎所有的子领域达到了新的stateoftheart;另一方面,作为通用的预训练模型,BERT的出现也显著地减轻了NLP算法工程师在具体应用中的繁重工作,由以往的魔改网络转变为FinetuneBERT,即可快速获得性能优秀的基线模型。因此,深度预训练模型已成为各个AI团队必备的基础技术。

但是,当前开源的各类中文领域的深度预训练模型,多是面向通用领域的应用需求,在包括金融在内的多个垂直领域均没有看到相关开源模型。熵简科技希望通过本次开源,推动NLP技术在金融领域的应用发展,欢迎学术界和工业界各位同仁下载使用,我们也将在时机合适的时候推出性能更好的FinBERT.0.0。

项目



转载请注明地址:http://www.thinkthinkcar.net/jbjc/8825.html
  • 上一篇文章:
  • 下一篇文章: 没有了