国产1400亿参数知未智能KDF大模型发布,聚焦金融和商业垂直领域
,近来诸多国产大模型异军突起,助力相关行业产业发展。北京知未智能科技有限公司日前在上海发布了知未智能 KDF 大模型 ,以及基于该模型研发的一系列产品,包括“ KDF 智讯”、“KDF 绝未”、“KDF 中书”等金融行业工具。
IT之家经过查询得知,知未智能 KDF 大模型的训练数据以中文为主,并包含大量的金融数据,以提升模型在商业和金融领域的问题处理能力。
此外,训练数据中还融合了部分英文与代码数据,以适应模型的通用能力。在训练过程中,知未智能 KDF 大模型将单个汉字视为独立的 Token 进行处理。模型参数量达 1400 亿,训练 Token 数达到 4000 亿。从代码量角度看,数据处理部分约 5000 行,模型实验部分约 2000 行,模型训练部分约 500 行。
在具体训练过程中,知未智能 KDF 大模型采用了基于 PyTorch 优化的 GELU 非线性激活函数。GELU 作为非线性激活函数,在各类任务中表现相对出色,有助于模型更精确地捕获复杂数据特征,确保整个开发、训练和部署过程的高效运行。
在网络结构方面,开发团队对模型进行了深度优化。与 LLaMA 模型相比,该模型在每一层使用更少的参数,有效降低计算需求和内存占用。同时,网络深度得到加强,使模型具备更强大的表示能力,能够学习到更为复杂的数据特征。
为提升模型在大规模数据处理中的可扩展性,开发团队重新调整了注意力层的 Bias,并引入了 Flash Attention 技术,旨在节省显存并提高模型训练和推理速度。得益于降低的计算量和内存需求,Flash Attention 使得知未智能 KDF 大模型在有限的硬件资源下实现更高效的运行。
从部分基准测试结果来看,知未智能 KDF 大模型在七个自然语言处理任务中展现出稳定的性能。在某些任务上,如 iFlytek 和 CMNLI,知未智能 KDF 大模型表现相对出色,在 ExamQA 和 OCNLI 测试中,各模型的表现大致相同,凸显了该模型处理不同类型文本和领域知识方面的能力。
知未智能科技 CEO 段清华表示,现有通用大模型在具体行业应用性和中文能力方面的局限是知未智能选择从零训练知未智能 KDF 大模型的主要原因,Chatglm 在具体行业应用能力上相对薄弱,MOSS 采用英文模型为基底而对中文支持不足,LLaMA 训练数据大多为英文数据而中文能力相对较弱。了,因此研发团队选择从零开始训练知未智能 KDF 大模型,以便更好地提升其中文能力以及行业适用性。
在模型训练过程中,开发团队不断深入理解技术细节,力求打造一款“功能强大、性能优越”的中文模型,作为一款应用于金融和商业的垂直领域大模型,知未智能 KDF 大模型将持续推动公司产品的开发创新。
知未智能 KDF 大模型目前已于 Hugging Face 开源,未来将不限制商业使用,感兴趣的小伙伴们可以在此进行了解。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
责任编辑:安靖
最新阅读
-
-
-
-
-
-
特斯拉CEO埃隆・马斯克弟弟:我们兄弟俩都不迷恋财
,据外媒报道,特斯拉与SpaceX首席执行官埃隆?马斯克已经是世界首富,但他的弟弟金巴尔?马斯克(KimbalMusk)表示,他们两人都不痴迷于财富。最近接受媒体采访时,金巴尔强调,他和哥哥都没有过度...
2022-03-04 10:49 -
昔日最强机皇宣告终结:鼎盛期苹果也不是对手!
编辑:Wallace小雷搜了一下之前写过的文章,发现原来早在2018年市场上就有消息存传出,三星可能会将旗下的顶级产线GalaxyNote系列“砍掉”,由其他产品取而代之。时间来到2020年前后,眼看...
2022-03-04 10:43 -
智能自动化在能源和公用事业行业的作用
随着世界对清洁、安全、可承受和可持续的电力的迫切需求,各国对于绿色能源的需求和新应用不断增长,从而希望采用可再生能源替代化石能源。能源行业正从监管转向创新,而其客户也从被动消费者转向需求旺盛的买家。以...
2022-03-04 10:42 -
小鹏汽车投资碳化硅半导体领域公司瞻芯电子
企查查APP显示,近日,上海瞻芯电子科技有限公司发生工商变更,新增股东广州小鹏汽车投资咨询合伙企业(有限合伙),同时公司注册资本由4921.88万元人民币增加至5111.46万元人民币。企查查信息显示...
2022-03-04 10:41 -
微软智能云Azure在华的第五个数据中心区域正式启
,微软联合世纪互联正式宣布,自2022年3月1日起,全新的Azure在华数据中心区域将正式启用,客户可以不受限制地对其进行访问。这是微软智能云在中国市场的第五个Azure数据中心区域,由其合作伙伴世纪...
2022-03-04 10:39