【新智元导读】近期,面壁智能联合来自清华、人大、腾讯的研究人员共同发布了中文领域首个基于交互式网页搜索的问答开源模型WebCPM,这一创举填补了国产大模型该领域的空白。面壁智能自研工具学习引擎BMTools也因此被成功实践。
最近,一个被称为「ChatGPT Plugins国产替代系统」的开源项目在GitHub上星标猛增。
这个项目就是BMTools,面壁智能自研的大模型工具学习引擎。
深耕前沿,快速嵌入大模型工具学习
首先,是最重要的问题,BMTools到底厉害在哪里?
作为基于语言模型的开源可扩展工具学习平台,面壁研发团队将各种各样的工具调用流程都统一到了BMTools框架上,使整个工具调用流程标准化、自动化。
目前,BMTools支持的插件,涵盖娱乐,学术,生活等多方面,包括douban-film(豆瓣电影)、search(必应搜索)、Klarna(购物)等。
开发者可以通过BMTools,使用给定的模型(比如ChatGPT、GPT-4)调用多种多样的工具接口,以实现特定功能。
此外,BMTools工具包也已集成最近爆火的Auto-GPT与BabyAGI。
那么,这种工具学习对大模型又有何作用?
尽管大模型在很多方面取得了显著的成果,但在特定领域的任务上,仍然存在一定的局限性。这些任务往往需要专业化的工具或领域知识才能有效解决。
因此,就像智能手机需要下载App才有更好的使用体验,大模型需要具备调用各种专业化工具的能力,这样才能为现实世界任务提供更为全面的支持。
大模型新范式工具学习(Tool Learning)应运而生。这一范式的核心在于将专业工具与基础模型的优势相融合,以在问题解决方面达到更高的准确性、效率和自主性。
大模型与外部工具的有机结合成功弥补了此前能力的诸多短板,工具学习极大地释放了大模型的潜力。
2023年3月23日,OpenAI宣布推出插件系统(Plugins),这个插件的能力就是我们所说的工具学习。
在工具学习的加持下,Plugins能够支持ChatGPT连接浏览器、数学计算等外部工具,能力大幅增强。
ChatGPT Plugins的出现补充了ChatGPT最后的短板,使其可以支持连网、解决数学计算,被称为OpenAI的「App Store」时刻。然而直到现在,它仅支持OpenAI Plus用户,大多数开发者仍然无法使用。
面壁为什么能在ChatGPT Plugins发布后仅十天就推出BMTools?
面壁智能一直潜心研发大模型全流程高效计算工具,研发团队从2022年就开始持续开展工具学习新范式的研究,尝试将现有语言模型与搜索引擎、知识库等工具结合,取得了较好的实验效果。团队还在工具学习前沿研究领域进行了卓有成效的探索。
为满足众多开发者对OpenAI Plugins能力的热切期盼,在前期积累的基础上,团队快速将相关研究成果工具化,积累整理成工具包BMTools,将工具学习嵌入面壁智能大模型能力体系,正式加入OpenBMB大模型工具体系「全家桶」。
工具学习也是面壁智能继高效训练、微调、推理、压缩套件后推出的又一大力作。
引领破壁,首发联网支持中文问答模型
近期,面壁智能联合来自清华、人大、腾讯的研究人员共同发布了中文领域首个基于交互式网页搜索的问答开源模型框架WebCPM,这一创举填补了国产大模型该领域的空白。而WebCPM正是BMTools的成功实践。
目前,WebCPM相关工作已录用于自然语言处理顶级会议ACL 2023。
可以说,自从ChatGPT爆火之后,国内各家各派的大模型雨后春笋般涌现,但大部分模型都没有联网。
而没有联网的大模型无法获取最新的信息,生成的内容基于陈旧的数据集,存在一定的局限性。
WebCPM的特点在于其信息检索基于交互式网页搜索,能够像人类一样与搜索引擎交互从而收集回答问题所需要的事实性知识并生成答案。
换言之,大模型在联网功能的加持下,回答问题的实时性和准确性都得到了飞跃式增强。
WebCPM对标的是WebGPT , WebGPT也正是微软近期推出的New Bing背后的新一代搜索技术。
同WebGPT一样,WebCPM克服了传统的LFQA( Long-form Question Answering)长文本开放问答范式的缺陷:依赖于非交互式的检索方法,即仅使用原始问题作为查询语句来检索信息。
在WebCPM框架下,模型能够像人类一样通过与搜索引擎实时交互来进行网页搜索而筛选高质量信息。
不仅如此,遇到复杂问题,模型也像人类一般将其分解成多个子问题并依次提问。
而且,通过识别和浏览相关信息,模型还会逐渐完善对原问题的理解,并不断查询新问题来搜索更多样的信息。
未来,面壁智能也将进一步促进该科研成果的应用转化,努力推进WebCPM大模型在相应领域落地生根。
高屋建瓴,致力打造国产大模型系统
面壁智能始终努力引领大模型原始创新,致力于构建智能时代大模型基础设施和打造国产大模型系统,以期最终实现「让大模型飞入千家万户」。
面壁智能的成果有目共睹,且获得了业界肯定。
知乎首席技术官李大海曾评价面壁智能:「面壁智能团队是国内最早开展大规模语言模型研究的团队。公司储备大模型研究和应用的全栈技术能力,包括微调技术和加速技术等,研发能力处于行业领先地位。」知乎表示,相信面壁智能能成长为中国大模型领域基础设施核心厂商,为中国大模型事业贡献力量。
依托工具平台和大模型库,公司推出ModelForce模力大模型系统和CPM企业级大模型。基于大模型的AI生产力平台ModelForce内置大模型训练、微调、压缩、推理全流程高效计算工具体系。
平台基于大模型少样本、零样本通用能力,使用大模型标准化微调方式、打造零代码微调客户端,能够大幅降低AI研发过程中的数据标注成本、算力成本、人力成本。
CPM大模型企业版针对开源版模型进行了能力升级,具有多能力融合、增量微调灵活适配、多场景应用等特点。
基于CPM企业级大模型与ModelForce大模型系统,面壁智能与知乎的合作训练了「知海图AI」大模型。
「知海图AI」大模型应用到了知乎热榜,能够快速进行要素抽取、观点梳理和内容聚合,于4月23日在知乎发现大会上发布。
不止于此。事实上,面壁智能站位高远,成功打造了一个「三位一体」的大模型产学研生态格局,通过整合顶尖高校学术研究力量并持续打造运营大模型开源社区OpenBMB,面壁智能搭建起业界需求、算法开源和产业落地三者的闭环通道,竭力促进国产大模型领域的前沿研究、应用研发和产业发展。
OpenBMB开源社区
为建设国内大模型开源生态贡献力量,发布了包括OpenPrompt、OpenDelta、BMInf、BMcook、BMTrain、BMTools等一系列大模型全流程开源工具包,并且在知乎、B站等平台推出了大模型全民公开课。
清华大学计算机系自然语言处理与社会人文计算实验室(THUNLP)
作为在高校中一骑绝尘的研究力量,成立于上世纪70年代,是国内开展NLP研究最早、深具影响力的科研单位,多名知名学者和科学家坐镇,在语言大模型领域的研究工作十分突出。
面壁智能
致力于大模型在人工智能典型场景与领域的应用与落地,CPM大模型是面壁团队根据多年的大模型训练经验自研的预训练语言大模型。公司目前已完成数千万元天使轮融资,并多家知名机构与公司达成战略合作。
在努力打造国产大模型系统的征程中,面壁智能的愿景始终是让大模型落地赋能更多产业、惠及更多的企业和个人。
星火已燎原,我们期待大模型在更多领域释放潜能,展现令人惊喜的应用价值。