什么是百度文心一言?你对文心一言有什么期待?
一周之内,开发ChatGPT的美国初创公司OpenAI、斥巨资投资OpenAI的科技巨头微软以及国内领先的互联网公司百度发布了LLM领域的最新进展。这再次引发了全球对该领域的关注。
当地时间3月14日,OpenAI发布了其大规模语言模型的最新版本——GPT-4,与GPT-3.5相比,问答的质量和技术有了显著提升。
3月16日下午,百度启动了新一代大语言模型和生成式人工智能产品的文心一言测试,从而成为第一家加入该赛道竞争的中国企业。
发布会上,百度创始人、董事长兼CEO李彦宏通过问答环节,展示了文心一言的文学创作、商业文案、数学计算、中文理解、多模态生成等五大使用场景。几个小时后,微软宣布将GPT-4连接到整个Office bucket,新名称为“微软365 copy”。
正如财经E法2月17日发表的文章(OpenAI独家回应|为什么|ChatGPT不向国内所有用户开放注册?),中国中国大陆和中国香港的手机号码无法使用ChatGPT帐户注册。另外,虽然OpenAI的应用编程接口(API)已经向161个国家和地区开放,但不包括中国中国大陆和中国香港。
一方面,业界普遍关注,在铺天盖地的AIGC(生成式人工智能)浪潮中,谁将是下一波技术浪潮?另一方面,在中美技术竞合的敏感时期,各方也在关注百度先行一步引发的涟漪,以及中国企业该如何应对。
01“真的准备好了吗?”3月16日,李彦宏穿着白衬衫和运动鞋发表演讲。当初,我直面问题。“最近很多朋友问我,为什么是今天?你真的准备好了吗?”?
李彦宏的回答是,虽然百度在AI研究上投入了十几年的时间,为文心一言的发布做了充分的准备,但还不能说完全准备好了,因为文心一言对ChatGPT甚至GPT-4的基准测试门槛很高,存在“很多不完善的地方”。然而,他强调,“一旦有了真正的人类反馈,文心一言将会取得巨大的进步”。
李彦宏解释说,之所以选择当天发布,是因为市场有需求:客户和合作伙伴希望更早地使用最新、最先进的大语言模型。
如何理解李彦宏所说的“GPT-4的基准测试门槛很高”?
当地时间3月14日,OpenAI发布了其大规模语言模型的最新版本——GPT-4。值得注意的是,GPT-4是一个大规模的多模态模型,即它可以接受图像和文本类型的输入。GPT-3.5只能接受文本输入。
在演示视频中,OpenAI的总裁兼联合创始人格雷格·布罗克曼(Greg Brockman)用笔和纸画了一张网站草图,并将图片输入GPT-4。仅仅过了1到2秒,GPT 4号就生成了网页代码,做出了一个与草图高度相似的网站。根据OpenAI公布的实验数据,GPT-4模型相比上一代GPT-3.5有了很大的进步,在很多专业测试中已经超过了大多数人类的水平。
浙江大学国际联合商学院数字经济与金融创新研究中心联席主任潘鹤林认为,文心一言未来需要向用户全面开放。无论是通过B端API,还是直接开放给C端用户,用户体验口碑才是硬道理。目前ChatGPT在国内还没有对用户开放。在国内市场,百度将拥有第一优势。
对OpenAI和百度的产品都进行过评测的艾媒咨询CEO兼首席分析师张毅表示,包括GPT-4和文心一言在内的GPT系列模型本质上是同一类产品,只是各自的数据覆盖区域和数据模型积累长度不同。短期来看,OpenAI的产品准备时间相对更充足,智能暂时领先。但对文心一言来说,在如此短的时间内培养出这样一个产品也是非同寻常的。
同时,张毅也对百度做出更好的产品更有信心。他的理由是,在人工智能、大数据、大模型的人才储备方面,中国会更有优势。
中央财经大学数字经济融合、创新与发展研究中心主任陈端认为,与海外竞争对手相比,百度最大的优势是在语言和文化上构建了理解的护城河。
作为中国公司开发的大型语言模型产品,文心一言的中文理解能力备受关注。重要原因是很多评论者认为ChatGPT的中文问答能力不如英文。
李彦宏表示,作为植根于中国市场的大语言模型,文心一言拥有中文领域最先进的自然语言处理能力。在现场展览中,文心一言正确解释了成语“洛阳纸贵”的含义和相应的经济理论,还用“洛阳纸贵”写了一首藏头诗。
李彦宏表示,文心一言的训练数据包括:万亿级的网页数据、数十亿的搜索数据和图片数据、数百亿的日常语音通话数据、5500亿的事实知识图谱,这使得百度在中文语言处理方面独树一帜。
受访专家还指出,由于华人的特殊性,中企开发大规模机型的难度更大,但如果突破,在提供本地服务方面会有更大优势。
法国里昂商学院人工智能和商业分析教授丁日前对媒体指出,语言对话模型训练需要让机器理解单词,英语比汉语略容易。丁解释说,中国人工智能技术处理的中文大部分是象形文字,而英文是解释性的,文字并不是特别丰富。
此外,上海交通大学约翰霍普克罗夫特计算机科学中心助理教授林认为,在未来,大语言模型将向多模态和交互方向发展,进一步整合视觉、语音和强化学习领域的技术。李彦宏还说:“多式联运是生成式人工智能的一个明显的发展趋势。未来,随着百度多模态统一大模型的增强,文心一言的多模态生成能力将不断提升。”
在多模态生成中,李彦宏展示了文心一言生成文本、图片、音频和视频的能力。文心一言在现场朗读了一段四川话,并根据这段文字制作了一段视频。但李彦宏透露,文心一言的视频生成成本较高,现阶段并未对所有用户开放,未来会逐步接入。
李彦宏表示,文心一言的训练数据包括:万亿级的网页数据、数十亿的搜索数据和图片数据、数百亿的日常语音通话数据、5500亿的事实知识图谱,这使得百度在中文语言处理方面独树一帜。
受访专家还指出,由于华人的特殊性,中企开发大规模机型的难度更大,但如果突破,在提供本地服务方面会有更大优势。
法国里昂商学院人工智能和商业分析教授丁日前对媒体指出,语言对话模型训练需要让机器理解单词,英语比汉语略容易。丁解释说,中国人工智能技术处理的中文大部分是象形文字,而英文是解释性的,文字并不是特别丰富。
此外,上海交通大学约翰霍普克罗夫特计算机科学中心助理教授林认为,在未来,大语言模型将向多模态和交互方向发展,进一步整合视觉、语音和强化学习领域的技术。李彦宏还说:“多式联运是生成式人工智能的一个明显的发展趋势。未来,随着百度多模态统一大模型的增强,文心一言的多模态生成能力将不断提升。”
在多模态生成中,李彦宏展示了文心一言生成文本、图片、音频和视频的能力。文心一言在现场朗读了一段四川话,并根据这段文字制作了一段视频。但李彦宏透露,文心一言的视频生成成本较高,现阶段并未对所有用户开放,未来会逐步接入。
发布会前后,百度股价经历起伏。3月16日,港股百度盘中股价一度扩大逾10%至120.1港元。截至收盘,百度股价下跌6.36%,至125.1港元。但百度股价在美股市场势头强劲。当天,百度美股低开高走,振幅超过7%。收盘时报138.16美元,涨幅3.8%。3月17日,百度港股表现强劲,盘中涨幅超过15%。截至当日收盘,百度港股上涨13.67%,至142.2港元。
在文心一言宣布开放邀请测试后的一个小时内,就有超过3万名企业用户排队申请文心一言企业版的API调用服务测试,申请产品测试的网页被挤了很多倍,官网、百度AI云的流量暴涨百倍。
文心一言的市场热度持续飙升,资本市场也被重估。张毅认为,这也代表了大众对大语文模型/生成式人工智能“期待、担忧、再希望”的心情。
没有人能错过科技革命。事实上,“真的准备好了吗?”不仅仅是针对百度,更是这一轮“ChatGPT”热潮以来的一个普遍的公共问题。
李彦宏观察到,从2021开始,人工智能技术开始从“判别”向“生成”转变。
创新工场董事长兼CEO李开复在3月14日的一场趋势分享会上表示,AI 2.0时代第一个现象级应用是以GPT-4为代表的AIGC,也被称为AI(Generative AI。李开复表示,AI2.0是一场不可错过的革命。这将是一个巨大的平台机会,比移动互联网大十倍。他还表示,AI 2.0也是中国在AI领域的第一个平台竞争机会。
受访专家普遍认为,之前全世界的AI公司都遇到了一个很大的问题:即使技术储备非常丰富,AI应用并没有给他们带来丰厚的收益。之所以出现这个问题,是因为AI产品的应用主要集中在B端(企业用户)和G端(政府用户)。AI产品进入企业或机构,流程往往比较复杂,这在一定程度上会限制AI产品在市场上的快速扩张。
因此,张毅认为,AIGC的产品应用方向更有可能在C端产生巨大的商机。他分析,在美国市场,C端市场被谷歌、亚马逊、Meta等公司抢占之前,微软压力很大,需要一款产品来扳回一局。在中国市场,百度的优势和谷歌一样,有强大的搜索引擎抓取数据的能力,以及存储、整理、分析能力的基础。中国本身就有十几亿人的巨大市场,百度可以做得很好。
“百度、微软、谷歌本质上是两个不同市场的竞争,所以我相信文心一言及其系列产品一定会出来。”张毅说。
李彦宏坚称,文心一言不是“中美科技对抗的工具”。但他也承认,ChatGPT的成功加速了百度推出该产品的进度。
百度CTO王海峰表示,人类进入AI时代,IT技术的技术栈可以分为四层:芯片层、框架层、模型层、应用层。百度是全球为数不多的在这四个层面全栈布局的人工智能公司,自研技术在各个层面都领先业界。比如高端芯片昆仑芯、飞桨深度学习框架、文心预训大模型以及搜索、智能云、自动驾驶、小度等应用。王海峰认为,百度全栈布局的优势在于可以在technology stack的四层架构中实现端到端的优化,大幅提升效率。
像ChatGPT一样,文心一言使用SFT(模型微调)、RLHF(从人类反馈中进行强化学习)和Prompt作为底层技术。此外,文心一言还采用了知识增强、检索增强和对话增强技术。王海峰表示,这三项是百度现有技术优势的再创新。
陈端认为,在技术创新集成度越来越高的当下,单个全栈布局的公司,在内部技术R&D统筹和后期商业化方面具有比较优势。
自信很重要,但差距也不容忽视。
在本月初的两会期间,中国科技部部长王志刚在回应ChatGPT相关问题时,以足球为类比,指出中国还有很多工作要做。“踢足球是运球和射门,但要像梅西(足球巨星莱昂内尔·梅西)一样优秀,并不容易。”
王志刚指出,中国在这方面也做了很多布局,这方面的研究也进行了很多年,也有一些。
结果,“但要达到目前OpenAI那样的效果,可能还有待观察,”他补充道。
王志刚说,ChatGPT出来后,引起了大家的关注。其实从技术本身的源头来说,叫做NLP和NLU,意思是自然语言处理和自然语言理解。ChatGPT之所以引人关注,是因为它作为一个大模型,有效地结合了大数据、大计算能力和强算法,计算方法有所改进。同样的原理做的不一样。比如大家都会做发动机,但是质量不一样。
然而,无论是ChatGPT还是文心一言,其背后的大语言模式是核心竞争力。北京大学王玄计算机研究所研究员赵东燕对《财经E法》表示,国内大模型和OpenAI在数据、训练方式、成本投入等方面还有一定差距。
一位科技系统人士指出,客观来说,中美在该领域的基础研究成果存在较大差距。这些基础研究成果包括自然语言处理(NLP)、数据库和GPU产品。“如果美国切断GPU芯片的供应,(中国的)计算能力就跟不上了”。
大规模计算能力的核心在于高性能GPU芯片。北京航空航天大学软件学院助理教授周对《财经E法》表示,中国在GPU芯片等计算硬件方面与世界的差距在十年左右,硬件水平会严重制约大型语言模型和科学计算模型的发展。
周认为,中国的科技公司和OpenAI在技术和模式上没有代差,差距只有5年以内,在一些更小的技术领域差距只有2-3年。在数据收集方面,以GPT-3模型为例,汉语仅占训练语料的5%。中国科技企业在中文语料库积累上有一定优势,因此极有可能在中文领域实现突破。
巨人03的下一步:构建生态。以ChatGPT为代表的大语言模型赛道如何盈利,是各方公认的问题。
开发ChatGPT的OpenAI还是一家亏本的创业公司。5438年6月+2023年10月,投资银行摩根士丹利的一份分析报告称,ChatGPT的响应成本约为Google搜索查询平均成本的6 -28倍。
不过,腾讯研究院高级研究员和原经纬创投副总裁庄都认为,ChatGPT能带来多少利润并不是OpenAI关注的重点,而是基于它的模式能开发出什么样的服务和应用,从而构建一个生态系统。“ChatGPT的发展需要一个产业生态。例如,它与微软相关应用程序的集成是一个好主意。”曹建峰说。
当地时间3月15日,微软副总裁兼首席消费者营销官Yusef Medi发文称,新版必应搜索引擎已经在GPT-4上运行。OpenAI表示,GPT-4在微软Azure AI超级计算机上接受训练,将基于Azure AI基础设施为全球用户提供GPT-4服务。
谷歌宣布开放其大语言模型PaLM的API接口,并推出面向开发者的工具MakerSuite。通过PaLM API接口,开发者可以使用PaLM进行各种应用的开发。MakerSuite允许开发人员快速原型化他们的想法,随着时间的推移,该工具将具有快速工程、合成数据生成和自定义模型调整的功能。
微软迅速跟进。当地时间3月16日,微软宣布将GPT-4连接到Office family bucket。新功能名为“微软365 Copilot”。
李彦宏在发布会上表示,文心一言的定位是基于人工智能的赋能平台,将助力金融、能源、媒体、政务等数千个行业的智能化转型。
根据文心一言的邀请测试方案,第一批用户可以从3月16日起通过邀请测试码在文心一言官网体验产品,并将陆续向更多用户开放。此外,百度AI Cloud即将向企业客户开放文心一言API接口调用服务。这项服务从3月16开始接受预约。
截至3月11日上午,排队申请百度AI云文心一言企业版API调用服务器测试的企业用户已增至9万人,百度已收到6588条关于文心一言合作的查询。
陈端认为,这一轮的竞争不仅是商业主体的竞争,更是下一轮国家数字竞争力的竞争。所以,百度的当务之急并不完全是技术研发,还需要带领更多的初创企业和生态伙伴加入生态阵营。
在陈端看来,中国在建立生态系统方面有优势。陈端指出,中国移动互联网经过多年发展,应用层生态的配套创新已经非常成熟。很多应用层的中小型创业团队,过去在与移动互联网生态的合作中,做了很多本地的、垂直的场景端创新,把这种模式和底层基础设施从移动互联网迁移到大模式领域,仍然适用。
中小企业还有机会吗?面对大语言模式的浪潮,中国企业应该如何抓住机遇,规避风险?
在中国,部署ChatGPT的企业有两类:第一类是传统的大互联网公司,第二类是一些初创企业。
陈端认为,市场上的初创公司已经错过了建立大模型的初始阶段。陈端分析说,
再造一个生成式人工智能企业,与时机、底层生态支持、创始人自身的经历、阅历、眼光以及个人IP的天然动员能力息息相关。另外,前期大模型的投入,无论是计算能力还是其他成本,以及时间窗口都很重要。
陈端表示,目前百度有能力和文心一言协调旗下其他产品,就像微软用Office和GPT-4推出Copilot一样,但“如果没有生态的支撑,创业者单纯做大模型是很有问题的”。
张毅也认为,对于有资金和实力支持的企业,单独打造大型号产品可能更受资本和创业者青睐。但对于中小企业来说,依托文心一言的开放平台嫁接自己在细分领域的应用也是一个不错的选择。
因为做一个大的语言模型需要很长的时间和巨大的投入。
OpenAI成功的背后是微软多年来的巨额投入。美国时间2023年10月23日,65438,微软宣布将向OpenAI投资数十亿美元,为期数年。2019和2021,微软两次投资OpenAI。2019年的投资为654380亿美元,而2021年的投资未披露。
AI公司蔡赟科技创始人袁兴元在接受36Kr采访时指出,要想一次运行超过654.38+0000亿个参数的模型,至少要达到“千卡/月”的水平,即使用654.38+0000个GPU卡,然后训练一个月。即使不使用最先进的NVIDIA A100,按照一个GPU 5万元的均价,1000个GPU意味着每个月5000万元的计算成本,这还不算算法工程师的工资。
“无论哪个公司,都不可能突击几个月就做出这么大的语言模型。”李彦宏在发布会上表示,深度学习和自然语言处理需要多年的坚持和积累,不能加速。大规模的模型训练可以称之为暴力美学,需要很大的计算能力,大数据,大模型,每个训练任务成本都很高。
根据百度提供的数据,百度过去十年累计R&D投资超过6543.8+0000亿元。2022年,百度核心研发支出为21.41.6亿元,占百度核心收入的22.4%。不过,百度并未透露大模型研发在核心研发费用中的占比。
李彦宏在发布会上表示,百度对文心一言的定位是一个普适的赋能平台,金融、能源、媒体、政务等成千上万个行业都可以基于这个平台实现智能化变革,提高效率,创造巨大的商业价值。李彦宏认为,大模型时代将出现三大产业机会,即新型云计算公司、微调行业模型的公司和基于大模型库开发应用的公司,即应用服务提供商。
李彦宏断言,对于大多数创业者和企业来说,真正的机会不是从零开始做ChatGPT、文心一言这样的基础大模型,这是不现实的,也是不经济的。基于通用大语言模型首先开发重要的应用服务可能才是真正的机会。目前基于文字生成、图像生成、音频生成、视频生成、数字人、3D等场景,涌现出了很多创业明星公司,这些公司可能是未来的新巨头。
“大模型和生成式人工智能最终的产品形态还是未知数,所以这条路注定是一场长跑,需要整个科技界在资本、R&D、模型创新上紧密而持续的跟随。”张毅说。
李开复认为AI2.0首先会应用在容错领域,毫无疑问现在最大的应用领域是内容创作。每个领域都可以把原来的App重写一次,创造出更赚钱的商业模式。最终AI2.0的生成能力将成本降低到几乎为零。