大模型的下一次跃进:私有化 | 见智研究 当前动态

2023-06-26 19:36:17来源:华尔街见闻

华尔街见闻·见智研究特邀澜码科技创始人&CEO【周健】来为大家带来最核心的解读:AI浪潮的下一个重要赛道,如何突破企业应用,找到盈利秘籍? 


(相关资料图)

核心观点

1、大模型应用侧关注重点有所不同:ToC端的用户更关注情感诉求,而ToB端的用户更关注效率需求。

2、企业如何结合自身业务应用大模型,存在应用的预期差:企业在应用大模型上面临很多困难,当前可选大模型很多评估标准多样化,找到适合企业自身业务的模型不容易,会存在应用的预期差。

3、通用大模型的劣势:不足以满足各行各业的对口业务,无法解决特定领域的专业问题。

4. 私域数据价值高:企业私有化AI部署需求潜力巨大,特别是有保护敏感数据需求的企业,比如金融、通信、政务等领域。

5、大模型应用将改变软件行业的范式:开放式的接口的服务能够加速企业AI应用的开发进度,AI软件中台的出现能够帮助垂类企业避免重复开发和重复造轮子,从而节省开发时间和成本。

正文

见智研究:国内大模型市场格局情况如何?

周健:

从去年11月30号开始,大语言模型被视为重要的基础设施。目前市场上主要有三类玩家。

一类是原来就在这个赛道的,例如智谱AI和MiniMax,他们在研发方面已经有了两到三年或更长的时间。GPT 3从2020年就出来,所以他们有足够的时间沉淀数据,准备算力,现在可能略微领先。


第二类是大厂,如百度、阿里、腾讯、字节跳动,他们资源多,可能只需要在原有研发方向上稍微调整一下,他们还有大量的应用场景,所以他们是另一类重要的玩家。

第三类是新生代,如王慧文的光年之外、王小川的百川智能,他们因为本身自带光环,也非常值得期待。如最近王小川的公司新发布了一个baichuan-7B模型。

这三类玩家,他们的资源、当前状况和适用场景各不相同,都非常有趣。

见智研究: 大模型对 ToB和 ToC 端的用户所关注的重点有何不同?

周健:

首先,大语言模型带来的变化是,过去是图形界面,现在可能会用自然语言作为界面,从另一个角度来说,很多应用可能会被合并,未来我们可能不再需要有100个应用。

但在ToB和ToC这两个方向上,关注点其实很不一样。ToB这边,由于往往涉及专业场景和多人协同工作,所以他们可能更关注协同办公场景和数据的私有性。而ToC端,由于涉及多种设备和场景,比如电视、手机、笔记本电脑,甚至家中的物联网设备等,他们的需求更加分散,可能需要更具体的场景设计。

例如,电视是一个被动性的场景,用户可能在观看时并不会主动做太多操作;而手机是一个个人的场景,用户可能会主动进行各种操作。这种区别会影响到最后哪些应用会被合并,以及底层的大语言模型是否需要进行不同的设计。

另外,从需求上来看,ToC端的用户可能更关注情感诉求,而ToB端的用户可能更关注效率需求。所以从原始点开始,ToB和ToC的需求就已经存在很大的区别。这就是我认为ToB和ToC在大模型关注重心上的主要差异。

见智研究:企业如何将大模型与自身业务相结合,会遇到哪些问题?

周健:

当前企业在将大模型与自身业务结合时,首要问题是如何选择模型。在国外,大部分企业可能会直接选择OpenAI,但在国内,选择更为丰富。然而,目前学术界对于如何评估通用大语言模型还没有达成共识,企业在这个问题上尤其困难,因为他们往往缺乏一个基本的数据集来决定在其特定场景下应选择哪种大模型。

另外一个问题来自AI的实际应用,有时候实际的落地效果与期望有很大的差距。例如,在AI 1.0时代,我们通常会以人脸识别为例,但其实际应用过程中,会存在很大的差异。

当前的大语言模型在客户端的直接体验上有一定的优势,但在稳定性、质量和安全性方面,还存在很大的差距。我们可以预期未来大语言模型的水平会逐步提高,但这个提升速度在企业内部是不一致的。因此,如何评估在哪里先进行落地,哪里可能是最难落地的,这是一个需要考虑的问题。

此外,企业还需要考虑自身的基础设施建设。大语言模型只是一个通用基础设施,其训练语料主要是通用的公开数据。然而,企业内部一定会有自己的私有数据,这些数据的规整性也非常关键,因为AI,包括大语言模型,都需要大量规整的数据进行训练。

我们是AI原生的企业,因此对于垂直企业内部专有模型的构建和fine-tuning有着高要求,特别是在企业内部数据基础设施的条件下。

在与许多客户会面时,我们注意到他们都感到焦虑,因为很难确定从何处开始。试验是他们的一种选择,但往往只能得出战术层面的结果。对于大型语言模型的能力,他们可能无法得出结论,可能很快就会因为在朋友圈发的文章而被质疑。

在战略层面上,变革组织是大家的共识,但最困难的是从哪里开始,谁应该先来尝试。这需要对事物的认知,以帮助作出决策。在战术层面上,他们不断被打脸,而战略层面上的问题则无法解决。因此,这是一个混乱的过程。

对于他们来说,这是当前最大的难题,即使我们专注于这一领域,变化仍然是日新月异的,可能每天都有微小变化,每周都有重大变化,甚至每个月都可能面临重大变革。对于那些核心业务不在这方面的企业来说,这是一个巨大的困难。

见智研究:企业需要怎样的模型?

周健:

定制企业的私有化大模型需要从以下几个方面考虑。

从现有的技术手段来看,定制化的成本是很高的。其次,基本上只有在类似于智能客服或者文本到SQL等确定性场景中进行微调或定制模型才是划算的。比如,像Bloomberg这样拥有大量规整化金融数据的企业,定制模型的性价比较高。

其中客服领域沉淀了大量的人机对话数据,通用性模型不适合。定制企业私有化模型是最适合的选择。然而,在其他领域选择定制化还存在许多问题。比如选择开源模型还是闭源模型进行共建,采用多少参数的模型,选择何种架构等。

这些选择都带来了成本,微调的成本可能在百万级别,甚至可能要上升到千万级别,特别是在希望做出有壁垒的企业定制模型的情况下。

此外,在当前阶段,大家都在谈论提示工程师的使用。但是,很多现实情况下,还并没有充分发挥提示工程师的潜力,而选择了更昂贵的方式。

因此,只有在明确能产生价值的场景下,如智能客服和文本到SQL等,花费高成本可能是划算的。而其他领域可能只能让研发获得一些经验,而企业其实是无法得到有价值的回报的。

见智研究:如何看待百万成本微调的垂直行业大模型和低成本建立企业专属知识库这两种方案之间的差异性和真实有效性?

周健:

在当前的项目中,我们探索了如何基于大语言模型开发新一代的软件,以实现更智能的程序模式。举个简单的例子,大语言模型只是对数据的压缩,而fine-tuning则是在该模型上添加特定的数据集,并对某些层进行参数修改。然而,它仍然无法摆脱对数据的压缩,因此在某种程度上它是昂贵的。


从客户和供应商的角度来看,它可能能说服客户愿意为高价值的项目付费。然而,从实际效果来看,比如对于法律场景,大语言模型无法处理大陆法系和英美法系的差异,因为它们有不同的法律逻辑和哲学基础。

同样的100个案例和10份法律文档,在英美法系和大陆法系的视角下,得出的结论可能不同。因此,从这个角度来看,纯粹使用大语言模型可能无法实现这一目标。我们应该在顶层由律师建立一个知识库来回答这些问题。

因此,通过使用这些领域的知识,我们可以通过代码更快地回答这些专业问题。如果我们使用fine-tuning的方法,即使将所有法律和审判判例放在一起,我们也无法预测ChatGPT这样的智能体会如何回答。

因此,在解决企业应用场景问题时,我们不能仅仅依赖大语言模型,fine-tuning只是对大语言模型的一种改变,没有从端到端的视角来看待问题。

见智研究:什么类型的企业需要私有化AI?如何看待这个领域的需求?

周健:

企业需要定制化或私有化AI,因为它们拥有特别敏感且价值高的数据。

例如,我们曾遇到过一家从事工程报价软件的公司,他们绝对不愿意将报价信息提供给公有的大模型。同样的情况也适用于半导体等公司,以及涉及医疗领域中的隐私数据,如病例数据,以及整车厂拥有大量汽车零配件BOM数据。这些企业都不愿意将这些高价值的数据提供给公有的大型模型,因此它们需要建立企业私有的模型。

刚才提到的这些行业都是大型行业,市场潜力巨大,虽然难以准确判断市场规模是千亿还是万亿,但我认为它是一个极大的市场。

在许多领域中,仅仅依赖通用大型模型可能无法实现落地推进,特别是在企业的安全和金融、政务等方面。

见智研究:为什么写好 Prompt 很难?如何实现复杂问题智能化解决?

周健:

生成模型只是试图预测下一个要说的单词,这是它的工作原理。从技术实现的角度来看,它也有类似于人类短时记忆的限制。我们知道人类最多可以记住7个单词,对于大型模型来说存在成本问题,所以它也有一些限制。

因此,如何与生成模型进行对话变得非常重要。虽然今天已经存在技术上的突破,但当前的大语言模型还没有达到具备数据库那样稳定可靠的程度,人们还不知道如何正确使用它,才会出现prompt工程师这样的职位。

比如,在微软的评估中提到了这样一个案例,即使是像GPT-4这样强大的模型,如果你直接让它计算150到250之间有多少个质数,它可能会算错。但如果你让它计算150到250之间的质数,并逐个列出并统计它们的数量,它就能做对。

这相当于人类在面对问题时会决定是心算还是拿笔写下来。因为它的大脑记忆能力是有限的,所以它可能还没有学会如何处理这种情况,因为目前还没有给它配备数据库。未来大模型背后若有一个数据库,可能会开发出新的算法。

此外,今天也有很多人在讨论,说它在处理数学方面不太擅长,所以包括OpenAI自己也在探索如何将一些简单的工具,如计算器功能整合进去,以便更好地回答这类问题。

如今整个行业都在探索挖掘大模型的潜力,对于Prompt的理解可能需要更深入一些。像编程很多时候是复杂的,有架构、面向对象、类设计、函数设计等。未来,Prompt也可能如此。

举个例子,在澜码科技的探索中,当我们的软件回答用户问题时,会将其分解成复杂的工作流程。一开始可能是提示a,扮演产品经理的角色,然后将用户需求拆分成几个部分。

在向大语言模型提问后,根据其回答,我们决定是将其第一段作为提示b输入,还是作为提示c的输入,或者第二段作为提示d的输入。

因此,就像30年前我们只有程序员,而现在有前端程序员、后端程序员、数据库管理员等。未来,Prompt也可能细分为许多不同的工种,可能还会有 Prompt Architecture、 Prompt  Designer。

见智研究:如何看待大模型对软件行业带来的影响?可能会出现哪些行业发展机会?

周健:

大型模型实际上代表了技术的平等,它让自然语言处理的能力“平民化”。对于像澜码这样的初创公司来说,我们就可以像OpenAI一样,将300人的自然语言处理团队视为公司内部的资源,直接利用。它所带来的一个变化是,在软件的边界上变得更加灵活,可以使用自然语言进行交互。

举个例子,我们内部开发了一个行程安排助手,以前,我的行程安排可能在微信、邮件上有往来。现在,我可以简单地要求我的软件助手,分析我的邮件、微信聊天记录,给出我下周的行程安排。

以前也可以做到这一点,但成本很高,可能需要花费几十万甚至上百万。而今天,我们只需要一些prompt,就可以实现这个功能,成本只是在每次软件使用时支付给OpenAI 1000个token 0.2美分。以前你不会愿意把NLP工程师浪费在这上面,而现在完全成为可能。

这是软件范式上的一种改变,手机上原来有100个应用,这100个应用彼此之间无法互通的,为什么呢?因为这100个应用原来只能通过API对接,不同的软件不断迭代。有100个软件就得进行1万次对接,一次升级就白接了,然后重新开始。

其实今天所有的系统,它其实都是一个记录系统,是为了负责去记录整个物理世界的一些事情的。比如ERP、CRM,HR 系统,财务系统,它其实都是对于物理世界的一些事情的一些事件的记录,然后现在突然新出来了一类,叫做 system of model 就是大语言模型,他们其实负责思考。

我觉得还有第三类系统叫做 system of action, 就是像澜码做的事情,好比是神经中枢的功能。

这个过去是需要程序员负责去做,成本很高,但现在有了自然语言,这个就变得容易多了。这可能是今天一个很大的范式转变。

见智研究:澜码科技为什么看准自动化平台、AI 应用赛道?

周健:

自动化是一个古老的赛道,起源于工业自动化的生产线。随着信息系统和信息化的发展,物理世界的数据被记录到虚拟世界中,信息化逐渐成熟。下一步的关键是如何在信息化中实现自动化。在各行各业中,甚至包括餐饮业,信息化已经成为现实,例如通过美团等企业的信息化实践。

自动化的目标是解放人们,使人们从重复性的劳动中解放出来。它的本质是提升人类工作的层次,避免人们成为数据的搬运工或系统的奴隶。人类不应该为机器服务,而是机器应该为人类服务。这是自动化的初衷,让人们能够从繁琐的工作中解放出来,担负起更高级的工作任务,实现人机协作的最佳效果。


从现在的应用场景上来看,今天有大量的烟囱式的系统在那边,其实有大量的人被浪费在了里边,我们实际上是可以帮他解放出来。其实这里已经有第一层的价值了。

第二层的价值是说当达到了部分自动化之后,实际上有一个很大的附带效应,它把很多的专家的那些数据其实是拿到了。比如说过去假设是一个高级的招聘专家,他可能对于很多简历、很多东西的一些判断,比如说他整了一个表格,一个word 文档,他可能发了一些邮件,然后他的经验被沉淀下来了。

但是今天我们已有的BI软件、数据仓库、 AI应用能用到这些数据吗?

用不到,因为这些数据可能分散在了各个应用当中,可能在微信、腾讯会议、视频以及邮件里,但没有被关联起来。但是当我们帮它做好智能化之后,会有一个大脑负责分配。

在这个过程当中,其实是机器人去收集各种各样的数据,最后把结果呈现在面前。

系统可以提供观点和反馈信息,帮助人们完成任务,例如编写职位描述和审核简历。智能化系统还能记录专家的见解和洞察,并将其用于培训新手。此外,通过自动化和推荐算法的结合,系统能够提供前所未有的决策支持,例如告知在特定情境下专家通常采取的行动。这些这些特点使得智能化系统具备巨大的潜力和价值。

见智研究:基于大语言模型的新一代自动化平台能够帮助企业解决哪些核心问题? 

周健:

虽然人们对于人工智能可能替代白领工作感到焦虑,但实际上这种替代可能是有先后顺序的。目前大语言模型主要应用于纯文本类的工作,解决一些基础任务和重复性工作,比如简历审核、法务合同比对等。这些工作本身并不受欢迎,但它们的关键信息是可以通过算法进行提取和处理的。

对企业来说,可以带来两个方面的变化。首先,在企业内部的组织结构上,可能从金字塔型变为钻石型,即减少低端员工的数量。其次,可以提高工作质量,例如在简历审核中,可以根据设定的属性和规则进行筛选,加速招聘流程。类似地,在财务报表整理方面,可以减少错误和漏洞,并揭示隐藏的问题。

因此,基于大语言模型的新一代自动化不仅仅是简单替代低端工作,它可以通过增加计算力来免费提高频率和工作量。对于企业来说,这意味着可以用不同的视角来管理团队和控制质量,从而带来全新的机会和挑战。

见智研究:海内外这部分市场空间是否还处于空白时期? 

周健:

在硅谷,有一些公司在人工智能领域具有领先优势。例如,Adapt.ai是由OpenAI的前工程副总裁和Google Transformer论文的第一作者和第三作者共同创立的一家公司。他们开发了独特的基准模型,并创建了一个浏览器插件,用于收集Salesforce用户的自然语言需求,例如订机票和订酒店。他们还将键盘和鼠标的输入信息作为多模态输入进行训练,挑战传统多模态的概念,以图超越OpenAI。

另一个公司是Fixie.ai,由哈佛大学的计算机系教授创建,他们在谷歌和苹果担任过高级研发职位。他们正在建立一个基于大型语言模型的企业平台,可以构建基于人工智能的代理(Agent)系统。

在国内,SOFA已经是一个开源项目,并且已有约6000个用户在使用。然而,硅谷在人工智能领域具有细分工的优势,他们专门开发了中间层的空间,用于构建原生的人工智能应用。国内的目标是构建一个类似的中间平台,但需要找到适合的场景并确保能够落地实施。

再有就是澜码科技。澜码是数据飞轮公司,基于底层的大语言模型,通过提供自动化平台,在效率场景下学习人们在PC/手机/会议等场景下的技能,从而建构出自己独特的多模态基础大模型。


见智研究:如何看待 AI 智能助手未来市场的空间和竞争格局?公司在这方面做了哪些准备?

周健:

在智能助手领域,众多企业都希望抢占这一入口,如苹果的Siri。

从2008年开始,人们就一直在思考智能助手的问题。在企业端,像钉钉、飞书和企业微信等已经具备了大量用户,因此它们开发企业协同助手是非常自然的事情。在消费者端,微信无疑是一个很好的入口。

此外,不同设备上也存在智能助手的应用场景,比如电视,例如百度的小度和科大讯飞的不同设备。这些公司都会利用自己的优势去开发智能助手。

在技术方面,大语言模型仍在不断演进,尚未达到技术天花板。因此,在当前的互联网环境下,仍然以流量为王的思路可能并不适用。在移动互联网发展的早期阶段,开发一个手机相册应用就能轻松获得上千万的流量,可以同时开发100个应用,然后通过数据分析决定哪个应用更成功。但现在情况已经有所改变,尽管在两三年内仍可能存在这种情况。

然而,从5到10年的时间尺度来看,大语言模型甚至可能改变ToB(企业对企业)和ToC(企业对消费者)的边界。它可能变成与人交互和与人工智能交互的两个端口,即与人接近或与人工智能接近。接近人意味着可以获得人的数据,就像习惯使用个人秘书一样,人们肯定不愿意随意更换。因此,智能助手的智能程度是非常重要的。

从这个角度来看,在技术尚未成熟的情况下,即使在消费者端抢占了市场,做出了现象级产品,如果没有深度技术支持,很容易被大公司通过运营手段超越。

因此,我认为在 ToB领域更为合适。另外,OpenAI的CEO也提到过未来人工智能的应用分为三种:大语言模型、数据循环和人工智能应用。

对于消费者端来说很难说,之前提到的设备可能具有一定的数据意义。而对于企业端来说,核心有价值的数据是非常重要的,比如人、财务和物流等。如果我能抢占到一个人,例如获得全中国所有白领的简历数据以及其薪资和绩效数据,甚至更重要的是共享的数据,即招聘专员在使用我的助手时的数据,这些数据具有价值。

这些数据可以帮助我们进一步锤炼技术能力。当技术能力达到更高水平时,例如通过与智能助手聊天生成的代码行数作为衡量智能程度的指标,比其他公司高一个量级或两个量级,那么就能轻易夺取市场份额。

因此,在战略上,我会选择首先在专业场景下开发助手,然后等待技术的进一步发展。当技术达到明显的天花板效应时,可能会出现新的范式。无法预测未来是否会变得更加快速,像AlphaGo到现在只相隔7年,再过3年可能会出现一个新的范式,让大家都惊讶。但假设不会发生这种情况,那么在那个时间点上,重新争夺市场是有机会的。

关键词: