融合存量数据资源,助力生成式AI在B端落地
关注我们 - ️数字罗塞塔计划 -
业界普遍认为,2025年将是生成式AI应用落地元年。在经过将近两年的智能问答、智能写稿、文生图和文生视频等相关应用的熏陶,经历了OpenAI一轮又一轮的行业再教育后,生成式AI究竟应该以何种姿势在B端落地,一定是各方面都在关注和思考的问题。下面笔者将从切入点、落脚点、方法论和工具等层面入手,谈一谈我们的看法。
️一、正确理解业务痛点
️是生成式AI在B端落地的关键
2024年下半年,出现了AI大模型边缘一体机,将千亿参数的大模型能力和AI知识库落到了很多行业和单位,这里面包括:政府部门、央国企、金融机构和高等院校等,大家第一眼看到觉得非常惊艳,因为第一次感受到生成式AI的能力可以离自己的工作那么近,而且非常具有想象空间。
然而,在敲开门后大家坐下来探讨,却并没有继续沿着互联网上生成式AI的路径去探索,而是纷纷提出了以下问题:有的客户这样问“大模型和知识库能不能跟我们的应用系统对接,我们的数据跟知识库怎么结合”?有的合作伙伴这样问“我们原本跟很多客户单位有合作,就在做他们的业务,利用大模型如何来提升我们的业务价值”?最典型的是这一个,某单位的财务总监说“我要帮老板做公司的成本分析,我需要公司各个层面的一手数据,准确,可追溯,还要帮我整理汇总好。说实话,我并不关心你们后面用的是什么样的技术,我比较关心我的工作怎么能准确、高效的完成”。
而对于信息化建设部门,他们也提出了自己的看法:“我们原来搞信息化,就像建房子,一个系统就是一所房子;后来房子多了,又想建一个更大的房子,把原来的东西都装进去;可最终结果是房子建了一大堆,我们里外不讨好。现在搞生成式AI,搞大模型,是不是又要建一所大房子呢?”
江湖规矩是“拿人钱财,替人消灾”,干信息化是这样,搞生成式AI和大模型,总不能因为顶了一个更大的光环,就坏了“规矩”吧!
️二、融合存量资源,
️是生成式AI在B端落地的第一步
我们国家的信息化经过了近三十年的高速发展,无论是党政机关、科研院所、企事业单位,都早已形成了大量各式各样的信息化系统,积累了多元的数据,而且据我们在很多行业的观察了解,系统间的技术路线各有差异,数据治理水平参差不齐,使用效果有的不错,但是差强人意的还很多。
而大家都知道,生成式AI需要“算法、算力和数据”这三大件的叠加才可能发挥作用。那么要在现有的信息化土壤上推进生成式AI的应用,究竟是把原来的存量资源都“翻个烧饼”,推倒重来呢?还是另外开辟战场,走一条完全独立的道路呢?显然两者都不现实,第一种不用说了,好不容易把大家拉上来,基本上天天在上面干活了,怎么可能推倒重来?第二种技术上可行,但是大家的工作都在原来的环境里,数据资源也在原来的环境里,如果把生成式AI当个玩具玩一玩可以,工作怎么开展呢?
很显然,生成式AI要想在B端落地,而且是要生根发芽的那种,与存量的系统、数据资源进行融合是必由之路,不管从概念上还是能力上有多么“高大上”,该干的总是逃不掉的,而但凡想绕开的,估计多半干不长久。
️三、“联接器”是融合存量资源,
️服务生成式AI的基础
为了解决存量资源的接入问题,也为了更好的利用这些资源与生成式AI协同工作,创造更大的价值,基于多年在该领域的技术实践和产品沉淀,笔者提出了“联接器”的解决方案。
“联接器”核心是要解决在接入存量资源过程中的标准化问题,传统解决异构资源对接可谓是“八仙过海,各显神通”,但是始终没有办法提出一个能够标准化的框架,即使有ETL这样的数据集成框架,但是面对纷繁复杂的业务集成场景依然效果有限。
“联接器”的设计理念来源于德国工业4.0提出的“资产管理壳”,“资产管理壳”将各类异构的工业设施(设备、零部件、软件等)转变为“工业4.0基本单元”,从而获得统一接口、互操作和可扩展三方面的优势。如下图所示:
在此基础上,进一步形成了全新的“联接器”解决方案,如下图所示:
“联接器”要解决三个方面的标准化问题:
01 ️首先是对接的标准化。
如上图所示,联接器接入的对象包括:应用系统、数字化设备(或者经过数字化转换的模拟信号设备)、结构化数据(独立存在的数据表)、非结构化数据(比如现有文档资料)以及已经经过建模的知识化数据(已有的知识图谱等)。对接标准化不是说把这些异构资源的对接统一到一个标准API接口上,这是不现实的,而是提供一种标准化的方法和工具,使传统对接工作可管、可控。打个比方来说,就跟接电线一样,以前是要用剪刀剪去电线胶皮,再把两段铜丝绕在一起后用胶布缠几圈,现在是用一个配电箱,插上去,配置几个参数即可。这项工作的重要意义在于保障异构系统对接工作的持续性,避免因为系统发生变化,对生成式AI的数据源产生影响。
02 ️其次是算子的标准化。
存量资源中的有关数据和业务能力往往无法被AI使用,通过将他们“算子化”,也就是说封装成可以被AI智能体理解和调度的能力单元。这种算子标准化还有一个价值,就是在一定范围内将软件能力真正构件化,可以进一步实现构件组装,提高软件复用性。
03 ️第三是数据准备的标准化。
按照生成式AI“garbage in, garbage out”的理念,必须要对存量的数据资源进行处理(这就是面向AI应用的数据治理),既要将其变为适合知识库理解和处理的形式,又要确保可追溯性。虽然要在这一点上形成较为普适的方法充满挑战,但是非常值得尝试,因为它对在私域部署的AI大模型(非云端的公有大模型)的内容生成质量几乎是决定性的。
️四、“联接器”在
️生成式AI融入B端业务框架中的位置
“联接器”在生成式AI融入B端业务的整体框架中扮演的是异构资源整合的角色,如下图所示(红框所示为“联接器”):
“联接器”的标准化是推进“普惠AI”进程中非常重要的一环,同步要推进的是“多维语义知识库”的标准化。
由于“联接器”将异构资源进行了连接和整合,所以对于AI来说,他们成为了一个个的虚拟节点,这些节点在初始化的时候就将会具备以下能力:
对于其中的服务能力,例如什么是安全服务?什么是凭证服务?如何开展协同服务?如何对于多模态文本进行知识结构建模?为什么要进行语法结构建模?边缘规则库与大模型知识库是什么关系?限于文章篇幅,这些问题有机会再和大家交流讨论。
而随着整合的深入,异构资源的更多服务和能力也将会被开放出来,成为个性服务,供其他AI智能体甚至是智能应用的调用。
️五、典型案例
下面我们通过一个简单的例子来说明“联接器”的典型价值。
中石油某省级工程公司采用了AI边缘一体机来构建自己单位的私域知识库,他们的信息化负责人提出是否可以利用私域知识库大模型(Qwen2.5-72B)来把员工的工作日报自动生成月报,这一方面可以从应用场景上进行AI的延展性探索,另一方面确实也可以减轻工作人员的事务性压力。
该单位的日报数据在OA系统里面,而且他们提出希望自己来开发有关业务功能的算子。如果采用传统模式,这就是一个典型的系统对接开发工作,需要双方团队坐下来讨论对接方案以及联调联测,显然,这么做费时费力,并且没有办法复制推广。
但是依托“联接器”的解决方案,就改变了这个局面,客户的技术团队自己开发出一个能够获取OA中日报数据的算子,并且在“联接器”中发布,如下图所示:
然后在知识库的AI工作流中对其进行调度,并与大模型进行对接,一天之内就完成了这个场景的实施。
而且通过AI工作流提供API,还可以在OA系统中直接调用,这样,OA系统只需要做少量修改(添加一个按钮,调用AI工作流API接口),就使得传统的信息系统升级为具有生成式AI能力的智能应用了。中石油的客户认为按照这样的模式,将来会解锁出非常多的应用场景。
️数字罗塞塔计划公众号致力于作为中立的第三方客观公正地表达自己对于档案信息化领域的看法和观点。真理越辩越明,我们也衷心欢迎越来越多的人投身到档案数字资源管理和保存这一领域的研究中来并发表真知灼见,共同为人类文明的传承而努力奋斗!
关注我们 - ️数字罗塞塔计划 -