人工智能行业专题研究：从阿里商汤华为大模型看应用趋势【ID:7471】

2023-4-27更新

190

阿里巴巴通义大模型

全栈布局AI技术体系，MaaS成为重要层级

阿里全栈布局AI技术体系，产生IaaS、PaaS和MaaS三层构架。阿里（阿里巴巴）表示，在IaaS（asa）层，公司为AI设计了云基础设施，包括估算的模块、高效的网路及存放，如灵骏智能估算集群与弹性估算ECS集群。公司的PaaS（asa）层提供了丰富的大数据及机器学习产品，才能从数据清洗开始帮助开发者训练模型。MaaS（Modelasa）层包括基础大模型/通义大模型、企业专属大模型、魔搭社区、API服务等。

阿里云追求让算力更普惠、让AI更普及。1）让算力更普惠：“普”就是要促进低代码及（无服务器）发展，提高开发者服务，增加开发门槛；“惠”就是加强软硬一体技术开发，提升规模化营运效率，持续释放技术红利。阿里表示，过去六年单位算力成本上涨80%，储存成本上涨88%，公司希望未来的算力成本弄成明天的非常之一乃至百分之一。2）让AI更普及：公司希望在云基础设施平台上，有阿里的通义大模型，也有阿里云跟院校、科研院所、各行各业合作的基础大模型，平台除了支撑基础大模型的训练和服务，也为各行业的专属大模型提供保障。

MaaS已成重要层级，魔搭社区模型总量达800+。2022年11月，阿里巴巴在云栖会议上首次推出MaaS的概念，即以云为基础，以模型为中心。MaaS的核心是将模型作为生产的重要元素，有效支撑模型的生命周期，模型研制、数据清洗、模型训练、模型测试等能够步入统一模型网站，开发者能快速查找并使用模型，减少模型使用门槛。同时使用模型做二次开发，解决各行业问题。魔搭（）作为AI开源社区，提供视觉、语音、自然语言等各个领域的SOTA预训练模型，自阿里巴巴在2022年11月推出以来，魔搭目前已拥有上百万开发者，模型累计下载次数超1600万，模型总量达800+个。

推出通义千问语言模型，后续将相继接入阿里内部产品

阿里云智能首席技术官周靖人在2023阿里云大会上即将宣布推出大语言模型通义千问，支持多轮交互及复杂指令理解、多模态融合，以及外部提高API。通义千问具备多轮对话、文案创作、逻辑推理、多模态理解、多语言支持等功能。通义千问功能包括：1）多轮对话：才能了解用户抒发的意图，通过上下文语义理解回答问题；2）文案创作能力：能否续写小说、编写电邮、实现企业企划，可以极大降低工作效率；3）逻辑推理：才能完成简单物理题及相关代码的编撰，为开发者在开发流程上提效；4）多模态理解：能否将视觉、视频的知识融合在语言体系中；5）多语言支持：实现多语言的交互及转接。

“通义千问”可在多个场景投入应用。1）智能办公方面，通义模型可调用差旅插口推荐差旅产品、调用导航插口规划交通路线、在视频大会中手动生成大会摘要、撰写约请函并制作海报等；2）智能购物方面，通义模型还能依据用户须要回答问题并推荐具体产品、提供活动企划方案及场地推荐；3）智能居家方面，通义千问还能依据用户须要，实现个性化故事生成、个性化歌单、个性化菜谱等。

通义模型支持多种接入调用方法。基于灵骏平台，通义模型支持各类模型一键布署云上服务，开发者可手动获得APIKey进行模型微调和指令化。

阿里云CEO张勇表示，在AI时代，所有产品都值得用大模型重新升级。阿里云计划未来先从内部生态开始，将所有产品接入“通义千问”大模型，进行全面升级，让各个业务去更好的独立面对市场，经受挑战，提高其智能化水平，之后再面向社会企业开放，帮助更多企业用上大模型，让每家企业都能基于“通义千问”打造属于自己的大模型，阿里云期望与合作企业共同探求数字化未来。

目前钉钉、天猫精灵等产品已率先接入通义千问测试，高德地图、饿了么、盒马、优酷、淘票票等产品也将有序接入通义千问大模型。钉钉接入通义千问模型后su模型简化，可以在钉钉文档、钉钉大会、钉钉群聊、钉钉小程序中实现近10项手动化功能，包括：1）钉钉文档：接入通义千问模型后，用户在文档中输入指令，即可让钉钉完成写作、撰写电邮、生成企划方案、生成图片等一系列工作。

2）钉钉群聊：接入通义千问模型后，钉钉可为用户手动生成未读聊天的内容摘要，帮助用户快速了解上下文信息，解决了自动翻阅效率低下问题。同时，钉钉还可以为用户在群聊中达成的共识手动生成待办事项。

3）钉钉大会：接入通义千问模型后，钉钉可以在大会过程中实时生成字幕，用户可以看见发言人以及其所讲的内容。大会后，钉钉还能否手动生成大会重点摘要与待办事项。

4）照相生成小程序：接入通义千问模型后，用户无需写代码，只需在钉钉中上传一张功能草图，钉钉即可立即生成一款应用小程序。

接入通义千问模型后，淘宝精灵显得比先前更聪明，在知识、情感、个性、记忆能力方面都有明显的提高，智能化水平急剧跃升。它可以按照用户需求和交流场景随时生成内容、切换话题，可以像真人一样自由对话。比如，用户可以：1）要求淘宝精灵与自己一齐创作“宇宙大爆燃”的新故事；2）让淘宝精灵回答刁钻问题；3）要求淘宝精灵合成适宜慢跑的歌单；4）与淘宝精灵谈论人生。

开发企业专属大模型，与OPPO等多家企业举办合作

开发企业专属大模型，支持Web界面与专属API。阿里巴巴表示，阿里云希望还能帮助更多企业用上大模型，让每家企业都能基于“通义千问”，具备自己行业能力的大模型。首先，完善企业专属数据空间，企业才能将数据加入数据空间中，可接入各类方式的文档及云上数据库。以后，模型还能手动生成企业专属大模型。最后，模型还能手动学习企业数据空间中的信息，产生符合企业使用习惯、行业属性的大模型。所有模型生重庆才能手动化地生成，生成的模型将手动放置在阿里云上进行推理配置。企业也可以嵌入Web系统开发，也可以将API接入自己的业务系统。目前通义千问模型已与多家企业展开合作探求。首批接入的合作企业包括OPPO、安迪斯智能云、太平洋保险、吉利车辆、上汽致以、奇瑞新智能、豪墨自行、太古可口可乐、波司登、顾家家装、V1、酷家乐等。阿里表示，未来将基于通义千问将持续创新，做好语言服务。

商汤日日新大模型

大装置：为大模型提供充足的算力支持

商汤“日日新”大模型体系的基础算力基座是商汤AI大装置，其背靠商汤人工智能估算中心（AIDC），目前有27000块的GPU在运行，才能输出5000p的终于力，500p的国产化算力，是欧洲目前为止最大的智算中心之一，可以同步支持20个千亿参数超大模型训练，为商汤日日新大模型体系提供了充足的算力支持。基于大装置的能力，商汤目前已建立了计算机视觉、自然语言处理、AI内容生成、多模态、决策智能等多个领域的大模型。

商量大语言模型赋能专业知识、医疗、编程等领域

商汤目前已基于AI大装置，推出了自然语言大模型“商量”、中文医疗语言大模型“商量·大医”、编程助手“商量·AI代码助手”三个应用平台，赋能专业知识、医疗、编程等垂类场景。

1）自然语言大模型“商量”（）

自然语言大模型“商量”拥有1800亿参数，具备超长文本知识理解、文本生成、内容创作、多轮问答、逻辑推理等能力。它通过与用户进行多轮互动来解决复杂问题、提供多样化建议、辅助创作文本，且自带知识手动及时更新模块，进而生成更可信、更确切和更安全的信息。比如，用户可以通过与“商量”进行对话，让它辅助创作一段广告、一份约请函，“商量”也才能接入财务、法律等专业知识领域，对用户上传的专业领域长文本PDF进行理解和对话。

2）英文医疗语言大模型“商量·大医”

英文医疗语言大模型“商量·大医”基于海量医学知识和真实医患互动对话数据构建su模型简化，它还能通过多轮对话辅助支持导诊、问诊、健康咨询、辅助决策等多场景，因而持续赋能医疗领域，提高诊所诊治效率，为病人构建更好的服务体验。据商谈科技展示的案例，“商量·大医”已落地新华诊所，才能兼任健康咨询助手，为用户解答通宵会带来身体变化的缘由，并通过引导给用户提供就医挂号建议。

3）编程助手“商量·AI代码助手”

编程助手“商量·AI代码助手”具备代码补全、代码仿写、代码翻译、代码构建、代码修正、注释生成代码、复杂度剖析、测试用例生成等功能，并能支持多语言的中英文编程。“商量·AI代码助手”创造了软件开发新范式，改变了代码编撰领域原有的二八定理，即80%由人工生成，剩下的20%由AI完成，建立了新的二八定理：代码=80%AI生成+20%人工，这将有助于用户更高效的编撰和调试代码，提高工作效率，简化开发流程。据商汤内部实测，使用“商量·AI助手”后，职工编撰代码的效率提高62%，测试集的一次性通过率达到了40.2%，数据表现优于。据商汤科技展示的案例，AI自主编撰了代码，通过递归辗转相除法估算出了两个数的最大公约数，并进一步判定了两个数是否互为素数。

配套生成式AI应用，驱动垂直场景降本增效

基于大装置及“商量”大语言模型，商汤科技还推出了“日日新”大模型体系下的生成式AI应用，包括“秒画”文生图创作平台、“如影”AI数字人视频生成平台、“琼宇”3D场景生成平台和“格物”3D内容生成平台。

#1“秒画”文生图创作平台

“秒画”文生图创作平台融合了超10亿参数的商汤自研文生图模型，才能根据用户提示词生成图片，其具备以下特性：1）推理速率快。秒画由单卡A100支持，才能在2秒内生成1张512K码率的图片；2）可自训练。LoRA小模型搭载在大模型上，用户可通过自身需求，通过图片实例训练生成大模型没见过的东西，5分钟内才能订制属于自己的LoRA小模型，使结果更精确；3）提供生成模型开源社区。秒画凝聚了1万+开源模型，才能为创作者提供加速内容生产创作工具的生态平台；4）提供B端API服务。按照商汤科技展示的案例，原有的文生图模型无法理解“港风美眉”这一提示，而上传20张左右的台湾名星相片后，对模型进行增量训练，短时间内秒画就可以生成图片。

#2“如影”AI数字人视频生成平台

“如影”AI数字人视频生成平台具备全栈智能创作能力，还能实现AI数字人动作表情生成、AI文案生成、AI跨语言文稿生成、AI素材生成等功能，实现在直播、营销视频等场景的落地。用户仅需提供一段5分钟的真人视频素材，如影就可以生成下来声音及动作自然、口型确切、多语种精通的数字人分身。如影具备以下特性：1）风格种类丰富。如影可生成2D、3D、卡通等数字人形象；2）集成了文本生成、文生图、实时问答等多种工具。如影可以按照用户的简单提示生成文案，然后进一步依照文案手动生成数字人视频，并可以根据用户需求提供不同的语言版本。据商汤科技示例，用户先在大模型中简单描述与故宫联合开发的文创产品，如影就可以生成一段视频，并配上视频文案。

#3“琼宇”3D场景生成平台

“琼宇”3D场景生成平台具备城市级大尺度的空间重建生成能力，它还能：1）快速生成城市级3D场景。琼宇可以在2天内生成100平方公里的场景，削减原有10000人·天的工作量；2）高还原场景细节。琼宇可以分米级重建精度，还原场景的真实细节和光照疗效，支持实时渲染和互动，比如它可以渲染出墙壁的反光、地板的灯光。琼宇3D场景生成平台可应用于影视创作、建筑设计、商品营销、数字双胞管理营运等垂直领域。

#4“格物”3D内容生成平台

“格物”3D内容生成平台具备物体的精细化3D生成能力，可以还原室外场景的物体复杂的几何结构、纹理、材质、光泽等信息，做到实时高逼真渲染。传统3D建模具备难点：1）复杂物体建模会连累到背景；2）有光泽的物体难以区分材质。但格物系统才能：1）复刻复杂结构物体；2）精准复刻光照；3）完美还原材质。通过扫描快速构建3D物体模型，格物平台综合扫描效率提高了400%，成本增加了95%。格物才能应用于空间的创意设计中，可以做装修、影视作品的嵌入、综艺视频中的物体摆件等，也可以运用到数字人直播间的3D场景选择步骤中。

大模型商业变现路径：MaaS模式+开放API插口

基于商汤AI大装置，商汤面向顾客提供了多种MaaS（Modelasa）服务，包括：1）手动化数据标明。相较于人工数据标明，基于预训练大模型的手动化数据标明可实现近百倍的效率提高；2）自定义大模型训练及模型增量训练。大模型并行训练和模型增量训练服务才能帮助顾客快速借助自有数据训练模型，在预训练大模型上对某垂域行业模型进行开发，生产出各行各业的自定义模型；3）模型推理布署。模型推理布署服务可增加用模型提供服务的成本，并将大模型推理效率提升100%以上；4）开放模型及AI工具链。全面赋能顾客提高开发效率。目前商汤大装置已有超7000张GPU算力对外服务8家小型顾客，拿来训练顾客超过千亿规模的大参数模型，顾客包括科研机构、头部商业交行、头部游戏公司、头部互联网公司、明星创业公司等。

同时，基于商汤“日日新“大模型体系，商汤科技开放了API插口，便捷用户调用各项AI技术以实现二次开发，包括：1）自然语言生成的API。自然语言生成服务支持英文的多轮对话，具备超长文本的理解能力，可以不断学习进化。2）图片生成的API。图片生成API可以支持文生图、图生图，才能支持6K的高清图象，才能生成不同风格图象，用户可依照须要调用API进行自主训练。3）视觉的通用感知任务和标明的API。视觉标明服务由商汤科技研制的数据标明平台“明眸”提供服务，双眸外置12个通用大模型和行业专用大模型，支持智能驾驶、智慧交通、智慧城市等多种场景的2D分类、检测和3D检查的智能标明；相比传统人工标明和小模型标明模式，双眸具有标明疗效好，效率高，成本低等核心优势，才能对一些密集的汽车、行人等颗粒度较细的图象确切检查。通过开放标准API，顾客还能从底层调度商汤大装置海量算力，实现大规模标明。

华为盘古大模型

三层级布局大模型

华为盘古大模型分为三个层次，包括基础模型L0，行业模型L1以及细分场景模型L2。1）基础模型L0。基础模型基于一站式AI开发平台进行加速优化训练，包括NLP大模型、CV大模、科学估算大模型。其中NLP大模型具备文本生成、内容理解能力，CV大模型具备图象分类、分割、检测能力，盘古科学估算大模型囊括气象预报、药物分子优化、海浪预测等能力。2）行业模型L1。行业模型是在基础模型上导出行业数据进行训练后衍生而成的模型，包括煤矿、气象、药物分子、电力、海浪、金融等行业大模型。3）细分场景模型L2。细分场景模型是在行业模型的基础上结合行业细分场景，对数据进行微调和布署得到的推理模型，包括金融OCR、金融毁约风险辨识、电力质检、海浪预测、小分子优化、空调空气质量优化等场景模型。

大模型聚焦AIfor，驱动行业智能升级

盘古大模型聚焦AIfor，旨在于做好行业应用，赋能矿山、水泥、电力、金融、农业、国家云等B端行业。其中盘古NLP大模型可应用于智能文档搜索、智能ERP、小语种大模型领域，具体场景覆盖类案检索、企业财务异常检查、阿拉伯语大模型；盘古CV大模型应用于工业质检、物流库房监控、时尚辅助设计，具体场景覆盖高铁TFDS、物的银行、门店半订制设计等；盘古科学估算大模型适用于气象预报、海浪预测等领域，现已推出盘古气象大模型及盘古抗生素分子大模型。过去几年，华为云的AI项目应用已超过1,000个，其中30%用户用于顾客的核心生产体系中，平均推进顾客赢利提高18%。盘古CV大模型具备30亿参数及10亿级图象，是业界最大的CV预训练模型，兼具判断与生成能力，小样本学习性能领先，在线性分类领域上为业界第一。据华为展示的案例，盘古CV大模型在煤矿及高铁领域赋能疗效明显：

1）华为云盘古煤矿大模型。盘古煤矿大模型基于海量煤矿数据自主学习而成，可在矿山综采场景、煤矿主运场景、煤矿作业场景得到运用，帮助减少劳动硬度，降低安全风险。在掘进场景中，煤矿大模型可通过5F+AI全景视频拼接出40米采煤面画卷，保证安全生产；在主运场景中，煤矿大模型对异物辨识精度达98%；在作业场景中，煤矿大模型可用于作业序列智能检查系统，对动作规范辨识确切率达95%，可降低90%以上的安全车祸。2）基于华为云盘古CV大模型的高铁TFDS（客车故障轨边图象检查系统）开发方案。与与传统的人工剖析方案相比，大模型增加了检查成本，减少了动态验车员的工作量，对于故障样本测量的辨识率可超98%。

同时，盘古科学估算大模型也在气象、药物分子以及空气质量优化三个领域得到具体应用：1）盘古气象大模型。盘古气象大模型是全球首个精度超过传统预报方法的AI模型，才能在秒级时间内给出未来7天的天气，且在1小时-7天的预测精度均超过法国气象局，预测速率相比欧州气象局提高10,000倍，台风轨迹预测精度提高20%。2）盘古抗生素分子大模型。盘古抗生素分子大模型可以将先导抗生素研制周期从数年减短至1个月，解决了抗生素发觉周期长、人工实验成本高、耗时长等行业痛点。3）空气质量优化。盘古大模型赋能空气质量优化，能让电力消耗减少15%以上，对甲醛预测精度小于85%，对氧气预测精度小于95%。

大模型推进AI开发从“作坊化”到“工业化”升级

随着人工智能渐渐溶入到千行百业的核心生产系统，未来人工智能发展趋势包括：1）从小模型到大模型。传统AI时代下，一个场景对应一个模型，存在模型参数目小，泛化性差，模型维护困难、行业人匮乏等问题，但过去10年内，AI算法的算力需求提高了40万倍，模型复杂度持续爆发，而大模型凭着着资本优势及技术优势，可能吞并高度多样化的小模型，造成市场向大公司集中；2）AI+传统科学估算。工业、气象、能源、生物医学等领域都遭到AI的深刻影响，AI才能为传统科学估算带来新思路、新工具和新方式，而传统科学估算也能为AI带来更严密的科学指导。而盘古大模型具备低门槛AI开发、泛化性能高、高效样本标明、精准度高、解决碎片化问题五大核心优势，除了才能解决传统AI时代下小模型存在的困局，也才能规模化高性能AI模型的生产线，促进人工智能开发从“作坊化”到“工业化“升级，迎合了AI发展趋势，将成为未来AI生态的核心。

从大模型发展看应用层机会

数据集/IP：优质数据或成宝贵训练资源，有望反哺IP生产

作为高壁垒资源，数据集有望受惠于大模型的普及应用。的主要训练数据包括维基百科、书籍、期刊、链接、Crawl和其他数据集等，大量丰富的数据集资源是构建模型的基础。2023年4月11日，网信办公布《生成式人工智能服务管理办法（征询意见稿）》明确强调，鼓励优先采用安全可信的数据资源；训练数据应合法，不侵害知识产权，应保证其真实性、准确性、客观性和多样性。在各大厂纷纷推出自有大模型的情况下，优质的数据集日益成为宝贵资源。据深交所互动易，国外多家模型公司与英文在线正在就采购公司英文数据进行合作谈判；作为在图书出版领域把握大量英文独家语料数据的出版机构，光大出版已就运用AIGC积累数字资产、创新收入模式方面认真研究论证，组织专项技术和业务团队，积极孵化创新项目。

随着大模型的应用，作为数据训练源头的版权IP将迎来较大需求，行业产能升级也将反哺版权IP价值。一方面，IP版权内容为大模型数据训练源头，高质量数据库为大模型训练的刚需，IP内容可帮助大模型公司实现高质量输入到输出的循环，随着大模型开发的进程，IP版权或将迎来较大需求；另一方面，大模型将提高行业生产力效率，急剧减短内容生产周期和减低成本，IP有望突破原有的产能限制，不断累积价值效应，提高IP价值。据深交所互动易，以新文创IP内容的输出、运营和产业化布局为主业的百纳千成已成为百度文心一言首批生态合作伙伴，双方将在产品研制、标准制订等多个领域展开推进合作，推动内容生产和IP营运产业转型与升级。视觉中国与文心一格在创作者赋能及版权保护方面展开合作。据深交所互动易，视觉中国通过与互联网平台的联接及赋能，在图文创作、视频生产、效果广告、电商广告、模版设计等业务场景提供图片、视频、音乐等优质正版内容服务。同时，视觉中国也与百度文心一格在创作者赋能和版权保护等方面展开多项合作，共探AIGC内容产业发展方向。

视频/虚拟人：减短制做周期，提高交互能力

我们觉得“如影”等生成式AI模型的落地将极大加速AI视频/虚拟人的发展，随着生成式AI与大语言模型的打通，视频/虚拟人制做周期将大大减短，创作流程简化。同时，鉴于大模型在用户语言逻辑理解上的推进，虚拟人在场景应用中的辨识感知能力和剖析决策能力将明显提升，提高沟通时的交互能力，更确切地满足用户个性化需求。“如影”打通大语言模型“商量”，打开新商业可能。据丙子光年，作为低门槛、快速构建数字人的AI数字人视频生成平台，如影未来能帮助电商直播企业、短视频营销企业、教培机构、娱乐企业等快速生成视频内容。我们觉得，伴随着技术的迭代，AI有望在视频的前期企划、中期拍摄、后期制做持续落地，减少视频生成的成本，提高效率，同时带来全新的创作思路，提高视频的创意性。商汤发布会上，CEO徐立展示了把“日日新”系列产品应用于直播间的可能，如用“商量”实时生成直播内容，用“如影”打造虚拟主播，用3D内容生成平台“琼宇”和“格物”呈现线出场景和产品，打开了全新的商业可能。同时直播间才能24小时不休刊，在大语言模型的加持下，虚拟人的互动性也极大提高。

游戏：赋能游戏素材生成，推动玩法创新

大模型可在NPC聊天内容、剧情大纲、场景生成等领域推动游戏生产，伴随多模态技术的发展，可能实现游戏生产的降本增效，促使玩法创新。利用AIGC技术，游戏素材生成效率极大提高。完美世界技术美术主管GaryGuo在2023年GDC会议上分享借助AIGC技术进行美术设计，生成符合游戏场景的图标、图片、素材及NPC形象等。传统美术场景须要人工画师创作，但在AIGC技术辅助下场景设计、概念设计等才能在短时间内完成创作。目前主流应用方法还是通过叠加，通过可生成符合游戏开发者要求的，再将输入等AI绘图工具即可得到相关图片，可以通过不断调整对图片进行进一步更改。

大模型推动生成游戏剧情大纲等素材，提升创作效率，丰富剧情多样性。日本游戏工作室旗下DarkMode游戏主要采用、DALL-E2、AI语音工具MurfAI三款AI工具制做，其中主要用于创建故事大纲和具体的人物对话，DALL-E2用于生成图象；英文在线海外产品和My在进行接入测试，应用于故事创作生成、剧本生成及改编、交互聊上思方面。

大模型让游戏NPC形成更加多样化、符合设定的回答。我们觉得，通过将游戏的世界观、剧情、人物对话等数据提供给大模型训练，游戏中的NPC（non-）便就能形成更加多样化、且符合设定的回答，极大程度提高游戏的可玩性、可拓展性。如汤姆猫早已尝试应用GPT-3.5模型进行AI语音互动产品功能原型测试，并早已将汤姆猫IP形象植入产品功能原型当中，初步验证了相关技术实现的可行性；海外的沙盒游戏《》开发者通过GPT-3与模型实现NPC自由对话，除了有语调还搭配丰富的肢体动作；台湾开发商基于开发AI审问游戏《ドキドキAI尋問ゲーム》中的NPC才能根据用户的输入进行实时生成回答，持续推进故事情节发展。