今年加入 OpenAI 的大牛、前特斯拉 AI 总监 Karpathy 在最近的一次开发者活动上表示: AI 智能体,代表了 AI 的一种未来!
不仅是他,全球 AI 领域的大佬和科技巨头对 AI 智能体的发展都表现出极大兴趣,并寄予厚望。
大语言模型的出现,无疑给 AI 智能体的发展带来了全新的想象力,因此尽管在众多 AI 智能体还未达到完全模拟人类智能的程度的情况下,仍然吸引了全球关注,因为它的出现意味着人类在未来实现通用人工智能的目标上迈出的重要一步。
(资料图)
这个在大模型技术与应用之上诞生的全新赛道, 抢跑的人意味着能够拥有先发优势。
OmBot自主智能体的诞生
在今天的 2023 世界人工智能大会上,联汇科技发布了基于大模型能力的 自主智能体(Auto AI Agent )——OmBot 欧姆智能体 ,并针对典型场景需求,推出了首批应用。
OmBot 欧姆智能体横空出世的背后,是联汇科技技术团队的一次 “蓄谋已久”。
公司核心团队来自全球计算机殿堂 —— 卡内基梅隆大学,实验室对于自主化智能体的探索从 90 年代就已经开始。2014 年,联汇科技首席科学家赵天成攻读博士时,已经成功研发了全球第一个多模态智能体平台 DialPort ,让不同高校的智能体(机器人)在一个平台汇集,并让他们一同协作帮助人类完成各种任务。
这些智能体的专业领域各不相同。
例如有些是帮助订餐厅,有些是帮你分析电影,有些是帮你处理文案等等。随着智能程度的不断增加,DialPort 汇集了超过 100 个智能体能力,为超过 100 篇学术研究项目提供了智能体的基础平台,更是影响了包括 AmazonAlexa 在内的众多目前已经成熟的交互智能体的设计思路。
自主智能体的初步探索
那么,什么是自主智能体呢?
联汇科技给出了明确的回答 —— 智能体是能够感知环境、自主决策并且具备短期与长期记忆的计算机模型,它能够模仿人类大脑工作机制,根据任务目标,主动完成任务。
联汇自主智能体包含了 认知、记忆、思考、行动 四大核心能力,作为一种自动、自主的智能体,它以最简单的形式中在循环中运行,每次迭代时,它们都会生成自我导向的指令和操作。因此,它不依赖人类来指导命令,具备高度可扩展性。
自主智能体核心能力
认知 是智能体获取环境信息的过程。将原始数据转化为计算机可以理解和处理的形式,而 人类 80% 的信息输入来自于视觉。
记忆 是智能体存储和提取信息的能力。包括短期记忆和长期记忆,前者用于存储临时的信息,后者用于存储更持久的知识和经验,并最终由记忆在决策和行动中发挥价值。
思考 是智能体对感知和记忆进行分析、推理和决策的过程。使用各种算法和技术来处理感知数据和记忆信息,以生成合理的决策和行动计划。其中, 语言是我们思考的核心逻辑。
行动 是智能体基于感知、记忆和思考结果采取的具体行为。包括控制机制和执行器,用于将决策转化为实际的物理行动或其他形式的输出。
第一批自主智能体是什么
当自主智能体具备了以上 4 类核心能力后,自然而然面向不同行业、不同需求、不同场景的第一批智能体应运而生 —— 视频小欧、文档小欧和 AIGC 小欧。
是的, 联汇首次推出的自主智能体并不止一个,而是一批。
他们能做什么呢?
视频小欧 可以成为新零售场景中的智慧店长。通过与摄像头视觉信息结合,利用欧姆大模型智能识别店内发生的一切,形成机器人记忆,并自主决策提示交互信息。自主关注店内值得关注的事件,在必要时进行提示。通过与机器人对话交互,用户可以随时询问店内发生过的一切,协助店铺的管理运营。
视频小欧成为自主思考的智慧店长
文档小欧 可以成为个人和企业的学习助理。面对电力、石油、医学等行业专业知识学习成本高、查询困难的痛点,文档问答机器人可以将专业知识有效集成到向量数据库,并存储记忆,形成专业机器人,通过多模态内容理解与内容生成,智能回复用户问题,并给出专业的回答。
文档小欧帮助行业小白解决专业问题
AIGC 小欧 可以成为媒体、文化、游戏等行业的剪辑助手。通过 AIGC 实现媒体视频素材的一键成片,针对视频主题,语言模块完成视频内容文案生成,随后拆分为更加细节的视频镜头描述,依托语言理解能力,对素材库视频进行搜索、剪辑和生成,最终大幅降低视频制作门槛。
AIGC 小欧一键成片
现场,联汇科技行嗨发布了基于 OmBot 欧姆智能体与大模型技术的行业级 智慧文旅底座 ,为文旅全行业提供包含元宇宙、AIGC、智慧助手等典型场景快速赋能。
面向行业、企业、个人等不同主体千变万化的需求,OmBot 欧姆智能体将通过高效调教,实现 个性化智能体的快速生成与进化 ,未来的自主智能体,不是一个,也不是一批,而是 “人均” 单位下的应有尽有。
自主智能体会像孙悟空的分身猴毛,有需要就可以快速的实现。
欧姆大模型 3.0 来了!
仔细体验首批自主智能体,不难发现,在应用过程中,认知与思考是自主智能体核心能力的核心。
对于认知与思考的解决方案,联汇依赖的是背后的多模态大模型。
早在 2019 年,联汇科技就与 OpenAI CLIP 模型同期推出了欧姆模型 1.0,实现跨模态搜索,随后的欧姆大模型 2.0,聚焦开放目标识别,实现了从图文检索的到目标理解的跃迁。
目前,联汇科技正式推出欧姆大模型 3.0,直指行 业性能最强、真正落地应用的大模型。
这次的欧姆大模型 3.0 实现了哪些飞跃呢?
OmModel V3 正式发布
开放识别方面,欧姆大模型支持对视觉图像、视频进行 标签全开放识别 。预训练中已经包含了 数十亿 的高质量图文匹配数据,包含大量的环境背景,目标类型,目标属性与行为特征,叠加全图细粒度级别的理解,图文的语义匹配,图文问答等多任务的训练,使欧姆大模型 3.0 具备了 能力涌现 的保障。
欧姆大模型 3.0 不再局限于固定的目标类型清单,而是通过语义理解去理解视觉中的 任意目标 ,甚至是描述的方式去定义目标。
开放识别
视觉问答方面,构建了私有的十亿级媒体数据和物联网数据,包括无人机视角,监控视角等,通过多任务训练,欧姆大模型 3.0 将包括自然语言解析、逻辑推理、图像理解以及自然语言生成等 AI 能力进行深度融合 。将视觉模型和语言模型进行细粒度的对齐,让其可以理解人类指令,并合理作答。
另外,欧姆大模型可以在针对图片进行问答之后进行 多轮对话推理 ,并扩充视觉之外的信息。
视觉问答
认知推理方面,通过不断提升欧模大模型的内容理解与多模态的语义对齐的能力,结合语言模型的能力,欧模大模型能够做到基于视觉认知的推理,并 由此支撑智能体所需要的认知与推理能力。
例如,看到儿童摔倒,模型可以推理要立即检查儿童有没有受伤。看到有小孩在窗边,模型可以提醒要注意儿童的安全。看到瓶子破裂饮料打翻, 模型可以提醒马上清理防止有人滑倒。
在开放识别、视觉问答的基础上,认知推理的能力能够赋能智能体 从被动的识别转为主动推理,进行思考与决策, 并提出相应的智能解决方案。
推理认知
高效微调 方面,针对传统全参数微调消耗大量 GPU 计算与存储资源的情况,联汇从模型训练和模型推理两方面入手,使得欧姆大模型能够好用、易用。
在模型训练上,联汇 自主设计 PEFT 羽量微调技术 ,与标准全参数微调相比,仅微调模型参数的一小部分, 训练参数量小于 1% ,在大幅降低计算和存储成本的同时,实现媲美全参数微调的性能表现。这样的做法能够真实降低大模型的微调训练门槛,快速适配用户长尾场景的训练需求。
训练参数量小于 1%
在模型推理上,联汇 推出针对多模态大模型的推理运行系统 ——Hydra 九头蛇部署架构 ,通过多卡集群部署蛇身,由多个公用的底座模型组成,而各个算法任务只需要部署羽量级的蛇头模型,实现 MaaS 架构。在推理时,蛇头模型可与任意公用蛇身模型结合产生识别结果,且新增算法任务只需增加羽量级蛇头模型。从而实现了 GPU 集群资源的高效利用,并突破算法任务部署显存资源的上限。
Hydra 九头蛇部署架构
作为成熟的大模型,欧姆大模型拥有良好性能的同时,依旧在不断自我进化。联汇研发团队构建了一套完善的 人在环路指令学习进化体系 。
人在环路指令学习进化体系
对于一个迭代升级后的新版本大模型,首先需要经过质量部的锤炼,通过基于内部量化数据集进行能力验证,再配置并测试各种算法任务,确保模型的升级成功。在模型实际部署上线后,持续跟踪算法任务运行情况,记录并反馈模型潜在缺陷和优化点。
数据部据此对新算法任务、长尾场景和模型识别缺陷等关键点,使用完整的数据回流体系进行针对性的数据采集、数据清洗、和指令学习数据集生成等操作。
在指令学习数据集完成累积周期后,算法组将基于质量组的反馈以及数据组采集的数据对欧姆大模型进行新一版本的迭代优化训练,针对性提高模型在业务算法上的能力,增强泛化能力。
基于 由效果评估、升级策略、数据回流、优化升级构成的人在环路指令学习进化体系 ,欧姆大模型可以对底座模型进行有效的指令学习、迭代升级,从而在现有的算法任务上有更好的表现。
这也意味着每隔几个月,欧姆大模型都会 迭代进化得更加强大 。
完善的工具链和工程化框架
成功的大模型在应用层面落地需要与之配套的工具链与工程化框架。
为了帮助用户更好、更快的使用大模型技术与产品,联汇正式发布 欧姆大模型工具软件集合, 用 AI - 原生的思路,重新想象 AI 智能体的开发工具,让开发者可以快速构建未来的爆款智能体!
欧姆大模型应用体系
过去几年间,联汇科技构建了完善的针对视觉理解场景的工具链平台。开发者可以利用自然语言灵活的表述识别需求,OmVision Studio、OmVision OS 等平台与系统,提升算法生产效率的同时,有效降低了人工智能技术的应用门槛,为更多的企业与行业赋能。
OmVision 应用体系
今天,联汇科技 首次发布针对智能体的 OmBot OS 操作系统 。开发者可以基于灵活的模块配置,将多模态大模型、向量数据库、人机交互认知架构进行深度融合,为构建基于多模态数据感知、认知、思考与行动的智能体奠定基础。
OmBot OS 架构
OmBot OS 提供自带的长期记忆模块,同时允许开发者用户编写 主动思考模块与交互响应模块, 支持响应式问答与主动推荐思考的任务场景。同时支持记忆反思模块,模拟人类对于长期记忆的主动压缩与思考过程,从繁杂的原始记忆中抽取出更加高维度的抽象记忆信息,让我们的智能体更加人性化。
OmBot OS 让开发者可以基于灵活的模块配置,将多模态大模型、向量数据库、人机交互等技术进行 深度融合 ,为构建基于多模态数据进行感知、认知、思考与行动的智能体奠定了基础。
以更开放的方式拥抱 AGI 时代
完善的产品矩阵与人在环路指令学习进化体系为联汇科技的 技术生长 打下扎实基础,在此之上的对外开放能力同样令人期待。
联汇首席科学家赵天成博士表示,我们相信在未来,每个人与每一家企业都可以在 AI 的能力加持,具备更好的记忆、认知和决策能力,我们现在的技术方向,就是让机器不断与我们人类对齐,持续进化,最终真正为人类所用。
在这样的过程中,联汇科技始终以用户为中心,不断 进化能力、迭代产品、开放生态 ,推动降低人工智能使用门槛,加速推动普惠 AI 赋能千行百业。
在 AGI 时代来临之际,人工智能的范式变革正在加速,曾经的故事正在成为现实。
关键词: