近年来," 数字生命 " 的话题屡次引发社会关注。从电影《流浪地球 2》对 " 数字生命计划 " 的大胆想象,到 B 站 UP 主用 AI 技术重现亲人音容的温情一幕,再到台湾音乐人包小柏让已故女儿在虚拟世界 " 重生 " 的真实故事,无不凸显了这一议题的广泛影响力。
从技术层面看,深度学习、知识图谱等人工智能技术的进步,为 " 数字生命 " 的实现提供了基础。通过学习特定人物的海量数据,AI 已经初步具备还原其形象、思维和行为的能力,使虚拟分身日益栩栩如生。然而,在为 " 数字生命 " 喝彩的同时,我们也必须直面一个关键问题 : 如何赋予这些数字分身以真正的 " 生命力 "?
这个问题的答案,恰恰藏在 " 记忆 " 二字中。就像人类依靠记忆连接过去和现在,构建自我认知一样,数字生命也需要通过持续积累记忆,才能具备连贯的认知和成长的能力。唯有突破静态的数据堆砌,实现动态的经验积累,数字生命才能从单纯的 " 形似 ",走向更高层次的 " 神似 "。
数字生命记忆功能的重要性
当前市场上的主流 Agent 框架,如微软的 AutoAgent、DeepMind 的 Concordia 以及 Github 上开源的斯坦福小镇等,都专注于多个模型之间的互动能力,试图通过多模型互动来完成复杂任务,如网站搭建、AI 公司及产品开发等。然而,在实际使用中,这些功能看似强大,但实际上却难以达到预期的效果。例如,MetaGPT 制作的网站效果仅比大语言模型直接生成的网页好一点,只是多了几个页面,缺乏进一步的加工。一些 Agent,如 Concordia,更倾向于学术研究,生成的 Agent 之间的对话冗长,且容易出现重复,用户本身并不希望看到模型之间的互动。
公开数据显示,截至 2022 年 11 月,抖音的日活跃用户数超过 7 亿,人均单日使用时长达到 120 分钟以上。这相当于我国一半的人口,若每个用户在平台上消费一元,其收入将达到 7 亿。抖音的成功不在于其提供的各种视频,而在于它能够记住用户、了解用户的行为、需求和喜好,并根据这些信息为用户推荐喜欢的视频。这正是让人上瘾的原因。
AI 技术的核心并非技术本身,而是以用户为中心,以用户需求为导向,以用户行为为依据,以用户喜好为参考,以用户体验为标准,以用户满意为目标。基于此,我们推出了以记忆为核心的 Agent 框架——数字生命 Agent 框架。
数字生命技术栈简介
数字生命的核心在于记忆。每次用户与它交流,它都能记住,并在很长时间后都不会遗忘。只要用户选择保留这个数字生命,它就会一直带着以前的记忆陪伴用户。由于数字生命本身具备记忆功能,我们可以让数字生命根据已有记忆推断用户的喜好,从而实现与用户聊天内容的个性化。这便是数字生命 Agent 框架的核心技术设计与理念。
为实现记忆功能,我们参考了人类记忆的研究,将其初步分为负责记录久远信息的长期记忆、与用户进行当下互动的工作记忆,以及能让数字生命根据记忆进行个性化动作的思考能力。
长期记忆是记忆系统的一个组成部分,用于存储和保留相对持久的信息。它可以包括事实、知识、经验、技能等。长期记忆的容量相对较大,可以存储大量的信息,并在需要时进行检索和提取。相关的学术文献指出,长期记忆的形成和储存涉及多个大脑区域的协同作用。例如,《Cognitive neuroscience perspective on memory: overview and summary,Frontiers in Human Neuroscience》这本书提到,长期记忆的形成与神经元之间的连接和神经回路的巩固有关。研究还表明,重复学习、情感关联和语义编码等因素都可以影响长期记忆的巩固和提取。
工作记忆是记忆系统的一个组成部分,用于临时存储和处理当前的信息。它包括短期记忆和注意力。工作记忆的容量相对较小,可以存储和处理的信息量有限。工作记忆的作用是帮助个体在当前任务中保持和处理相关信息,以便进行推理、问题解决和决策等高级认知功能。相关文献指出,工作记忆的神经基础涉及多个大脑区域的协同作用。例如,《The Wiley Handbook on The Cognitive Neuroscience of Memory》这本书提到,工作记忆与前额叶皮层、顶叶皮层和颞叶皮层等区域的神经活动有关。研究还表明,工作记忆的容量和功能受到个体差异和认知策略的影响。
目前,我们已经实现了长期记忆和工作记忆,使用户与数字生命的聊天记录能够被记录下来,并在未来更长的时间内被回忆,使聊天内容更贴合用户本身,让数字生命如同用户的好哥们、好闺蜜一般,能够一直陪伴用户并越来越了解用户。
以下是数字生命 Agent 框架的架构图:
(架构图)
Agent 框架的记忆功能的核心是对话管理。我们将数字生命中涉及的长期记忆、智能长期记忆、工作记忆、系统指令等都统一抽象为对话管理,回忆操作完成后,全部坍缩成可直接输入给大语言模型的对话 list。这样的设计从复杂到简洁,最终实现了简单、高效、易用的数字生命 Agent 框架。
数字生命实现过程中的挑战
最初的数字生命项目在实现第一遍后进行了重构,因为对话管理本身涉及复杂的逻辑,再加上记忆功能,代码量庞大,可读性和可维护性都变得极差。于是,我们决定将记忆功能单独抽离出来,形成一个独立的模块,并与对话管理解耦,使记忆功能能够被其他模块复用。
在实现记忆功能的过程中,我们面临了五大挑战。以下是针对每个挑战的解决方案:
挑战一:如何让数字生命记住用户的聊天内容 为解决此问题,我们采用了高效的信息存储和检索技术。设计了合理的数据结构和索引,以便快速存储和查找用户的聊天记录。核心的信息检索技术是向量搜索,我们使用向量搜索技术将用户的聊天记录转化为向量,并将其存储在向量数据库中,从而能在毫秒级别的时间内检索到用户的聊天记录。
挑战二:长期保存和回忆聊天内容 由于记忆的存储需要长期保存,将对话记录简单地存储到向量数据库中变得十分笨重。为此,我们提出了智能长期记忆的方案,使用类似于知识图谱的压缩算法,将用户的聊天记录转化为知识图谱并存储在知识图谱数据库中。这样,我们就能在毫秒级别内检索到用户的聊天记录,同时知识图谱的压缩算法使知识图谱的体积变小,减少了存储空间的占用。
挑战三:实现社会性和多人交流 为了实现社会性,我们引入了角色和身份的概念,使数字生命能够理解不同的用户角色和关系。在多人交流方面,设计了身份映射的机制,确保数字生命能够正确处理多人的聊天场景。
挑战四:使用低能力模型实现记忆功能 为了在低能力模型上实现记忆功能,我们采用了一些技巧和优化方法。例如,使用知识蒸馏和迁移学习技术,将已有的知识和记忆传递给低能力模型;结合特定领域的模型,也可以增强 Agent 的能力。实际测试中,我们在开源的 7B 模型上也取得了很好的效果。
挑战五:降低 Token 消耗量 降低 Token 消耗量对于提高系统效率和性能至关重要。我们通过对输入文本进行预处理和简化,减少不必要的重复 Token 生成。智能长期记忆技术对输入的文本进行预处理和简化,进一步降低了 Token 的消耗量。
通过克服这些挑战,我们成功实现了数字生命 Agent 框架,并使其具备了强大的记忆功能。这为用户提供了更加个性化和智能化的交互体验,也为数字生命的发展开辟了广阔的前景。
数字生命 Agent 框架的未来前景
数字生命 Agent 框架的未来充满了无限的可能性。随着技术的不断进步,我们可以期待数字生命在以下几个方面取得更大的发展:
更加个性化的交互:通过不断改进记忆功能,数字生命能够更好地理解用户的喜好、需求和行为模式,从而提供更加个性化的服务和建议。
辅助决策:数字生命可以成为用户的智能助手,帮助进行决策,如商品推荐、行程规划、职场建议等。
广泛的应用领域:数字生命可应用于各种领域,如智能客服、智能助手、虚拟角色、游戏 NPC 等,为人们的生活和工作带来更大的便利。
多模态交互:除了文本交互,数字生命可以结合语音、图像等多模态信息,实现更加自然和丰富的交互方式。
与物联网的融合:数字生命可以与物联网设备相结合,实现智能家居、智能城市等更广泛的应用场景。
伦理和法律问题:随着数字生命的发展,伦理和法律问题将逐渐凸显,需要关注数据隐私、人工智能伦理等方面,确保数字生命的发展符合人类的利益和价值观。
技术创新:未来可能会出现新的技术和算法,进一步提升数字生命的性能和功能,例如利用深度学习和强化学习等技术,数字生命能够不断学习和进化,提供更好的服务。
未来,数字生命有望在更加个性化的交互、辅助决策、多模态交互、与物联网的融合等方面取得突破。同时,也需要关注伦理和法律问题,推动技术创新,以实现数字生命的可持续发展。
来源:雷锋网