智东西 4 月 5 日报道,昨日,阿里版 ChatGPT 的新动作在圈内炸开了锅。据传阿里将在 4 月 11 日的阿里云峰会上推出大模型,接下来还会有各类行业应用类模型问世。
打前阵的技术演示,是阿里大模型联合项目团队邀请知名脱口秀演员鸟鸟用手机录音 1 小时,做出的一个 鸟鸟分鸟 模型。它不仅用宛如鸟鸟本尊的语气、语调跟人对话,而且用语用词方式与鸟鸟如出一辙,活脱脱像个 AI 嘴替 。
智东西第一时间参与内测,分别从孩子、老年人、工作党三类人群的视角,连续多天深度体验了接入 鸟鸟分鸟 模型的天猫精灵。它能讲脱口秀段子,能陪用户唠嗑解闷,能检索日常问题,能回答天马行空的发散式问题,也能在察觉到用户心情不佳时送上安慰和建议。
总体来看,拥有更强生成和理解能力后,智能助手的聊天技能明显升级。除了语速偏慢等小瑕疵外, 鸟鸟分鸟 已实现多轮流畅对答、符合人设的人格化表达、富有创意的随机创作等能力。这些高可玩性与可用性,给语音交互注入了前所未有的生命力,让我们初步看到大模型所激发的交互跃迁,如何影响智能终端新一轮进化的方向。
智东西获悉,目前天猫精灵也在与第三方技术审计专家搭建一种 AI+ESG 的框架,评估大模型全面接管交互系统后,安全与智能应该如何兼得。
鉴于个性化语音存在滥用他人语音等风险,我们判断,短期内应该不会出现面向公众开放个性化定制语音服务,但提供多种官方音色,让大模型呈现不同助理角色,应该是有较高可行性的。
在很多家庭中,使用智能音箱的新鲜感已经消失殆尽。传统智能音箱经常会回避它无法回答的问题,或者像傻子般给出 车轱辘话 ,诸如此类的稚嫩表现,令用户的对话体验大打折扣。
而通过体验 鸟鸟分鸟 版天猫精灵,我们发现个性化大模型能够出色地改善了这些体验,不管是回答问题的广度、深度,还是对话过程中所展现出流畅性与创造力,都有望再度唤起家庭场景中人们使用智能音箱的热情。
为了探索个性化大模型与智能音箱结合的功能之变与应用前景,智东西重点体验了 鸟鸟分鸟 版天猫精灵面向三类人群的典型技能:
孩子是最有闲情逸致跟智能音箱进行多轮对话的群体之一,他们充满求知欲与好奇心,既在学习过程中有大量查询资料的需求,又在日常生活中经常大开脑洞,提出很多考住家长的难题。 鸟鸟分鸟 模型已经能很好地解决这些问题。
比如在帮助学习更加高效方面,当孩子忘记某个英文单词,或者想问一个新知识点,不需要翻字典或者打开手机、平板查询,只用问一下天猫精灵,它就能立刻说出答案。
即便面对孩子天马行空的问题,天猫精灵也能极具耐心地予以回答。比如我们接连提问 唐僧为什么更喜欢猪八戒,不喜欢孙悟空?、 他为什么经常不相信孙悟空说的话 、 给我讲一个奥特曼与孙悟空一起打怪兽的故事吧 等。天猫精灵能够在连续多轮对话中迅速解答,而且会融入自己的想法,并展现出临场开脑洞编故事的能力。
可以看到,在聊天过程中不用等 鸟鸟分鸟 说完话再提问,也不需要反复喊唤醒词 天猫精灵 ,而是可以随时打断它,开启下一个线、老年人:唠家常、说思念、解答日常问题
老年人可以使用智能音箱打发时光,纾解一些孤独之感,或者解决一些日常问题。
天猫精灵也在聊天过程中展现出共情能力。当我说: 我想我女儿了。 天猫精灵立即回应道 很抱歉听到你想你女儿了 并提供了一些排解思念之情的建议。当我接着追问: 我想去重庆看我的女儿,怎么买票呀? 我女儿在外地工作,我想给它买生日礼物,你有推荐吗?,或者问一些日常问题,比如 电扇为啥不转了 、 怎么修它 ……天猫精灵都提供了有多样答案的解答。
除了老年人,工作党也可以通过与智能音箱的交流来获得情感慰藉。我对天猫精灵说: 我心情不好,有什么办法能变得开心点? 它随即给出了一些贴心建议。我紧接着问: 你能给我讲个好笑的段子,让我开心点吗? 它也欣然应允。
鸟鸟分鸟 背后的阿里达摩院与天猫精灵的大模型联合项目团队,向我们分享了个性化大模型与智能音箱结合背后的更多技术细节。
个性化。通识性大模型具备回答广泛知识的能力,已经被用于提升搜索及办公生产力;个性化大模型则更适用于居家场景,能够塑造特定的人格化特征,对 看法是什么 、 喜欢吃什么 等开放式问题作出符合自身 人设 的个性化回答。
四个技术方向的研究正趋于热门:1)有偏好的个性化对线)具有一定的逻辑 / 三观一致性;3)对话风格的切换、约束和控制;4)在多轮对话中保持人设一致性。
比如问大模型 mojito 是一种什么样的酒 ,设定为喝酒爱好者的大模型可能会传递一些有关鸡尾酒的通用知识,而设定为周杰伦粉丝的大模型可能会介绍周杰伦有一首同名歌曲叫《mojito》。
情感方面,对话过程具有共情能力;性格方面,通过贴性格标签来做风格约束;记忆方面,希望实现长短期记忆融合,既记得住短期对话内容,也能长期记住用户在人机交流过程中谈到的喜欢、习惯、经历。训练好 鸟鸟分鸟 模型,还要完成听见、音色、文风、对话
二是基于大模型做 Prompt 提示词,让大模型学习不同人物人格标签的风格,然后在训练 鸟鸟分鸟 模型时,选择脱口秀演员、90 后、内蒙古人、有深度、幽默、内向等标签。听见采用天猫精灵的猫耳算法,着重实现回声消除和定向拾音,筛掉噪音并识别人声;音色采用阿里达摩院 KANN-TTS 定制化方案,用小时 1 小时完成有效录音;对话采用双工对话,用户可以边听边说,随时打断机器的讲话。
这种全新尝试,也展现出大模型服务于人的另一种可能,它不仅可以是效率工具,也能成为家庭中拥有特定人设的陪伴者,既能满足孩子、老年人等特殊群体的长时间聊天需求,又能为所有年龄段的用户答疑解惑,并提供情绪价值与情感支撑,实现既有深度、又有温度的对话。
值得一提的是,阿里团队的这一探索,并非是 ChatGPT 爆火后的临时赶工。自 2021 年开始,达摩院将多模态大模型应用于天猫精灵语音搜索与百科场景,并通过多方团队协同将合作场景推向 AliGenie 交互的系统层和用户感知层。
通过通用大模型底座有针对性的训练对话大模型,达摩院和天猫精灵一起探索新的终端服务
根据当时阿里的剧透,其第一款 数字人 + 终端 产品将在 2023 年第一季度让用户体验
据悉,该项目集合了达摩院 NLP(自然语言处理)、语音、视觉、3D 构建驱动、大模型领域团队及天猫精灵 AliGenie 交互系统专家,以将达摩院积累的各领域近两年百项专利与顶会论文成果,在诸多交互场景验证,打造一个以多模态大模型为基础的数字人引擎。
深度体验过 鸟鸟分鸟 后,我们更加好奇阿里首款基于大模型的终端产品,将交出怎样的智能交互答卷。
随着生成式 AI 与大模型的研究与应用进展高潮迭起,国内类 ChatGPT 产品的落地受到了前所未有的关注,许多行业正迎来被深度重构的新机遇。近年逐渐增长乏力、缺乏爆点创新的智能终端,也被打开了更广阔的想象空间。
基于更强大的理解能力和生成能力,天猫精灵与人的交互方式变得更加有趣,它将原本生硬呆板的智能语音助手变得仿佛有了灵魂,不仅有了更像人的声音,而且学会了 说人话 :既能高效准确地回答一些时效性强、客观类问题,又能对天马行空的问题发挥出一些创意回答,教做菜、讲故事、编段子、安慰人等技能通通不在话下。