AI 产品的五种交互模式

2024-09-25 09:03 栏目: 技术学堂 查看()

一、历史

回顾计算机交互的演变历程,经历了批处理—命令行式交互—图形界面交互,AI 的出现带来了自然语言交互,基于人类的意图完成输出。

早期的批处理系统古朴且笨拙,交互依靠的是穿孔卡片——一种编码数据和指令的媒介。用户将一系列任务预先编码到这些卡片上,然后将它们交给数据中心。这里的计算机巨大如房间,它们不断地读取这些卡片,执行上面的命令。

需要排队等待一夜才能知道程序是否完成运行。即便如此,也能帮助科学家和工程师们执行复杂的计算任务,如天气预报的模拟、工程问题的数值分析,甚至是太空探索任务的轨道计算。

现在,在需要处理大规模数据集,如日志分析、金融交易记录或大量的用户行为数据时,批处理仍然是一个有效的方法。

后来,分时系统的出现,让 CPU 可分配使用,提高了利用率,计算机可以根据命令对用户的每一个输入给出反馈。这种基于命令的交互,让用户可以控制计算机来执行任务,逐步解决问题。

但仍需要学习大量的指令,体验并不友好,不过至少让人感觉在和机器建立连接。

至今, Linux、Mac、windows 系统中的命令行仍然存在,是程序员们与计算机底层交互的常见方式。

image.png 

GUI 的出现彻底改变了规则,计算机不再只是枯燥的命令行,而是充满了窗口、图标和鼠标点击的界面。这种所见即所得的革新,让 word 、Excel 这样的效率工具出现,完全革命了人们的办公方式,浏览器出现,则成为了互联网的开端。

等智能手机普及后,GUI不再局限于笨重的桌面电脑。现在,一个小小的触屏设备就能完成从购物到预定机票,从社交到远程工作的各种任务。

AI驱动的界面开始融入我们的生活,我们又站在了另一个交互革命的前沿,AI该如何改变软件,又怎样影响人们的生活。

二、基于意图的交互

现在只要你有问题,AI就能给你答案。

想要一幅太空宇航员的画作?不必亲自动手,AI可以根据你的描述生成几个选项供你选择。让我们的交流更直接,更本质,不再是命令和代码,而是愿望和创意的直接表达。

当移动互联网出现时,有人说所有的应用都值得用 APP 再做一遍,事实也确实如此。

那么所有的产品都值得用 AI 做一遍吗?如果是的话,该怎么做呢?

先来看看大模型厂商的答案:

OpenAI 作为生成式 AI 的破局者,提供面向C端的 ChatGPT 对话助手,和面向开发者的模型 API 调用,前者通过每月20美元的订阅模式,占到了总营收34 亿美元的 80%。

移动互联网时代有 APP,浏览器有插件,微信有小程序,它们都是依托于一个平台生态衍生出全新的软件交互和商业模式。

一个平台级的产品,必然拥有有良好的生态,用户因为找到合适的应用而付费、开发者因为有用户使用而入局、平台因为有持续增长而不断改善,机构、企业、组织陆续加入,广告、娱乐、购物统统改变。

OpenAI 也看到了这条路,并且也在这么做。

OpenAI 在去年先后推出了 GPT 插件,和GPTs,通过封装知识库和 Prompt 可以定制对话机器人,这样就能把 AI 的能力应用在垂直领域的。

解决更多用户问题,奥特曼也说通过佣金分成方式吸引开发者,从而建立起平台的生态。

在推出之际,就被行业内认为可以颠覆 PC、移动端操作系统。

现在一年过去,国内的大模型厂商也在推出类似GPTs 的功能——被大家称作 Agent 智能体。豆包、文心一言和 GPT 一样,允许用户创作Agent 并发布到广场。Kimi 就0比较保守了,只是官方推出不允许用户创作。

不管怎么做,Agent 是有它的应用场景在的,不用每次都去输 Prompt 了,用户进入平台也能快速找到适用于自己的 Agent,但是它难以撼动操作系统,也难以成为平台级产品。

不论是用户创建的 Agent 还是官方推出 Agent,活跃度和创建数都在下降,用户用不起来,开发者也不愿意进来,平台在严格选择 Agent 的展示。

我们大可以想象未来 OpenAI 能够打造一个平台级产品,完全颠覆软件的交互和商业模式。

但目前来看,有苗头却看不到前景,因为传统应用的生命力太旺盛,而且他们也在融入 AI 的能力。

这些应用运行在windows、MacOS 、安卓和IOS,网页以及浏览器插件等。要么是传统应用+AI,要么是依托于AI而生的应用。

下面我就通过例子,来说明下 AI 在应用中的五种交互:

1. 辅助回答型:集成在应用中的AI,能够根据用户的直接输入提供即时帮助和信息,如回答问题或提供具体操作的指导。

2. 主任务驱动型:AI直接融入应用的核心功能,通过用户的常规操作触发,帮助优化和执行主要的业务或工作任务。

3. 自动生成型:AI根据由其他任务触发而接收给定的输入自动生成内容,如给文章自动总结、打标签。

4. 隐藏型:AI隐秘地工作,用户通常意识不到其存在,自动执行背后的优化和功能增强,如推荐系统或内容过滤。

5. 工作流自动化:AI被集成到低代码工作流中,自动化处理输入和输出

image.png 

1. 辅助回答型

在主应用界面,通过右侧面板或者弹窗内置一个对话框 ,在想用的时候就唤起,这种简单有效的方式是大部分应用采用的做法。

比如,现在使用微软Office或Google Docs处理文档时,遇到了表达或语法的困难。这时候,AI辅助回答框就是一个随时待命的助手,你可以随时向它提问或请求帮助。它能即时为你提供写作建议,还能帮你纠正错误。

好处在于你几乎感觉不到它的存在。缺点就是每次都要复制内容,思考问题才能完成输入,这和在网页端使用GPT有什么区别的,看似融入AI,如果模型能力不够垂直或强大,这样的融合意义不大。

image.png

2. 主任务驱动型

我一直认为Notion的做法非常的巧妙,23年初就已经融入AI, 成为了文档类产品的交互设计的典范,当你在创作的过程中,在Notion的page里编辑你的bolok ,给AI 输入的内容可以是你现在所写的东西,AI输出的答案也会呈现也在当前的page中。

它很好的处理了AI打断任务的影响,我会为这样的便利而付费,即使模型的输出能力比不上GPT4。

image.png 

它的优势就是体验更加流畅,但它也会增加系统的复杂性,如果集成一个生成质量或性能的模型,这样做无疑带来很大风险。

3. 自动生成型

通过我们在使用软件过程中的任务,自动触发AI的能力,不同于主任务驱动型,自动生成不需要用户输入问题或指令,它能够根据用户当前的任务触发AI的使用,自动生成内容。

比如:Arc浏览器中,当用户创建新的浏览器标签时,AI自动分析页面内容并生成相关描述性强的标签名称,帮助用户更容易识别和管理开启的多个标签页。

再比如:Notion的database中,用户可以定义一个表头字段为AI生成类型,如标签(AI ),那么在创建一条记录时,这个标签会根据主内容自动生成。

这种结合方式,我想象不到什么缺点,很多场景都有待使用这种方式改善,比如文件夹、笔记的命名管理。
image.png

4. 隐藏式

AI 的能力早已隐藏在我们使用的数码产品中,以至于我们感受不到它的存在,在使用手机拍照的时候,手机识别不同的景色、光线来优化照片的拍摄效果,在相册搜索关键词,比如猫,就能搜到所有和猫相关的照片;Siri 会根据你的日常查询和命令优化其响应。这些背后都是算法的能力。

当然,今天提到的GenAI也有很多隐藏式的,iOS最新的Apple Inteligence,CEO 蒂姆库克强调苹果的AI助手在设计上对于用户来说更加“自然”,不张扬但又无处不在。例如在文本辅助生成环节,Apple Intelligence建议回复的内容文本直接呈现在输入法内部;在归纳总结文档时,交互按键也很好的被设计并且集成在界面的侧边位置。
image.png

5. 工作流自动化

如果你手头上有成堆的进度报告和计划调整需求。通常这种情况下,你可能需要花费大量时间在手动分析和整理数据上,但有了AI,你就可以把数据发给它做总结分析。

不过这样,还不够理想,假如你想指定某一行去分析,并且将分析结果写入表格,GPT就不可能实现了,必须要借助工具去搭建一个工作流,这样你不仅可以在任务中自动使用AI的能力,还能批量去处理相同的任务。

这本质上是低代码工具+AI,大模型厂商都在售卖自家的模型API,通过API接入到低代码工作流中。

低代码比如苹果的快捷指令,Dify、n8n、zaiper、集简云等等,通过拖放界面设计工作流,集成大模型的API后,AI在背后帮助自动化数据处理和决策逻辑。
image.png

这种交互方式不同于Agent,它具备更高的灵活性,和更强的能力,感兴趣的可以动手实践。

今天了解这些多少能帮你在使用 AI 产品时有个方法论,目前的交互再怎么花哨也逃不出这几种。最后再来给这五种交互方式做一个简单的总结:
image.png

移动互联网发展依托于手机这一硬件,经历了工具产品,娱乐社交产品,购物生活产品,最后到 ToB 产品的演变,AI 和那个时代已经不同,没有成熟的硬件,技术栈也不同。

但相同的的是,都是在早期出现大量的工具产品,因为工具产品场景足够明确。

未来,娱乐类,社交类,购物类如何发展,我们拭目以待。

扫二维码与商务沟通

我们在微信上24小时期待你的声音

解答本文疑问/技术咨询/运营咨询/技术建议/互联网交流

郑重申明:小伙伴科技以外的任何非授权单位或个人,不得使用我公司案例作为工作成功展示!