比较ChatGPT和Google搜索在性能和用户体验方面的表现
比较ChatGPT和Google搜索在性能和用户体验方面的表现

比较ChatGPT和Google搜索在性能和用户体验方面的表现

聊天机器人(如ChatGPT)已经在补充甚至替代传统搜索引擎的作用。最近的一项研究试图更深入地比较它们在效率和质量方面的差异。

一项最近的研究比较了ChatGPT和谷歌搜索在搜索性能和用户体验方面的表现。这项研究由来自美国和香港的研究人员进行,结果显示ChatGPT用户完成任务所花费的时间更短,而且他们对所获得的信息质量评价更高。该研究还指出了ChatGPT在事实核查任务中的不足之处。

虽然这项研究符合科学标准,但其有效性受到参与者数量相对较少(95人)的限制。参与者被随机分配到ChatGPT组或谷歌组,并完成了有关工具的易用性、有用性、乐趣和满意度的问卷调查。该调查完全在线上进行。

· 在任务1中,参与者被要求查找第一位太空女性的姓名和年龄。

· 在任务2中,参与者被要求列出五个可用于预订美国凤凰城和辛辛那提之间航班的URL链接。

· 在任务3中,参与者被要求阅读一篇新闻文章的摘录,并核查其中三个突出的陈述是否属实。

ChatGPT用户组平均花费11分21秒完成这三个任务,而谷歌搜索用户组花费的时间明显更长,达到了18分45秒。参与者自报了每个任务所花费的时间。

研究人员将这种差异归因于谷歌搜索要求用户多次提出查询问题。这是一个反复试错的过程才能获得结果。而ChatGPT则允许用户用自然语言提问,而摘要回答则消除了进一步阅读的需要。

相反,两组参与者在三个任务中所需的输入数量相似,但对于ChatGPT而言,输入内容较长。在涉及查找具体信息的第一个任务(第一位太空女性的姓名和年龄)中,ChatGPT具有最大的速度优势。

在搜索性能方面,即答案的准确性,研究人员每个任务最多给予十分。在这方面,ChatGPT得分为8.55,谷歌得分为8.77,两者之间差异不大,差异在统计学上可以忽略。但这也意味着谷歌用户需要花费更长的时间才能获得类似的质量。

在不同任务之间有时会出现显著差异。例如,在任务1中,研究人员发现所有参与者在ChatGPT上得分满分,表明ChatGPT在查找事实方面非常有效。而谷歌用户在这里犯了几个错误,平均得分仅为8.19。

对于第二个任务(航班预订网站),两组的得分都接近最高分。谷歌似乎稍微更有帮助,将用户引导到了辛辛那提和凤凰城之间的航班页面,而ChatGPT只将用户引导到了一般的预订页面。

相比之下,在第三个任务(事实核查新闻报道)上,ChatGPT组的表现明显较差(得分为5.83),而谷歌搜索组的表现较好(得分为8.37)。ChatGPT提示的措辞有所影响:当被要求判断一个陈述的真实性时,ChatGPT的回答不准确。然而,当被具体问及信息的准确性时,答案是正确的。

当然,由于样本量非常小,这并没有什么代表性,研究人员认为用户对ChatGPT的信心可能是真正的问题:“参与者在使用ChatGPT时常常表现出缺乏细致的态度,不太愿意进一步验证和纠正其回答中的错误信息。根据我们的观察,ChatGPT组中70.8%的参与者在回答第一个陈述时过度依赖ChatGPT的回答,回答为“真实”。”

ChatGPT 在质量上具有优势,对两种工具的信任是平等的

ChatGPT组对答案的质量评价高于谷歌搜索组(分别为5.90和4.62)。这很可能是因为ChatGPT以完整的陈述形式提供更易理解的信息。对于两种技术,用户对其信心水平基本相同。

在教育背景方面,研究人员发现ChatGPT的参与者之间没有差异,但受过高等教育的用户在使用谷歌时表现出更高的能力。

参与者倾向于接受两种工具提供的回答,并且缺乏对信息来源的质疑倾向。虽然参与者对两种工具的使用都表现出相似的信任水平,但谷歌搜索用户可能需要付出更多的努力和额外的时间来浏览网页以找到相关信息。因此,他们对所感知的信息质量较低。

相比之下,ChatGPT的便利性可能会让参与者不再进一步探索和验证其回答中的信息,导致在事实核查任务中表现不佳。此外,与谷歌搜索组相比,ChatGPT组的参与者认为该工具更有用、更有乐趣,并且对该工具表示更高的满意度。

ChatGPT组的使用便捷性相对较高,但在5%的显著性水平上差异并不显著。这可能是因为人们已经熟悉使用谷歌,而我们实验中的任务对他们来说可能没有构成重大挑战。

谷歌的搜索生成体验可能会提供两全其美的体验

研究结果并不令人意外。对于具体信息(任务1),ChatGPT以更简洁的方式进行摘要,这比打开个别页面更快。

另一方面,对于实时服务(例如预订航班,任务2),谷歌通过深层链接提供更精确的结果。

OpenAI反复强调用户不应依赖ChatGPT的事实核查功能,任务3的结果似乎支持这一观点。然而,只检查了一个案例,并且还受到提示的影响,因此结果只是个别案例,并不具有代表性。

大型语言模型正在被讨论作为传统网络搜索的可能替代方案。谷歌通过其基于人工智能的搜索原型——Search Generative Experience,目前正在展示生成式人工智能在某些搜索任务中的优势,超过了仅仅在网页上链接到其他页面的传统搜索方式。

谷歌已经将聊天式搜索(对问题和查询提供直接、个别的答案)和经典搜索(将实时服务整合到人工智能答案中,提供最新的信息)的优势结合在一起。OpenAI正在尝试通过ChatGPT插件提供类似的服务,但在技术实现和整体用户体验方面仍有所欠缺。