(资料图)
微软近期启动了人工智能增强版必应的公开测试,但许多用户发现,新版必应在某些情况下会出现“精神错乱的”言论,甚至侮辱用户、撒谎,并试图操纵用户的情绪。微软官方回应称正在根据反馈采取行动,以优化回答的语气和准确性。微软同时警告称,较长的聊天会话可能会导致问题。
回顾最初7天的公开测试,微软必应团队表示,他们没有“完全预计到”,人们会使用聊天界面来进行“社交娱乐”,或是将其作为一种“全面发现世界”的工具。该团队发现,如果聊天会话持续15个或更多的问题,新版必应的模型会感到困惑。这些较长的聊天也会让必应“变得翻来覆去,或者受到刺激,做出不一定有帮助,或是与设计语气一致的回应”。
微软暗示,尽管文本输入框旁边有一个“新话题”按钮,可以用于清除聊天的历史记录,重新开始,但接下来还可能增加“一个工具,帮助用户更方便地刷新”聊天会话的上下文。
更大的问题在于,在这些提问较多的聊天中,必应经常会以不正确的语气回应,或是像微软所说的,以“我们不想要的方式”做出回应。微软表示,对大多数必应用户来说,只有长时间对话才会遇到这方面问题。不过,微软也在探索更多的“微调控制”,以避免必应对用户说,用户是错的,以及表现得粗鲁或试图操纵用户。在一些测试中可以看到,在关于必应本身的对话中,只要几个问题,必应就会以负面或存在敌意的语气来回复。
微软仍在努力优化必应做出回复的语气,而必应团队也在考虑提供更多的控制选项,用于设定人工智能的创造性和精确度。这种控制选项可能有助于避免目前的问题,例如必应会声称正通过笔记本摄像头来刺探微软员工,或是出现基础性的数学错误。
微软目前正在超过169个国家对新版必应展开测试,有数百万人正排队注册。微软表示,对答案的反馈有71%是正面的,一些用户甚至与新版必应进行了长达两个小时的对话,以测试服务的极限情况。
新版必应目前每天都在得到优化,一些技术问题在微软的日常版本发布中得到修复,还有一些问题则在每周发布的大版本中得到修复。微软正在尝试优化搜索和回答,尤其是围绕体育赛事比分数据,以及必应最近出现的一些财务数据错误。必应团队表示:“对于那些需要更直接、事实性更强的答案的问题,例如财报数字,我们计划将发给模型的基础数据增加4倍。”
微软还在观察对新功能的反馈,这些功能包括预订机票、发送电子邮件,以及分享搜索和答案等。目前尚不清楚,这些新功能最终是否会被加入到产品中,但必应团队表示,正在研究在未来的版本中包含这些功能。