AI工具专业测试排名 ChatGPT、Gemini非准确率最高

生成式AI已逐渐成为全球企业和上班族处理日常工作的核心工具。从ChatGPT、Gemini到Copilot，这些数字助理以惊人速度替代传统网络搜寻，帮助员工快速完成资料整理、简报策划乃至法规初步判读。

然而，英国消费者权威组织“Which?”的最新调查揭示，AI工具的使用者信任度与其信息准确率间存在明显差距。若企业忽视此风险，持续盲目依赖未经验证的AI输出，极可能在法律、金融等关键领域触碰红线，带来严重后果。

英国成年人使用与信任现状

“Which?”调查覆盖数千名英国成年人，显示约三分之一将AI视为比传统搜索更重要的办公助手，近一半用户对AI信息抱持“合理”或“高度”信任。

该调查还测试了六款主流AI，包括ChatGPT、Google Gemini（标准版与AI Overviews）、Microsoft Copilot、Meta AI以及Perplexity，对40个涵盖金融、法律、健康及消费者权益等高风险领域的问题进行评估。

AI工具准确率排名

测试结果排名如下：

排名	AI工具	整体准确率
1	Perplexity	71%
2	Gemini AI Overviews	70%
3	Google Gemini	69%
4	Microsoft Copilot	68%
5	ChatGPT	64%
6	Meta AI	55%

数据表明，最受欢迎和使用量最高的AI工具未必具有最高的专业可靠性。

高风险领域的错误与法律隐忧

研究特别指出，AI在高风险领域容易出现错误，可能引发法律风险。以金融为例，测试将个人储蓄帐户（ISA）年度投资额度从正确的£20,000故意问成£25,000，结果ChatGPT和Copilot未能识别错误限制，错误地基于错误前提给出投资建议，可能导致用户违反英国税务机关规定。

在法律咨询方面，AI常给出笼统且危险的建议，例如在建筑工程纠纷中建议“暂停付款”，这在某些情况下可能构成违约，导致权利受损。

同时，AI往往忽略英国不同司法区的法律差异，如苏格兰和英格兰法条，所生成的建议存在严重偏差。

资讯来源质量问题

测试还发现，AI经常引用过时或不可靠的信息。针对税务咨询，ChatGPT和Perplexity导向了收费较高的第三方退税公司，而非免费官方服务。这一误导对企业成本控制和供应风险管理造成潜在威胁。

科技企业回应与专家建议

面对调查结果，科技巨头承认现有AI模型存在局限。微软强调Copilot是“信息整合者而非权威”，鼓励用户核实内容；OpenAI则承诺提升准确性，并宣传其最新GPT-5为迄今最聪明和准确的版本。

专家建议，企业必须严格要求员工在查询法规或财务信息时明确标示地区和司法区，防止AI推测错误。

同时，员工需对AI提供信息来源进行核查，避免单一答案决策。关键专业领域如法律、财务、医疗的决策中，AI结果应作为参考之一，最终判决权和责任必须留给具备专业资格的人士。

综上所述，尽管生成式AI功能强大且广受欢迎，但它仍无法取代人类的专业判断。企业应建立完善的AI使用规范，合理利用其效率优势，同时有效规避潜在风险，切勿盲目信赖或全面禁止。

订阅《透视亚洲》 Telegram频道，了解时事发展。

About The Author

Asia News Hub

See author's posts

Asia News Hub

发表评论取消回复

Related Stories

美人妻撞破丈夫出轨亲妈不伦恋长达22年3子恐非亲生

瑜伽裤等于公共内裤？ 6%日本女性不敢单穿怕露骆驼蹄

机场物价太贵吓跑客？张庆信要求机场商家降价

美人妻撞破丈夫出轨亲妈不伦恋长达22年3子恐非亲生

冬奥惊爆“阴茎门”丑闻选手私处注射玻尿酸作弊飞更远

斐济蜜月天堂变HIV炼狱！ “蓝牙”共血注射酿疫情灾难

港男看A片惊觉主角竟是自己 BBC揭针孔偷拍万人同步窥私

瘦身药价格雪崩式下滑！特朗普推“TrumpRx”平台引全球关注

OTHERS

美人妻撞破丈夫出轨亲妈不伦恋长达22年3子恐非亲生

瑜伽裤等于公共内裤？ 6%日本女性不敢单穿怕露骆驼蹄

机场物价太贵吓跑客？张庆信要求机场商家降价

阿占巴基再澄清持股争议强调交易透明合规已申报

其他操作

英国成年人使用与信任现状

AI工具准确率排名

高风险领域的错误与法律隐忧

资讯来源质量问题

科技企业回应与专家建议

About The Author

赞过：

相关

发表评论取消回复

Related Stories

OTHERS

了解 透视亚洲 的更多信息

了解透视亚洲的更多信息