让AI直接操作电脑,完成一次点击需消耗50万个Token
智能体利用计算机视觉来操作个人电脑,它们通常会对桌面进行截图或录制视频,理解它们所“看到”的内容,然后在获得点击、打字和滚动权限的前提下采取相应的行动。
AI 编程初创公司 Reflex 认为,实现这一目标所需的工作量绝非易事。该公司最近发布的研究声称,一个操作浏览器的视觉智能体需要消耗高达 50 万个 Token 才能完成一次下拉菜单的点击。该研究得出结论:使用智能体的成本可能比直接使用 API 高出 45 倍。
该公司已将其基准测试工具发布在 GitHub 上,您可以自行测试其方法,看看是否会得出相同的结果。更强大的 AI 模型最终会降低这些成本。但与使用 API 相比,使用智能体来完成某项任务始终需要经历更多的步骤。
—— The Register
智能体利用计算机视觉来操作个人电脑,它们通常会对桌面进行截图或录制视频,理解它们所“看到”的内容,然后在获得点击、打字和滚动权限的前提下采取相应的行动。
AI 编程初创公司 Reflex 认为,实现这一目标所需的工作量绝非易事。该公司最近发布的研究声称,一个操作浏览器的视觉智能体需要消耗高达 50 万个 Token 才能完成一次下拉菜单的点击。该研究得出结论:使用智能体的成本可能比直接使用 API 高出 45 倍。
该公司已将其基准测试工具发布在 GitHub 上,您可以自行测试其方法,看看是否会得出相同的结果。更强大的 AI 模型最终会降低这些成本。但与使用 API 相比,使用智能体来完成某项任务始终需要经历更多的步骤。
—— The Register
🤡 46 💩 9 ❤️ 4 👍 3 😁 2