Pare框架：用"模拟用户"评估主动式AI助手的新方法

08 Apr 2026 — 2 min read

想象一下：你正在开会，手机上的AI助手自动帮你预约了会议室，并给参会人员发了日程确认。

这个AI做的事情，比你吩咐的还多。这就是主动式AI助手（Proactive AI Assistant）。

但问题来了：我们怎么知道它做得对不对？

当前方法把App建模为扁平的"工具调用API"——把Gmail定义为send_email(), read_email()等函数列表。

但真实世界不是这样的。Gmail有状态、有导航逻辑、有上下文依赖。用扁平API模拟真实交互，就像用"城堡模型"理解真实城市一样——丢失了所有结构性信息。

Pare（Proactive Agent Research Environment）的核心创新是：用有限状态机（Finite State Machine）来建模应用程序。

在Pare中，每个应用被建模为：

基于这个框架，研究者构建了Pare-Bench，包含143个多样任务横跨通信、生产力、日程、生活类App，测试4种核心能力：

对AI助手开发者的价值：主动式AI助手面临"没有好的评估方法→不知道模型好不好→不敢部署→没有真实反馈"的死循环。Pare打破了这个循环。

对AI安全的意义：主动式AI的核心风险在于"自作主张"。Pare首次让我们能够系统性地测试AI的主动行为是否合适。

"如何测量"往往比"如何改进"更重要。

没有好的测量方法，你不知道自己的模型到底好不好。Pare为整个主动式AI助手领域提供了一个共同的"测量标准"。