euris-skill-arena · 部门 Skill 测评 + Leaderboard · 运行时 AgentRun

提交评测

技能 任务

所有评测复用同一个 AgentRun 沙箱;生成与评审是该沙箱上的两个独立 session(隔离的执行上下文 + 各自工作目录)。并发由 ARENA_MAX_CONCURRENCY 控制;提交需 Azure AD token。

Leaderboard

#技能部门综合分客观评委次数

最近提交

#技能任务状态综合分