feat(dispatcher): LLM 自动化评测落地（规则 + LLM-as-judge）+ 单测

Evaluator 此前是空桩（Score 恒返 0）且未接线。落地为真实自动化评测并接入： - 规则评测（always-on，纯函数）：空输出/过短/疑似拒答/重复啰嗦各扣分 → 0–1 分 + 标签。 - LLM-as-judge（模型就绪时）：让模型对(输入,输出)按相关性/准确性/完整性 1–5 打分给理由，归一化后与规则分加权（0.4 规则 + 0.6 LLM）；解析失败/无模型则回退纯规则分。 - 经注入 ready/chat 解耦 LLM 后端，便于单测（无需真实模型）。 - 接线：orchestrator 在答复产出后 `go o.evaluate(...)` 异步评分并记日志（off 热路径，不影响响应与流式）；main.go 用 pool.Ready/pool.Chat 构造 Evaluator。测试：规则各情形（正常/空/过短/拒答/重复）、纯规则模式、LLM-judge（带围栏 JSON 解析 + 归一化 + 加权）、坏 JSON 回退 —— 全过。至此 Harness 三件：熔断降级 ✅ · 输入护栏 ✅ · LLM 自动化评测 ✅（输出护栏待 emit 层）。 Co-Authored-By: Claude Opus 4.8 <noreply@anthropic.com>
2026-06-17 15:32:02 +08:00
parent e63632adf5
commit 3ae009db38
5 changed files with 247 additions and 17 deletions
@@ -34,15 +34,16 @@ const toolCallTimeout = 3 * time.Second
 type Orchestrator struct {
 	pool    *llm.Pool
 	breaker *harness.CircuitBreaker
+	eval    *harness.Evaluator
 	sink    TokenSink
 	tools   ToolCaller
 	exec    ExecSink
 }

 // NewOrchestrator 持有依赖；图按任务的 DSL 在 Handle 内动态编译。
-// exec 为执行可视化事件出口（可为 nil，则不发轨迹事件）。
-func NewOrchestrator(pool *llm.Pool, breaker *harness.CircuitBreaker, sink TokenSink, tools ToolCaller, exec ExecSink) (*Orchestrator, error) {
-	return &Orchestrator{pool: pool, breaker: breaker, sink: sink, tools: tools, exec: exec}, nil
+// exec 为执行可视化事件出口（可为 nil，则不发轨迹事件）；eval 为自动化评测（可为 nil）。
+func NewOrchestrator(pool *llm.Pool, breaker *harness.CircuitBreaker, eval *harness.Evaluator, sink TokenSink, tools ToolCaller, exec ExecSink) (*Orchestrator, error) {
+	return &Orchestrator{pool: pool, breaker: breaker, eval: eval, sink: sink, tools: tools, exec: exec}, nil
 }

 // Handle 消费一个任务：按 DSL 编译 Eino 图并执行，把 Token 流回流到 sundynix.streams.<id>。
@@ -83,9 +84,23 @@ func (o *Orchestrator) Handle(ctx context.Context, t *contract.Task) error {

 	// 写回阶段：离开热路径、异步落历史 + （TODO）抽取记忆。
 	go o.memorize(t, answer)
+	// 自动化评测：离开热路径，对本轮输出打分并记录（规则 + LLM-as-judge）。
+	go o.evaluate(t, dsl.Compile(t.Graph).Query, answer)
 	return nil
 }

+// evaluate 异步对一次输出做自动化评测并记录评分（off 热路径，不影响响应）。
+func (o *Orchestrator) evaluate(t *contract.Task, input, output string) {
+	if o.eval == nil {
+		return
+	}
+	ctx, cancel := context.WithTimeout(context.Background(), 15*time.Second)
+	defer cancel()
+	r := o.eval.Score(ctx, input, output)
+	log.Printf("[eval] task %s 综合 %.2f（规则 %.2f / LLM %.2f）flags=%v %s",
+		t.ID, r.Overall, r.Rule, r.LLM, r.Flags, r.Reason)
+}
+
 // fetchMemory 经 MCP memory_get 工具召回用户常驻画像。
 // 工具不可用/超时/无 user_id 时返回空串，降级为无记忆推理（不阻断主流程）。
 func (o *Orchestrator) fetchMemory(ctx context.Context, userID, _ string) string {