Name: PhoenixEvalsAI评估构建Skill
Rating: 5 (1 reviews)
Author: Arize

名称: phoenix-evals 描述: 使用Phoenix构建和运行AI/LLM应用程序的评估器。许可证: Apache-2.0 元数据: 作者: oss@arize.com 版本: “1.0.0” 语言: Python, TypeScript

Phoenix 评估

为AI/LLM应用程序构建评估器。代码优先，LLM用于细节，以人类验证。

任务	文件
设置	`setup-python`, `setup-typescript`
决定评估什么	`evaluators-overview`
选择评判模型	`fundamentals-model-selection`
使用预建评估器	`evaluators-pre-built`
构建代码评估器	`evaluators-code-{python\|typescript}`
构建LLM评估器	`evaluators-llm-{python\|typescript}`, `evaluators-custom-templates`
批量评估DataFrame	`evaluate-dataframe-python`
运行实验	`experiments-running-{python\|typescript}`
创建数据集	`experiments-datasets-{python\|typescript}`
生成合成数据	`experiments-synthetic-{python\|typescript}`
验证评估器准确性	`validation`, `validation-evaluators-{python\|typescript}`
采样跟踪进行审查	`observe-sampling-{python\|typescript}`
分析错误	`error-analysis`, `error-analysis-multi-turn`, `axial-coding`
RAG评估	`evaluators-rag`
避免常见错误	`common-mistakes-python`, `fundamentals-anti-patterns`
生产	`production-overview`, `production-guardrails`, `production-continuous`

从零开始： observe-tracing-setup → error-analysis → axial-coding → evaluators-overview

构建评估器： fundamentals → common-mistakes-python → evaluators-{code\|llm}-{python\|typescript} → validation-evaluators-{python\|typescript}

RAG系统： evaluators-rag → evaluators-code-* (检索) → evaluators-llm-* (忠实度)

生产： production-overview → production-guardrails → production-continuous