名称: phoenix-evals 描述: 使用Phoenix构建和运行AI/LLM应用程序的评估器。 许可证: Apache-2.0 元数据: 作者: oss@arize.com 版本: “1.0.0” 语言: Python, TypeScript
Phoenix 评估
为AI/LLM应用程序构建评估器。代码优先,LLM用于细节,以人类验证。
快速参考
| 任务 | 文件 |
|---|---|
| 设置 | setup-python, setup-typescript |
| 决定评估什么 | evaluators-overview |
| 选择评判模型 | fundamentals-model-selection |
| 使用预建评估器 | evaluators-pre-built |
| 构建代码评估器 | evaluators-code-{python|typescript} |
| 构建LLM评估器 | evaluators-llm-{python|typescript}, evaluators-custom-templates |
| 批量评估DataFrame | evaluate-dataframe-python |
| 运行实验 | experiments-running-{python|typescript} |
| 创建数据集 | experiments-datasets-{python|typescript} |
| 生成合成数据 | experiments-synthetic-{python|typescript} |
| 验证评估器准确性 | validation, validation-evaluators-{python|typescript} |
| 采样跟踪进行审查 | observe-sampling-{python|typescript} |
| 分析错误 | error-analysis, error-analysis-multi-turn, axial-coding |
| RAG评估 | evaluators-rag |
| 避免常见错误 | common-mistakes-python, fundamentals-anti-patterns |
| 生产 | production-overview, production-guardrails, production-continuous |
工作流程
从零开始:
observe-tracing-setup → error-analysis → axial-coding → evaluators-overview
构建评估器:
fundamentals → common-mistakes-python → evaluators-{code\|llm}-{python\|typescript} → validation-evaluators-{python\|typescript}
RAG系统:
evaluators-rag → evaluators-code-* (检索) → evaluators-llm-* (忠实度)
生产:
production-overview → production-guardrails → production-continuous
规则类别
| 前缀 | 描述 |
|---|---|
fundamentals-* |
类型、分数、反模式 |
observe-* |
跟踪、采样 |
error-analysis-* |
查找失败 |
axial-coding-* |
分类失败 |
evaluators-* |
代码、LLM、RAG评估器 |
experiments-* |
数据集、运行实验 |
validation-* |
验证评估器准确性对抗人类标签 |
production-* |
CI/CD、监控 |
关键原则
| 原则 | 行动 |
|---|---|
| 错误分析优先 | 无法自动化你未观察到的 |
| 自定义 > 通用 | 从你的失败构建 |
| 代码优先 | 确定性先于LLM |
| 验证评判 | >80% TPR/TNR |
| 二进制 > Likert | 通过/失败,不是1-5 |