PhoenixEvalsAI评估构建Skill phoenix-evals

Phoenix Evals 是一个专为AI和LLM应用程序设计的评估器构建工具。它遵循代码优先原则,利用LLM处理细微差别,并通过人类验证确保准确性。支持RAG系统评估、批量数据评估、实验运行和验证,适用于生产环境。关键词:AI, LLM, 评估, 构建, 代码, 验证, RAG, 实验, 生产。

AI应用 0 次安装 0 次浏览 更新于 3/10/2026

名称: phoenix-evals 描述: 使用Phoenix构建和运行AI/LLM应用程序的评估器。 许可证: Apache-2.0 元数据: 作者: oss@arize.com 版本: “1.0.0” 语言: Python, TypeScript

Phoenix 评估

为AI/LLM应用程序构建评估器。代码优先,LLM用于细节,以人类验证。

快速参考

任务 文件
设置 setup-python, setup-typescript
决定评估什么 evaluators-overview
选择评判模型 fundamentals-model-selection
使用预建评估器 evaluators-pre-built
构建代码评估器 evaluators-code-{python|typescript}
构建LLM评估器 evaluators-llm-{python|typescript}, evaluators-custom-templates
批量评估DataFrame evaluate-dataframe-python
运行实验 experiments-running-{python|typescript}
创建数据集 experiments-datasets-{python|typescript}
生成合成数据 experiments-synthetic-{python|typescript}
验证评估器准确性 validation, validation-evaluators-{python|typescript}
采样跟踪进行审查 observe-sampling-{python|typescript}
分析错误 error-analysis, error-analysis-multi-turn, axial-coding
RAG评估 evaluators-rag
避免常见错误 common-mistakes-python, fundamentals-anti-patterns
生产 production-overview, production-guardrails, production-continuous

工作流程

从零开始: observe-tracing-setuperror-analysisaxial-codingevaluators-overview

构建评估器: fundamentalscommon-mistakes-pythonevaluators-{code\|llm}-{python\|typescript}validation-evaluators-{python\|typescript}

RAG系统: evaluators-ragevaluators-code-* (检索) → evaluators-llm-* (忠实度)

生产: production-overviewproduction-guardrailsproduction-continuous

规则类别

前缀 描述
fundamentals-* 类型、分数、反模式
observe-* 跟踪、采样
error-analysis-* 查找失败
axial-coding-* 分类失败
evaluators-* 代码、LLM、RAG评估器
experiments-* 数据集、运行实验
validation-* 验证评估器准确性对抗人类标签
production-* CI/CD、监控

关键原则

原则 行动
错误分析优先 无法自动化你未观察到的
自定义 > 通用 从你的失败构建
代码优先 确定性先于LLM
验证评判 >80% TPR/TNR
二进制 > Likert 通过/失败,不是1-5