name: regex-vs-llm-structured-text description: 结构化文本解析时选择正则表达式与LLM的决策框架——优先使用正则表达式,仅在低置信度边缘情况时引入LLM。
正则表达式 vs LLM:结构化文本解析
用于解析结构化文本(测验、表单、发票、文档)的实用决策框架。核心洞察:正则表达式能以低成本、确定性的方式处理95-98%的情况。将昂贵的LLM调用保留给剩余的边缘情况。
何时启用
- 解析具有重复模式的结构化文本(问题、表单、表格)
- 决定使用正则表达式还是LLM进行文本提取
- 构建结合两种方法的混合管道
- 优化文本处理中的成本/准确性权衡
决策框架
文本格式是否一致且重复?
├── 是(>90%遵循模式) → 从正则表达式开始
│ ├── 正则表达式处理95%+ → 完成,无需LLM
│ └── 正则表达式处理<95% → 仅在边缘情况下添加LLM
└── 否(自由格式,高度可变) → 直接使用LLM
架构模式
源文本
│
▼
[正则表达式解析器] ─── 提取结构(95-98%准确率)
│
▼
[文本清理器] ─── 移除噪声(标记、页码、伪影)
│
▼
[置信度评分器] ─── 标记低置信度提取项
│
├── 高置信度(≥0.95) → 直接输出
│
└── 低置信度(<0.95) → [LLM验证器] → 输出
实现
1. 正则表达式解析器(处理大多数情况)
import re
from dataclasses import dataclass
@dataclass(frozen=True)
class ParsedItem:
id: str
text: str
choices: tuple[str, ...]
answer: str
confidence: float = 1.0
def parse_structured_text(content: str) -> list[ParsedItem]:
"""使用正则表达式模式解析结构化文本。"""
pattern = re.compile(
r"(?P<id>\d+)\.\s*(?P<text>.+?)
"
r"(?P<choices>(?:[A-D]\..+?
)+)"
r"Answer:\s*(?P<answer>[A-D])",
re.MULTILINE | re.DOTALL,
)
items = []
for match in pattern.finditer(content):
choices = tuple(
c.strip() for c in re.findall(r"[A-D]\.\s*(.+)", match.group("choices"))
)
items.append(ParsedItem(
id=match.group("id"),
text=match.group("text").strip(),
choices=choices,
answer=match.group("answer"),
))
return items
2. 置信度评分
标记可能需要LLM审查的项:
@dataclass(frozen=True)
class ConfidenceFlag:
item_id: str
score: float
reasons: tuple[str, ...]
def score_confidence(item: ParsedItem) -> ConfidenceFlag:
"""评分提取置信度并标记问题。"""
reasons = []
score = 1.0
if len(item.choices) < 3:
reasons.append("few_choices")
score -= 0.3
if not item.answer:
reasons.append("missing_answer")
score -= 0.5
if len(item.text) < 10:
reasons.append("short_text")
score -= 0.2
return ConfidenceFlag(
item_id=item.id,
score=max(0.0, score),
reasons=tuple(reasons),
)
def identify_low_confidence(
items: list[ParsedItem],
threshold: float = 0.95,
) -> list[ConfidenceFlag]:
"""返回低于置信度阈值的项。"""
flags = [score_confidence(item) for item in items]
return [f for f in flags if f.score < threshold]
3. LLM验证器(仅用于边缘情况)
def validate_with_llm(
item: ParsedItem,
original_text: str,
client,
) -> ParsedItem:
"""使用LLM修复低置信度提取项。"""
response = client.messages.create(
model="claude-haiku-4-5-20251001", # 用于验证的最便宜模型
max_tokens=500,
messages=[{
"role": "user",
"content": (
f"从以下文本中提取问题、选项和答案。
"
f"文本: {original_text}
"
f"当前提取结果: {item}
"
f"如果需要,返回修正后的JSON,如果准确则返回'CORRECT'。"
),
}],
)
# 解析LLM响应并返回修正后的项...
return corrected_item
4. 混合管道
def process_document(
content: str,
*,
llm_client=None,
confidence_threshold: float = 0.95,
) -> list[ParsedItem]:
"""完整管道:正则表达式 -> 置信度检查 -> 边缘情况使用LLM。"""
# 步骤1:正则表达式提取(处理95-98%)
items = parse_structured_text(content)
# 步骤2:置信度评分
low_confidence = identify_low_confidence(items, confidence_threshold)
if not low_confidence or llm_client is None:
return items
# 步骤3:LLM验证(仅针对标记的项)
low_conf_ids = {f.item_id for f in low_confidence}
result = []
for item in items:
if item.id in low_conf_ids:
result.append(validate_with_llm(item, content, llm_client))
else:
result.append(item)
return result
实际指标
来自生产级测验解析管道(410项):
| 指标 | 值 |
|---|---|
| 正则表达式成功率 | 98.0% |
| 低置信度项 | 8 (2.0%) |
| 所需LLM调用 | ~5 |
| 相比全LLM的成本节省 | ~95% |
| 测试覆盖率 | 93% |
最佳实践
- 从正则表达式开始 — 即使不完美的正则表达式也能提供一个改进的基线
- 使用置信度评分 以编程方式识别需要LLM帮助的内容
- 使用最便宜的LLM 进行验证(Haiku级模型已足够)
- 切勿修改 已解析的项 — 从清理/验证步骤返回新实例
- TDD效果良好 用于解析器 — 首先为已知模式编写测试,然后是边缘情况
- 记录指标(正则表达式成功率、LLM调用次数)以跟踪管道健康状况
应避免的反模式
- 当正则表达式能处理95%+的情况时,将所有文本发送给LLM(昂贵且缓慢)
- 对自由格式、高度可变的文本使用正则表达式(LLM更适合此处)
- 跳过置信度评分,希望正则表达式“正常工作”
- 在清理/验证步骤中修改已解析的对象
- 不测试边缘情况(格式错误的输入、缺失字段、编码问题)
适用场景
- 测验/考试问题解析
- 表单数据提取
- 发票/收据处理
- 文档结构解析(标题、章节、表格)
- 任何具有重复模式且成本重要的结构化文本