名称: URL抓取器 描述: 从网页URL获取并提取文本内容。
URL抓取器
可用工具
- fetch_url_content(url, include_html=False, max_length=50000): 获取URL并提取干净文本内容。
参数
| 参数 | 类型 | 默认值 | 描述 |
|---|---|---|---|
url |
str | (必需) | 要抓取的URL(必须以http://或https://开头) |
include_html |
bool | False | 在响应中包含原始HTML |
max_length |
int | 50000 | 提取文本的最大字符长度 |
使用指南
- 适用于阅读文章、文档、招聘信息和其他网页内容
- 自动去除导航、脚本和样板HTML
- 提取页面标题和干净文本内容
- 仅当需要分析页面结构时使用include_html=True
- 减少max_length以获取快速摘要或仅需要页面开头时
错误处理
- 如果URL不可达、超时(30秒)或返回非200状态,则返回错误JSON
- 在使用内容前始终检查响应中的
success字段
引用格式
从抓取的页面呈现信息时,将每个具体声明包裹在<cite>标签中:
<cite source="SOURCE_TITLE" url="URL">声明文本</cite>
规则:
- 引用事实声明、统计数据、引用和抓取内容中的具体信息
source属性应包含页面标题或站点名称url属性应包含抓取的URL- 不要引用自己的推理或一般知识
- 使用必要的引用来支持声明