URL抓取器Skill url-fetcher

该技能用于从指定网页URL自动抓取并提取干净的文本内容,去除HTML噪音,适用于数据收集、内容分析、文档处理和网络爬虫等场景,支持参数化设置以提高效率。关键词:网页抓取、文本提取、URL解析、HTML清理、数据获取、网络爬虫、内容分析、自动化工具。

数据工程 2 次安装 6 次浏览 更新于 3/11/2026

名称: URL抓取器 描述: 从网页URL获取并提取文本内容。

URL抓取器

可用工具

  • fetch_url_content(url, include_html=False, max_length=50000): 获取URL并提取干净文本内容。

参数

参数 类型 默认值 描述
url str (必需) 要抓取的URL(必须以http://或https://开头)
include_html bool False 在响应中包含原始HTML
max_length int 50000 提取文本的最大字符长度

使用指南

  • 适用于阅读文章、文档、招聘信息和其他网页内容
  • 自动去除导航、脚本和样板HTML
  • 提取页面标题和干净文本内容
  • 仅当需要分析页面结构时使用include_html=True
  • 减少max_length以获取快速摘要或仅需要页面开头时

错误处理

  • 如果URL不可达、超时(30秒)或返回非200状态,则返回错误JSON
  • 在使用内容前始终检查响应中的success字段

引用格式

从抓取的页面呈现信息时,将每个具体声明包裹在<cite>标签中:

<cite source="SOURCE_TITLE" url="URL">声明文本</cite>

规则:

  • 引用事实声明、统计数据、引用和抓取内容中的具体信息
  • source属性应包含页面标题或站点名称
  • url属性应包含抓取的URL
  • 不要引用自己的推理或一般知识
  • 使用必要的引用来支持声明