name: hugging-face-paper-publisher description: 在Hugging Face Hub上发布和管理研究论文。支持创建论文页面、将论文链接到模型/数据集、声明作者身份以及生成基于Markdown的专业研究文章。
概述
此技能为AI工程师和研究人员提供全面工具,用于在Hugging Face Hub上发布、管理和链接研究论文。它简化了从论文创建到发布的工作流程,包括与arXiv的集成、模型/数据集链接和作者身份管理。
与HF生态系统的集成
- 论文页面:在Hugging Face Hub上索引和发现论文
- arXiv集成:从arXiv ID自动索引论文
- 模型/数据集链接:通过元数据将论文连接到相关工件
- 作者身份验证:声明和验证论文作者身份
- 研究文章模板:生成专业、现代的科学研究论文
版本
1.0.0
依赖
- huggingface_hub>=0.26.0
- pyyaml>=6.0.3
- requests>=2.32.5
- markdown>=3.5.0
- python-dotenv>=1.2.1
核心能力
1. 论文页面管理
- 索引论文:从arXiv向Hugging Face添加论文
- 声明作者身份:验证和声明已发表论文的作者身份
- 管理可见性:控制哪些论文显示在个人资料上
- 论文发现:在HF生态系统中查找和探索论文
2. 将论文链接到工件
- 模型卡片:向模型元数据添加论文引用
- 数据集卡片:通过README将论文链接到数据集
- 自动标记:Hub自动生成arxiv:<PAPER_ID>标签
- 引用管理:维护适当的归属和参考文献
3. 研究文章创建
- Markdown模板:生成专业论文格式化
- 现代设计:干净、可读的研究文章布局
- 动态目录:自动生成目录
- 章节结构:标准科学论文组织
- LaTeX数学:支持公式和技术符号
4. 元数据管理
- YAML前置内容:正确的模型/数据集卡片元数据
- 引用跟踪:在存储库间维护论文参考文献
- 版本控制:跟踪论文更新和修订
- 多论文支持:将多个论文链接到单个工件
使用说明
该技能包含scripts/中的Python脚本,用于论文发布操作。
先决条件
- 安装依赖:
uv add huggingface_hub pyyaml requests markdown python-dotenv - 设置
HF_TOKEN环境变量,包含写入访问令牌 - 激活虚拟环境:
source .venv/bin/activate
所有路径均相对于包含此SKILL.md文件的目录。 运行任何脚本前,先
cd到该目录或使用完整路径。
方法1:从arXiv索引论文
从arXiv向Hugging Face论文页面添加论文。
基本用法:
uv run scripts/paper_manager.py index \
--arxiv-id "2301.12345"
检查论文是否存在:
uv run scripts/paper_manager.py check \
--arxiv-id "2301.12345"
直接URL访问:
您也可以直接访问https://huggingface.co/papers/{arxiv-id}来索引论文。
方法2:将论文链接到模型/数据集
向模型或数据集README添加论文引用,包含适当的YAML元数据。
添加到模型卡片:
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-id "2301.12345"
添加到数据集卡片:
uv run scripts/paper_manager.py link \
--repo-id "username/dataset-name" \
--repo-type "dataset" \
--arxiv-id "2301.12345"
添加多篇论文:
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-ids "2301.12345,2302.67890,2303.11111"
使用自定义引用:
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-id "2301.12345" \
--citation "$(cat citation.txt)"
链接如何工作
当您向模型或数据集README添加arXiv论文链接时:
- Hub从链接中提取arXiv ID
- 自动向存储库添加标签
arxiv:<PAPER_ID> - 用户可以点击标签查看论文页面
- 论文页面显示所有引用此论文的模型/数据集
- 通过过滤器和搜索可发现论文
方法3:声明作者身份
验证您在Hugging Face上发表的论文的作者身份。
开始声明过程:
uv run scripts/paper_manager.py claim \
--arxiv-id "2301.12345" \
--email "your.email@institution.edu"
手动过程:
- 导航到您的论文页面:
https://huggingface.co/papers/{arxiv-id} - 在作者列表中找到您的姓名
- 点击您的姓名并选择“Claim authorship”
- 等待管理团队验证
检查作者身份状态:
uv run scripts/paper_manager.py check-authorship \
--arxiv-id "2301.12345"
方法4:管理论文可见性
控制哪些已验证论文显示在您的公开个人资料上。
列出您的论文:
uv run scripts/paper_manager.py list-my-papers
切换可见性:
uv run scripts/paper_manager.py toggle-visibility \
--arxiv-id "2301.12345" \
--show true
在设置中管理: 导航到账户设置 → 论文部分,为每篇论文切换“Show on profile”。
方法5:创建研究文章
使用现代模板生成基于Markdown的专业研究论文。
从模板创建:
uv run scripts/paper_manager.py create \
--template "standard" \
--title "您的论文标题" \
--output "paper.md"
可用模板:
standard- 传统科学论文结构modern- 干净、网页友好的格式,受Distill启发arxiv- arXiv风格格式化ml-report- 机器学习实验报告
生成完整论文:
uv run scripts/paper_manager.py create \
--template "modern" \
--title "使用LoRA微调大型语言模型" \
--authors "Jane Doe, John Smith" \
--abstract "$(cat abstract.txt)" \
--output "paper.md"
转换为HTML:
uv run scripts/paper_manager.py convert \
--input "paper.md" \
--output "paper.html" \
--style "modern"
论文模板结构
标准研究论文章节:
---
title: 您的论文标题
authors: Jane Doe, John Smith
affiliations: University X, Lab Y
date: 2025-01-15
arxiv: 2301.12345
tags: [machine-learning, nlp, fine-tuning]
---
# 摘要
论文简要总结...
# 1. 引言
背景和动机...
# 2. 相关工作
先前研究和上下文...
# 3. 方法
方法和实现...
# 4. 实验
设置、数据集和过程...
# 5. 结果
发现和分析...
# 6. 讨论
解释和影响...
# 7. 结论
总结和未来工作...
# 参考文献
现代模板功能:
- 动态目录
- 网页查看的响应式设计
- 代码语法高亮
- 交互式图形和图表
- 数学方程渲染(LaTeX)
- 引用管理
- 作者隶属链接
命令参考
索引论文:
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
链接到存储库:
uv run scripts/paper_manager.py link \
--repo-id "username/repo-name" \
--repo-type "model|dataset|space" \
--arxiv-id "2301.12345" \
[--citation "完整引用文本"] \
[--create-pr]
声明作者身份:
uv run scripts/paper_manager.py claim \
--arxiv-id "2301.12345" \
--email "your.email@edu"
管理可见性:
uv run scripts/paper_manager.py toggle-visibility \
--arxiv-id "2301.12345" \
--show true|false
创建研究文章:
uv run scripts/paper_manager.py create \
--template "standard|modern|arxiv|ml-report" \
--title "论文标题" \
[--authors "Author1, Author2"] \
[--abstract "摘要文本"] \
[--output "filename.md"]
将Markdown转换为HTML:
uv run scripts/paper_manager.py convert \
--input "paper.md" \
--output "paper.html" \
[--style "modern|classic"]
检查论文状态:
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
列出您的论文:
uv run scripts/paper_manager.py list-my-papers
搜索论文:
uv run scripts/paper_manager.py search --query "transformer attention"
YAML元数据格式
将论文链接到模型或数据集时,需要适当的YAML前置内容:
模型卡片示例:
---
language:
- en
license: apache-2.0
tags:
- text-generation
- transformers
- llm
library_name: transformers
---
# 模型名称
此模型基于[我们的论文](https://arxiv.org/abs/2301.12345)中描述的方法。
## 引用
```bibtex
@article{doe2023paper,
title={您的论文标题},
author={Doe, Jane and Smith, John},
journal={arXiv preprint arXiv:2301.12345},
year={2023}
}
**数据集卡片示例:**
```yaml
---
language:
- en
license: cc-by-4.0
task_categories:
- text-generation
- question-answering
size_categories:
- 10K<n<100K
---
# 数据集名称
[我们的论文](https://arxiv.org/abs/2301.12345)中引入的数据集。
更多详情,请参阅[论文页面](https://huggingface.co/papers/2301.12345)。
Hub会自动从这些链接中提取arXiv ID并创建arxiv:2301.12345标签。
集成示例
工作流程1:发布新研究
# 1. 创建研究文章
uv run scripts/paper_manager.py create \
--template "modern" \
--title "新颖的微调方法" \
--output "paper.md"
# 2. 用您的内容编辑paper.md
# 3. 提交到arXiv(外部过程)
# 上传到arxiv.org,获取arXiv ID
# 4. 在Hugging Face上索引
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
# 5. 链接到您的模型
uv run scripts/paper_manager.py link \
--repo-id "your-username/your-model" \
--repo-type "model" \
--arxiv-id "2301.12345"
# 6. 声明作者身份
uv run scripts/paper_manager.py claim \
--arxiv-id "2301.12345" \
--email "your.email@edu"
工作流程2:链接现有论文
# 1. 检查论文是否存在
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
# 2. 如果需要则索引
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
# 3. 链接到多个存储库
uv run scripts/paper_manager.py link \
--repo-id "username/model-v1" \
--repo-type "model" \
--arxiv-id "2301.12345"
uv run scripts/paper_manager.py link \
--repo-id "username/training-data" \
--repo-type "dataset" \
--arxiv-id "2301.12345"
uv run scripts/paper_manager.py link \
--repo-id "username/demo-space" \
--repo-type "space" \
--arxiv-id "2301.12345"
工作流程3:用论文引用更新模型
# 1. 获取当前README
huggingface-cli download username/model-name README.md
# 2. 添加论文链接
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-id "2301.12345" \
--citation "论文的完整引用"
# 脚本将:
# - 如果缺少则添加YAML元数据
# - 在README中插入arXiv链接
# - 添加格式化引用
# - 保留现有内容
最佳实践
-
论文索引
- 论文在arXiv上发表后立即索引
- 在模型/数据集卡片中包含完整引用信息
- 在相关存储库中使用一致的论文引用
-
元数据管理
- 向所有模型/数据集卡片添加YAML前置内容
- 包含适当的许可信息
- 标记相关任务类别和领域
-
作者身份
- 在您被列为作者的论文上声明作者身份
- 使用机构邮箱进行验证
- 更新论文可见性设置
-
存储库链接
- 将论文链接到所有相关模型、数据集和Spaces
- 在README描述中包含论文上下文
- 添加BibTeX引用以便参考
-
研究文章
- 在项目内一致使用模板
- 在论文中包含代码和数据链接
- 生成网页友好的HTML版本以供分享
高级用法
批量链接论文:
# 将多篇论文链接到一个存储库
for arxiv_id in "2301.12345" "2302.67890" "2303.11111"; do
uv run scripts/paper_manager.py link \
--repo-id "username/model-name" \
--repo-type "model" \
--arxiv-id "$arxiv_id"
done
提取论文信息:
# 从arXiv获取论文元数据
uv run scripts/paper_manager.py info \
--arxiv-id "2301.12345" \
--format "json"
生成引用:
# 创建BibTeX引用
uv run scripts/paper_manager.py citation \
--arxiv-id "2301.12345" \
--format "bibtex"
验证链接:
# 检查存储库中所有论文链接
uv run scripts/paper_manager.py validate \
--repo-id "username/model-name" \
--repo-type "model"
错误处理
- 未找到论文:arXiv ID不存在或尚未索引
- 权限被拒绝:HF_TOKEN缺乏对存储库的写入访问权限
- 无效YAML:README前置内容中格式错误的元数据
- 作者身份失败:邮箱与论文作者记录不匹配
- 已声明:其他用户已声明作者身份
- 速率限制:短时间内API请求过多
故障排除
问题:“在Hugging Face上未找到论文”
- 解决方案:访问
hf.co/papers/{arxiv-id}触发索引
问题:“作者身份声明未验证”
- 解决方案:等待管理员审核或联系HF支持提供证明
问题:“arXiv标签未出现”
- 解决方案:确保README包含正确的arXiv URL格式
问题:“无法链接到存储库”
- 解决方案:验证HF_TOKEN具有写入权限
问题:“模板渲染错误”
- 解决方案:检查Markdown语法和YAML前置内容格式
资源和参考文献
- Hugging Face论文页面:hf.co/papers
- 模型卡片指南:hf.co/docs/hub/model-cards
- 数据集卡片指南:hf.co/docs/hub/datasets-cards
- 研究文章模板:tfrere/research-article-template
- arXiv格式指南:arxiv.org/help/submit
与tfrere的研究模板集成
此技能补充了tfrere的研究文章模板,提供:
- 自动化论文索引工作流程
- 存储库链接能力
- 元数据管理工具
- 引用生成实用程序
您可以使用tfrere的模板进行写作,然后使用此技能在Hugging Face Hub上发布和链接论文。
常见模式
模式1:新论文发布
# 写作 → 发布 → 索引 → 链接
uv run scripts/paper_manager.py create --template modern --output paper.md
# (提交到arXiv)
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"
模式2:现有论文发现
# 搜索 → 检查 → 链接
uv run scripts/paper_manager.py search --query "transformers"
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"
模式3:作者作品集管理
# 声明 → 验证 → 组织
uv run scripts/paper_manager.py claim --arxiv-id "2301.12345"
uv run scripts/paper_manager.py list-my-papers
uv run scripts/paper_manager.py toggle-visibility --arxiv-id "2301.12345" --show true
API集成
Python脚本示例:
from scripts.paper_manager import PaperManager
pm = PaperManager(hf_token="your_token")
# 索引论文
pm.index_paper("2301.12345")
# 链接到模型
pm.link_paper(
repo_id="username/model",
repo_type="model",
arxiv_id="2301.12345",
citation="完整引用文本"
)
# 检查状态
status = pm.check_paper("2301.12345")
print(status)
未来增强
未来版本的计划功能:
- 支持非arXiv论文(会议论文、期刊)
- 从DOI自动格式化引用
- 论文比较和版本工具
- 协作论文写作功能
- 与LaTeX工作流程集成
- 自动图形和表格提取
- 论文指标和影响跟踪