HuggingFace论文发布与管理工具Skill hugging-face-paper-publisher

这是一个用于在Hugging Face Hub上发布、管理和链接研究论文的AI工具,支持论文索引、模型和数据集链接、作者身份验证及生成专业研究文章,方便AI研究协作。关键词:Hugging Face、论文发布、AI研究、arXiv集成、模型链接、作者验证、研究文章生成。

AI应用 0 次安装 0 次浏览 更新于 3/24/2026

name: hugging-face-paper-publisher description: 在Hugging Face Hub上发布和管理研究论文。支持创建论文页面、将论文链接到模型/数据集、声明作者身份以及生成基于Markdown的专业研究文章。

概述

此技能为AI工程师和研究人员提供全面工具,用于在Hugging Face Hub上发布、管理和链接研究论文。它简化了从论文创建到发布的工作流程,包括与arXiv的集成、模型/数据集链接和作者身份管理。

与HF生态系统的集成

  • 论文页面:在Hugging Face Hub上索引和发现论文
  • arXiv集成:从arXiv ID自动索引论文
  • 模型/数据集链接:通过元数据将论文连接到相关工件
  • 作者身份验证:声明和验证论文作者身份
  • 研究文章模板:生成专业、现代的科学研究论文

版本

1.0.0

依赖

  • huggingface_hub>=0.26.0
  • pyyaml>=6.0.3
  • requests>=2.32.5
  • markdown>=3.5.0
  • python-dotenv>=1.2.1

核心能力

1. 论文页面管理

  • 索引论文:从arXiv向Hugging Face添加论文
  • 声明作者身份:验证和声明已发表论文的作者身份
  • 管理可见性:控制哪些论文显示在个人资料上
  • 论文发现:在HF生态系统中查找和探索论文

2. 将论文链接到工件

  • 模型卡片:向模型元数据添加论文引用
  • 数据集卡片:通过README将论文链接到数据集
  • 自动标记:Hub自动生成arxiv:<PAPER_ID>标签
  • 引用管理:维护适当的归属和参考文献

3. 研究文章创建

  • Markdown模板:生成专业论文格式化
  • 现代设计:干净、可读的研究文章布局
  • 动态目录:自动生成目录
  • 章节结构:标准科学论文组织
  • LaTeX数学:支持公式和技术符号

4. 元数据管理

  • YAML前置内容:正确的模型/数据集卡片元数据
  • 引用跟踪:在存储库间维护论文参考文献
  • 版本控制:跟踪论文更新和修订
  • 多论文支持:将多个论文链接到单个工件

使用说明

该技能包含scripts/中的Python脚本,用于论文发布操作。

先决条件

  • 安装依赖:uv add huggingface_hub pyyaml requests markdown python-dotenv
  • 设置HF_TOKEN环境变量,包含写入访问令牌
  • 激活虚拟环境:source .venv/bin/activate

所有路径均相对于包含此SKILL.md文件的目录。 运行任何脚本前,先cd到该目录或使用完整路径。

方法1:从arXiv索引论文

从arXiv向Hugging Face论文页面添加论文。

基本用法:

uv run scripts/paper_manager.py index \
  --arxiv-id "2301.12345"

检查论文是否存在:

uv run scripts/paper_manager.py check \
  --arxiv-id "2301.12345"

直接URL访问: 您也可以直接访问https://huggingface.co/papers/{arxiv-id}来索引论文。

方法2:将论文链接到模型/数据集

向模型或数据集README添加论文引用,包含适当的YAML元数据。

添加到模型卡片:

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

添加到数据集卡片:

uv run scripts/paper_manager.py link \
  --repo-id "username/dataset-name" \
  --repo-type "dataset" \
  --arxiv-id "2301.12345"

添加多篇论文:

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-ids "2301.12345,2302.67890,2303.11111"

使用自定义引用:

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345" \
  --citation "$(cat citation.txt)"

链接如何工作

当您向模型或数据集README添加arXiv论文链接时:

  1. Hub从链接中提取arXiv ID
  2. 自动向存储库添加标签arxiv:<PAPER_ID>
  3. 用户可以点击标签查看论文页面
  4. 论文页面显示所有引用此论文的模型/数据集
  5. 通过过滤器和搜索可发现论文

方法3:声明作者身份

验证您在Hugging Face上发表的论文的作者身份。

开始声明过程:

uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@institution.edu"

手动过程:

  1. 导航到您的论文页面:https://huggingface.co/papers/{arxiv-id}
  2. 在作者列表中找到您的姓名
  3. 点击您的姓名并选择“Claim authorship”
  4. 等待管理团队验证

检查作者身份状态:

uv run scripts/paper_manager.py check-authorship \
  --arxiv-id "2301.12345"

方法4:管理论文可见性

控制哪些已验证论文显示在您的公开个人资料上。

列出您的论文:

uv run scripts/paper_manager.py list-my-papers

切换可见性:

uv run scripts/paper_manager.py toggle-visibility \
  --arxiv-id "2301.12345" \
  --show true

在设置中管理: 导航到账户设置 → 论文部分,为每篇论文切换“Show on profile”。

方法5:创建研究文章

使用现代模板生成基于Markdown的专业研究论文。

从模板创建:

uv run scripts/paper_manager.py create \
  --template "standard" \
  --title "您的论文标题" \
  --output "paper.md"

可用模板:

  • standard - 传统科学论文结构
  • modern - 干净、网页友好的格式,受Distill启发
  • arxiv - arXiv风格格式化
  • ml-report - 机器学习实验报告

生成完整论文:

uv run scripts/paper_manager.py create \
  --template "modern" \
  --title "使用LoRA微调大型语言模型" \
  --authors "Jane Doe, John Smith" \
  --abstract "$(cat abstract.txt)" \
  --output "paper.md"

转换为HTML:

uv run scripts/paper_manager.py convert \
  --input "paper.md" \
  --output "paper.html" \
  --style "modern"

论文模板结构

标准研究论文章节:

---
title: 您的论文标题
authors: Jane Doe, John Smith
affiliations: University X, Lab Y
date: 2025-01-15
arxiv: 2301.12345
tags: [machine-learning, nlp, fine-tuning]
---

# 摘要
论文简要总结...

# 1. 引言
背景和动机...

# 2. 相关工作
先前研究和上下文...

# 3. 方法
方法和实现...

# 4. 实验
设置、数据集和过程...

# 5. 结果
发现和分析...

# 6. 讨论
解释和影响...

# 7. 结论
总结和未来工作...

# 参考文献

现代模板功能:

  • 动态目录
  • 网页查看的响应式设计
  • 代码语法高亮
  • 交互式图形和图表
  • 数学方程渲染(LaTeX)
  • 引用管理
  • 作者隶属链接

命令参考

索引论文:

uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

链接到存储库:

uv run scripts/paper_manager.py link \
  --repo-id "username/repo-name" \
  --repo-type "model|dataset|space" \
  --arxiv-id "2301.12345" \
  [--citation "完整引用文本"] \
  [--create-pr]

声明作者身份:

uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@edu"

管理可见性:

uv run scripts/paper_manager.py toggle-visibility \
  --arxiv-id "2301.12345" \
  --show true|false

创建研究文章:

uv run scripts/paper_manager.py create \
  --template "standard|modern|arxiv|ml-report" \
  --title "论文标题" \
  [--authors "Author1, Author2"] \
  [--abstract "摘要文本"] \
  [--output "filename.md"]

将Markdown转换为HTML:

uv run scripts/paper_manager.py convert \
  --input "paper.md" \
  --output "paper.html" \
  [--style "modern|classic"]

检查论文状态:

uv run scripts/paper_manager.py check --arxiv-id "2301.12345"

列出您的论文:

uv run scripts/paper_manager.py list-my-papers

搜索论文:

uv run scripts/paper_manager.py search --query "transformer attention"

YAML元数据格式

将论文链接到模型或数据集时,需要适当的YAML前置内容:

模型卡片示例:

---
language:
  - en
license: apache-2.0
tags:
  - text-generation
  - transformers
  - llm
library_name: transformers
---

# 模型名称

此模型基于[我们的论文](https://arxiv.org/abs/2301.12345)中描述的方法。

## 引用

```bibtex
@article{doe2023paper,
  title={您的论文标题},
  author={Doe, Jane and Smith, John},
  journal={arXiv preprint arXiv:2301.12345},
  year={2023}
}

**数据集卡片示例:**
```yaml
---
language:
  - en
license: cc-by-4.0
task_categories:
  - text-generation
  - question-answering
size_categories:
  - 10K<n<100K
---

# 数据集名称

[我们的论文](https://arxiv.org/abs/2301.12345)中引入的数据集。

更多详情,请参阅[论文页面](https://huggingface.co/papers/2301.12345)。

Hub会自动从这些链接中提取arXiv ID并创建arxiv:2301.12345标签。

集成示例

工作流程1:发布新研究

# 1. 创建研究文章
uv run scripts/paper_manager.py create \
  --template "modern" \
  --title "新颖的微调方法" \
  --output "paper.md"

# 2. 用您的内容编辑paper.md

# 3. 提交到arXiv(外部过程)
# 上传到arxiv.org,获取arXiv ID

# 4. 在Hugging Face上索引
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

# 5. 链接到您的模型
uv run scripts/paper_manager.py link \
  --repo-id "your-username/your-model" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

# 6. 声明作者身份
uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@edu"

工作流程2:链接现有论文

# 1. 检查论文是否存在
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"

# 2. 如果需要则索引
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

# 3. 链接到多个存储库
uv run scripts/paper_manager.py link \
  --repo-id "username/model-v1" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

uv run scripts/paper_manager.py link \
  --repo-id "username/training-data" \
  --repo-type "dataset" \
  --arxiv-id "2301.12345"

uv run scripts/paper_manager.py link \
  --repo-id "username/demo-space" \
  --repo-type "space" \
  --arxiv-id "2301.12345"

工作流程3:用论文引用更新模型

# 1. 获取当前README
huggingface-cli download username/model-name README.md

# 2. 添加论文链接
uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345" \
  --citation "论文的完整引用"

# 脚本将:
# - 如果缺少则添加YAML元数据
# - 在README中插入arXiv链接
# - 添加格式化引用
# - 保留现有内容

最佳实践

  1. 论文索引

    • 论文在arXiv上发表后立即索引
    • 在模型/数据集卡片中包含完整引用信息
    • 在相关存储库中使用一致的论文引用
  2. 元数据管理

    • 向所有模型/数据集卡片添加YAML前置内容
    • 包含适当的许可信息
    • 标记相关任务类别和领域
  3. 作者身份

    • 在您被列为作者的论文上声明作者身份
    • 使用机构邮箱进行验证
    • 更新论文可见性设置
  4. 存储库链接

    • 将论文链接到所有相关模型、数据集和Spaces
    • 在README描述中包含论文上下文
    • 添加BibTeX引用以便参考
  5. 研究文章

    • 在项目内一致使用模板
    • 在论文中包含代码和数据链接
    • 生成网页友好的HTML版本以供分享

高级用法

批量链接论文:

# 将多篇论文链接到一个存储库
for arxiv_id in "2301.12345" "2302.67890" "2303.11111"; do
  uv run scripts/paper_manager.py link \
    --repo-id "username/model-name" \
    --repo-type "model" \
    --arxiv-id "$arxiv_id"
done

提取论文信息:

# 从arXiv获取论文元数据
uv run scripts/paper_manager.py info \
  --arxiv-id "2301.12345" \
  --format "json"

生成引用:

# 创建BibTeX引用
uv run scripts/paper_manager.py citation \
  --arxiv-id "2301.12345" \
  --format "bibtex"

验证链接:

# 检查存储库中所有论文链接
uv run scripts/paper_manager.py validate \
  --repo-id "username/model-name" \
  --repo-type "model"

错误处理

  • 未找到论文:arXiv ID不存在或尚未索引
  • 权限被拒绝:HF_TOKEN缺乏对存储库的写入访问权限
  • 无效YAML:README前置内容中格式错误的元数据
  • 作者身份失败:邮箱与论文作者记录不匹配
  • 已声明:其他用户已声明作者身份
  • 速率限制:短时间内API请求过多

故障排除

问题:“在Hugging Face上未找到论文”

  • 解决方案:访问hf.co/papers/{arxiv-id}触发索引

问题:“作者身份声明未验证”

  • 解决方案:等待管理员审核或联系HF支持提供证明

问题:“arXiv标签未出现”

  • 解决方案:确保README包含正确的arXiv URL格式

问题:“无法链接到存储库”

  • 解决方案:验证HF_TOKEN具有写入权限

问题:“模板渲染错误”

  • 解决方案:检查Markdown语法和YAML前置内容格式

资源和参考文献

与tfrere的研究模板集成

此技能补充了tfrere的研究文章模板,提供:

  • 自动化论文索引工作流程
  • 存储库链接能力
  • 元数据管理工具
  • 引用生成实用程序

您可以使用tfrere的模板进行写作,然后使用此技能在Hugging Face Hub上发布和链接论文。

常见模式

模式1:新论文发布

# 写作 → 发布 → 索引 → 链接
uv run scripts/paper_manager.py create --template modern --output paper.md
# (提交到arXiv)
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"

模式2:现有论文发现

# 搜索 → 检查 → 链接
uv run scripts/paper_manager.py search --query "transformers"
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"

模式3:作者作品集管理

# 声明 → 验证 → 组织
uv run scripts/paper_manager.py claim --arxiv-id "2301.12345"
uv run scripts/paper_manager.py list-my-papers
uv run scripts/paper_manager.py toggle-visibility --arxiv-id "2301.12345" --show true

API集成

Python脚本示例:

from scripts.paper_manager import PaperManager

pm = PaperManager(hf_token="your_token")

# 索引论文
pm.index_paper("2301.12345")

# 链接到模型
pm.link_paper(
    repo_id="username/model",
    repo_type="model",
    arxiv_id="2301.12345",
    citation="完整引用文本"
)

# 检查状态
status = pm.check_paper("2301.12345")
print(status)

未来增强

未来版本的计划功能:

  • 支持非arXiv论文(会议论文、期刊)
  • 从DOI自动格式化引用
  • 论文比较和版本工具
  • 协作论文写作功能
  • 与LaTeX工作流程集成
  • 自动图形和表格提取
  • 论文指标和影响跟踪