Name: HuggingFace论文发布与管理工具Skill
Rating: 5 (6 reviews)
Author: huggingface

name: hugging-face-paper-publisher description: 在Hugging Face Hub上发布和管理研究论文。支持创建论文页面、将论文链接到模型/数据集、声明作者身份以及生成基于Markdown的专业研究文章。

概述

此技能为AI工程师和研究人员提供全面工具，用于在Hugging Face Hub上发布、管理和链接研究论文。它简化了从论文创建到发布的工作流程，包括与arXiv的集成、模型/数据集链接和作者身份管理。

与HF生态系统的集成

论文页面：在Hugging Face Hub上索引和发现论文
arXiv集成：从arXiv ID自动索引论文
模型/数据集链接：通过元数据将论文连接到相关工件
作者身份验证：声明和验证论文作者身份
研究文章模板：生成专业、现代的科学研究论文

版本

1.0.0

依赖

huggingface_hub>=0.26.0
pyyaml>=6.0.3
requests>=2.32.5
markdown>=3.5.0
python-dotenv>=1.2.1

核心能力

1. 论文页面管理

索引论文：从arXiv向Hugging Face添加论文
声明作者身份：验证和声明已发表论文的作者身份
管理可见性：控制哪些论文显示在个人资料上
论文发现：在HF生态系统中查找和探索论文

2. 将论文链接到工件

模型卡片：向模型元数据添加论文引用
数据集卡片：通过README将论文链接到数据集
自动标记：Hub自动生成arxiv:<PAPER_ID>标签
引用管理：维护适当的归属和参考文献

3. 研究文章创建

Markdown模板：生成专业论文格式化
现代设计：干净、可读的研究文章布局
动态目录：自动生成目录
章节结构：标准科学论文组织
LaTeX数学：支持公式和技术符号

4. 元数据管理

YAML前置内容：正确的模型/数据集卡片元数据
引用跟踪：在存储库间维护论文参考文献
版本控制：跟踪论文更新和修订
多论文支持：将多个论文链接到单个工件

使用说明

该技能包含scripts/中的Python脚本，用于论文发布操作。

先决条件

安装依赖：uv add huggingface_hub pyyaml requests markdown python-dotenv
设置HF_TOKEN环境变量，包含写入访问令牌
激活虚拟环境：source .venv/bin/activate

所有路径均相对于包含此SKILL.md文件的目录。 运行任何脚本前，先cd到该目录或使用完整路径。

方法1：从arXiv索引论文

从arXiv向Hugging Face论文页面添加论文。

基本用法：

uv run scripts/paper_manager.py index \
  --arxiv-id "2301.12345"

检查论文是否存在：

uv run scripts/paper_manager.py check \
  --arxiv-id "2301.12345"

直接URL访问： 您也可以直接访问https://huggingface.co/papers/{arxiv-id}来索引论文。

方法2：将论文链接到模型/数据集

向模型或数据集README添加论文引用，包含适当的YAML元数据。

添加到模型卡片：

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

添加到数据集卡片：

uv run scripts/paper_manager.py link \
  --repo-id "username/dataset-name" \
  --repo-type "dataset" \
  --arxiv-id "2301.12345"

添加多篇论文：

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-ids "2301.12345,2302.67890,2303.11111"

使用自定义引用：

uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345" \
  --citation "$(cat citation.txt)"

链接如何工作

当您向模型或数据集README添加arXiv论文链接时：

Hub从链接中提取arXiv ID
自动向存储库添加标签arxiv:<PAPER_ID>
用户可以点击标签查看论文页面
论文页面显示所有引用此论文的模型/数据集
通过过滤器和搜索可发现论文

方法3：声明作者身份

验证您在Hugging Face上发表的论文的作者身份。

开始声明过程：

uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@institution.edu"

手动过程：

导航到您的论文页面：https://huggingface.co/papers/{arxiv-id}
在作者列表中找到您的姓名
点击您的姓名并选择“Claim authorship”
等待管理团队验证

检查作者身份状态：

uv run scripts/paper_manager.py check-authorship \
  --arxiv-id "2301.12345"

方法4：管理论文可见性

控制哪些已验证论文显示在您的公开个人资料上。

列出您的论文：

uv run scripts/paper_manager.py list-my-papers

切换可见性：

uv run scripts/paper_manager.py toggle-visibility \
  --arxiv-id "2301.12345" \
  --show true

在设置中管理： 导航到账户设置 → 论文部分，为每篇论文切换“Show on profile”。

方法5：创建研究文章

使用现代模板生成基于Markdown的专业研究论文。

从模板创建：

uv run scripts/paper_manager.py create \
  --template "standard" \
  --title "您的论文标题" \
  --output "paper.md"

可用模板：

standard - 传统科学论文结构
modern - 干净、网页友好的格式，受Distill启发
arxiv - arXiv风格格式化
ml-report - 机器学习实验报告

生成完整论文：

uv run scripts/paper_manager.py create \
  --template "modern" \
  --title "使用LoRA微调大型语言模型" \
  --authors "Jane Doe, John Smith" \
  --abstract "$(cat abstract.txt)" \
  --output "paper.md"

转换为HTML：

uv run scripts/paper_manager.py convert \
  --input "paper.md" \
  --output "paper.html" \
  --style "modern"

论文模板结构

标准研究论文章节：

---
title: 您的论文标题
authors: Jane Doe, John Smith
affiliations: University X, Lab Y
date: 2025-01-15
arxiv: 2301.12345
tags: [machine-learning, nlp, fine-tuning]
---

# 摘要
论文简要总结...

# 1. 引言
背景和动机...

# 2. 相关工作
先前研究和上下文...

# 3. 方法
方法和实现...

# 4. 实验
设置、数据集和过程...

# 5. 结果
发现和分析...

# 6. 讨论
解释和影响...

# 7. 结论
总结和未来工作...

# 参考文献

现代模板功能：

动态目录
网页查看的响应式设计
代码语法高亮
交互式图形和图表
数学方程渲染（LaTeX）
引用管理
作者隶属链接

命令参考

索引论文：

uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

链接到存储库：

uv run scripts/paper_manager.py link \
  --repo-id "username/repo-name" \
  --repo-type "model|dataset|space" \
  --arxiv-id "2301.12345" \
  [--citation "完整引用文本"] \
  [--create-pr]

声明作者身份：

uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@edu"

管理可见性：

uv run scripts/paper_manager.py toggle-visibility \
  --arxiv-id "2301.12345" \
  --show true|false

创建研究文章：

uv run scripts/paper_manager.py create \
  --template "standard|modern|arxiv|ml-report" \
  --title "论文标题" \
  [--authors "Author1, Author2"] \
  [--abstract "摘要文本"] \
  [--output "filename.md"]

将Markdown转换为HTML：

uv run scripts/paper_manager.py convert \
  --input "paper.md" \
  --output "paper.html" \
  [--style "modern|classic"]

检查论文状态：

uv run scripts/paper_manager.py check --arxiv-id "2301.12345"

列出您的论文：

uv run scripts/paper_manager.py list-my-papers

搜索论文：

uv run scripts/paper_manager.py search --query "transformer attention"

YAML元数据格式

将论文链接到模型或数据集时，需要适当的YAML前置内容：

模型卡片示例：

---
language:
  - en
license: apache-2.0
tags:
  - text-generation
  - transformers
  - llm
library_name: transformers
---

# 模型名称

此模型基于[我们的论文](https://arxiv.org/abs/2301.12345)中描述的方法。

## 引用

```bibtex
@article{doe2023paper,
  title={您的论文标题},
  author={Doe, Jane and Smith, John},
  journal={arXiv preprint arXiv:2301.12345},
  year={2023}
}


**数据集卡片示例：**
```yaml
---
language:
  - en
license: cc-by-4.0
task_categories:
  - text-generation
  - question-answering
size_categories:
  - 10K<n<100K
---

# 数据集名称

[我们的论文](https://arxiv.org/abs/2301.12345)中引入的数据集。

更多详情，请参阅[论文页面](https://huggingface.co/papers/2301.12345)。

Hub会自动从这些链接中提取arXiv ID并创建arxiv:2301.12345标签。

集成示例

工作流程1：发布新研究

# 1. 创建研究文章
uv run scripts/paper_manager.py create \
  --template "modern" \
  --title "新颖的微调方法" \
  --output "paper.md"

# 2. 用您的内容编辑paper.md

# 3. 提交到arXiv（外部过程）
# 上传到arxiv.org，获取arXiv ID

# 4. 在Hugging Face上索引
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

# 5. 链接到您的模型
uv run scripts/paper_manager.py link \
  --repo-id "your-username/your-model" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

# 6. 声明作者身份
uv run scripts/paper_manager.py claim \
  --arxiv-id "2301.12345" \
  --email "your.email@edu"

工作流程2：链接现有论文

# 1. 检查论文是否存在
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"

# 2. 如果需要则索引
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"

# 3. 链接到多个存储库
uv run scripts/paper_manager.py link \
  --repo-id "username/model-v1" \
  --repo-type "model" \
  --arxiv-id "2301.12345"

uv run scripts/paper_manager.py link \
  --repo-id "username/training-data" \
  --repo-type "dataset" \
  --arxiv-id "2301.12345"

uv run scripts/paper_manager.py link \
  --repo-id "username/demo-space" \
  --repo-type "space" \
  --arxiv-id "2301.12345"

工作流程3：用论文引用更新模型

# 1. 获取当前README
huggingface-cli download username/model-name README.md

# 2. 添加论文链接
uv run scripts/paper_manager.py link \
  --repo-id "username/model-name" \
  --repo-type "model" \
  --arxiv-id "2301.12345" \
  --citation "论文的完整引用"

# 脚本将：
# - 如果缺少则添加YAML元数据
# - 在README中插入arXiv链接
# - 添加格式化引用
# - 保留现有内容

最佳实践

论文索引
- 论文在arXiv上发表后立即索引
- 在模型/数据集卡片中包含完整引用信息
- 在相关存储库中使用一致的论文引用
元数据管理
- 向所有模型/数据集卡片添加YAML前置内容
- 包含适当的许可信息
- 标记相关任务类别和领域
作者身份
- 在您被列为作者的论文上声明作者身份
- 使用机构邮箱进行验证
- 更新论文可见性设置
存储库链接
- 将论文链接到所有相关模型、数据集和Spaces
- 在README描述中包含论文上下文
- 添加BibTeX引用以便参考
研究文章
- 在项目内一致使用模板
- 在论文中包含代码和数据链接
- 生成网页友好的HTML版本以供分享

高级用法

批量链接论文：

# 将多篇论文链接到一个存储库
for arxiv_id in "2301.12345" "2302.67890" "2303.11111"; do
  uv run scripts/paper_manager.py link \
    --repo-id "username/model-name" \
    --repo-type "model" \
    --arxiv-id "$arxiv_id"
done

提取论文信息：

# 从arXiv获取论文元数据
uv run scripts/paper_manager.py info \
  --arxiv-id "2301.12345" \
  --format "json"

生成引用：

# 创建BibTeX引用
uv run scripts/paper_manager.py citation \
  --arxiv-id "2301.12345" \
  --format "bibtex"

验证链接：

# 检查存储库中所有论文链接
uv run scripts/paper_manager.py validate \
  --repo-id "username/model-name" \
  --repo-type "model"

错误处理

未找到论文：arXiv ID不存在或尚未索引
权限被拒绝：HF_TOKEN缺乏对存储库的写入访问权限
无效YAML：README前置内容中格式错误的元数据
作者身份失败：邮箱与论文作者记录不匹配
已声明：其他用户已声明作者身份
速率限制：短时间内API请求过多

故障排除

问题：“在Hugging Face上未找到论文”

解决方案：访问hf.co/papers/{arxiv-id}触发索引

问题：“作者身份声明未验证”

解决方案：等待管理员审核或联系HF支持提供证明

问题：“arXiv标签未出现”

解决方案：确保README包含正确的arXiv URL格式

问题：“无法链接到存储库”

解决方案：验证HF_TOKEN具有写入权限

问题：“模板渲染错误”

解决方案：检查Markdown语法和YAML前置内容格式

资源和参考文献

Hugging Face论文页面：hf.co/papers
模型卡片指南：hf.co/docs/hub/model-cards
数据集卡片指南：hf.co/docs/hub/datasets-cards
研究文章模板：tfrere/research-article-template
arXiv格式指南：arxiv.org/help/submit

与tfrere的研究模板集成

此技能补充了tfrere的研究文章模板，提供：

自动化论文索引工作流程
存储库链接能力
元数据管理工具
引用生成实用程序

您可以使用tfrere的模板进行写作，然后使用此技能在Hugging Face Hub上发布和链接论文。

常见模式

模式1：新论文发布

# 写作 → 发布 → 索引 → 链接
uv run scripts/paper_manager.py create --template modern --output paper.md
# （提交到arXiv）
uv run scripts/paper_manager.py index --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"

模式2：现有论文发现

# 搜索 → 检查 → 链接
uv run scripts/paper_manager.py search --query "transformers"
uv run scripts/paper_manager.py check --arxiv-id "2301.12345"
uv run scripts/paper_manager.py link --repo-id "user/model" --arxiv-id "2301.12345"

模式3：作者作品集管理

# 声明 → 验证 → 组织
uv run scripts/paper_manager.py claim --arxiv-id "2301.12345"
uv run scripts/paper_manager.py list-my-papers
uv run scripts/paper_manager.py toggle-visibility --arxiv-id "2301.12345" --show true

API集成

Python脚本示例：

from scripts.paper_manager import PaperManager

pm = PaperManager(hf_token="your_token")

# 索引论文
pm.index_paper("2301.12345")

# 链接到模型
pm.link_paper(
    repo_id="username/model",
    repo_type="model",
    arxiv_id="2301.12345",
    citation="完整引用文本"
)

# 检查状态
status = pm.check_paper("2301.12345")
print(status)

未来增强

未来版本的计划功能：

支持非arXiv论文（会议论文、期刊）
从DOI自动格式化引用
论文比较和版本工具
协作论文写作功能
与LaTeX工作流程集成
自动图形和表格提取
论文指标和影响跟踪