计算机视觉 - SkillsBot AI Skill技能库

该技能专注于在机器人感知领域部署和优化深度学习模型，实现高效的目标检测、实例分割、3D目标检测以及多目标跟踪。核心能力包括配置YOLO、Detectron2等主流框架，进行TensorRT模型加速，搭建ROS视觉管道，并支持多摄像头数据融合。适用于需要实时、精准环境感知的自动化与机器人系统开发。关键词：目标检测，实例分割，深度学习，机器人视觉，YOLO，Detectron2，TensorRT，ROS，3D检测，多目标跟踪。

安装

⚡

数字病理图像处理工具包Skill histolab

4.5

Histolab 是一个Python库，专门用于处理数字病理中的全玻片图像（WSI）。它自动化组织检测，从高分辨率图像中提取信息块，并为深度学习管道准备数据集。支持多种图像格式，实现组织分割和灵活的提取策略。关键词：数字病理、图像处理、WSI、组织检测、图块提取、深度学习、计算机视觉、医学影像。

安装

⚡

图像增强器Skill image-enhancer

4.5

图像增强器是一款AI工具，专注于提升图像质量，特别是截图。它能智能分析图像，进行分辨率放大、锐化处理、去噪降噪，并针对不同使用场景（如社交媒体、文档、演示文稿）进行优化。核心功能包括：图像质量分析、智能超分辨率、细节锐化、压缩伪影消除。适用于博客作者、内容创作者、设计师、产品经理等需要高质量视觉素材的用户。关键词：图像增强，AI图像处理，截图优化，分辨率提升，图片锐化，去噪工具，批量处理，社交媒体图片优化。

安装

⚡

抓取规划技能Skill GraspPlanningSkill

4.5

抓取规划技能是机器人操作领域的核心技术，专注于机器人抓取姿态生成、质量评估和夹爪控制。该技能支持对向抓取检测、6自由度姿态估计、碰撞感知选择等关键功能，适用于拾取放置、料箱拣选等工业自动化场景。核心能力包括GPD算法配置、GraspIt!集成、MoveIt抓取库应用，为智能制造、工业机器人提供专业抓取解决方案。

安装

⚡

背景移除Skill background-removal

4.5

这个技能利用BiRefNet AI模型通过inference.sh命令行工具高效移除图像背景，支持产品照片、肖像等多种图像类型，生成透明PNG，适用于电商、营销和设计场景，关键词包括背景移除、图像编辑、AI模型、inference.sh、透明PNG。

安装

⚡

AI视觉准确性检查Skill ai-visual-accuracy-check

4.5

AI视觉准确性检查是一种基于人工智能的质量保证技能，用于验证HTML页面渲染与原始PDF文档的视觉一致性。该技能通过多模态AI模型（如Claude）对PDF截图和HTML渲染截图进行智能对比分析，评估布局匹配、视觉层次、内容定位和排版样式四个维度，提供0-100的客观评分和详细差异报告。作为流水线中的阻塞性质量门控，当评分低于85%时会自动停止部署流程，确保数字出版物的视觉保真度和用户体验。关键词：AI视觉验证、PDF转HTML质量检查、多模态AI比较、自动化质量门控、视觉一致性评估、Claude API集成、网页渲染准确性、文档数字化质量控制。

安装

⚡

Gemini视觉API技能Skill gemini-vision

4.5

这个技能使用Google Gemini API实现高级图像理解功能，包括图像描述、分类、视觉问答、对象检测、分割和多图像分析。适用于图像分析、视觉问题回答、对象检测或处理带有视觉的文档，关键词：Gemini API, 图像理解, 计算机视觉, AI视觉分析。

安装

⚡

OCR文档转换器Skill ocr

4.5

OCR文档转换器是一款基于Claude vision技术的智能文件处理工具，专门用于将PDF和图像文件通过OCR光学字符识别转换为可编辑的Markdown格式。支持批量处理、并行转换、自定义提取指令，具备智能表格识别、代码提取、多语言翻译等功能。适用于文档数字化、数据提取、内容归档等场景。关键词：OCR识别、PDF转换、图像转文本、Markdown生成、文档数字化、批量处理、智能提取、表格识别、代码提取、多格式支持。

安装

⚡

ImagePreprocessingSkill ImagePreprocessing

4.5

使用Python和OpenCV进行图像预处理，以优化OCR和计算机视觉任务的执行。关键技术包括颜色空间转换、图像降噪、阈值处理、形态学操作、边缘检测和图像纠偏。

安装