计算机视觉 - SkillsBot AI Skill技能库

YOLO集成Skill YOLOIntegration

本技能提供使用Ultralytics库集成YOLO（You Only Look Once）对象检测模型的全面指南，涵盖YOLOv8和YOLOv9模型的加载、推理、自定义训练、对象检测、实例分割、姿态估计、实时推理、批处理、API集成、性能优化和生产部署。关键词：YOLO, 对象检测, Ultralytics, 计算机视觉, 深度学习, AI集成, 图像处理, 实时分析, 部署优化

15+

高级计算机视觉工程师Skill senior-computer-vision

本技能专注于生产级计算机视觉工程，涵盖目标检测、图像分割和视觉AI系统的部署。包括CNN和视觉变换器架构，YOLO/Faster R-CNN/DETR检测，Mask R-CNN/SAM分割，以及ONNX/TensorRT的生产部署。涉及PyTorch、torchvision、Ultralytics、Detectron2和MMDetection框架。

10+

计算机视觉技能Skill ComputerVisionSkill

计算机视觉技能是机器人视觉应用的核心技术，专注于相机标定、特征检测与跟踪、立体视觉和视觉伺服。该技能能够实现高精度的相机内参和外参标定，支持多种特征检测算法（如ORB、SIFT、SuperPoint）和光流跟踪技术（如Lucas-Kanade），并应用于视觉SLAM、物体检测、数字孪生等机器人流程。关键词：计算机视觉，机器人视觉，相机标定，特征检测，视觉跟踪，立体视觉，视觉伺服，OpenCV，SLAM，图像处理。

高级计算机视觉专家Skill senior-computer-vision

高级计算机视觉专家技能专注于构建和部署生产级视觉AI系统，涵盖图像/视频处理、目标检测、语义分割、3D视觉、实时推理等核心领域。专家精通PyTorch、OpenCV、YOLO、SAM、扩散模型及视觉Transformer等前沿技术栈，擅长设计可扩展的MLOps架构、优化模型性能与部署流程，并确保系统的高可用性、安全合规与成本效益。适用于自动驾驶、安防监控、工业质检、医疗影像、内容生成等场景的AI解决方案开发。关键词：计算机视觉，目标检测，图像分割，PyTorch，OpenCV，YOLO，SAM，扩散模型，视觉Transformer，AI模型部署，MLOps，实时推理，3D视觉，视频分析，生产级AI系统

10+

多模态分析技能Skill multimodal-analysis

多模态分析技能是一种高级人工智能能力，专门用于解读和分析包含视觉元素的复杂媒体文件。该技能能够从PDF文档、图像、技术图表、数据可视化、UI界面等多种格式中，提取结构化信息、理解视觉上下文、识别模式关系，并提供超越简单文本提取的深度见解。核心功能包括文档内容提取、图表解读、数据可视化分析、表格信息抽取和视觉内容理解，适用于文档处理、图像识别、数据分析、技术解读等多种场景。

OCR空间自动化Skill ocrspace-automation

这个技能用于通过Rube MCP自动化OCRspace操作，实现光学字符识别任务的自动化处理。关键词包括OCR、自动化、Rube MCP、Composio、工具发现、工作流管理、计算机视觉、数据处理。

视觉分析师Skill vision

这是一个基于大模型的视觉分析技能，专门用于解读和分析各类图像内容。核心功能包括：识别图像中的UI元素、提取文本信息、解析图表结构、分析布局设计、诊断错误截图。适用于软件开发截图分析、架构图理解、UI设计稿评审、错误排查等场景。关键词：视觉分析，图像识别，UI分析，图表解析，错误诊断，截图解读，AI视觉助手。

点云处理技能Skill PointCloudProcessingSkill

本技能专注于利用PCL和Open3D库，对三维点云数据进行高效处理与分析。核心功能包括点云滤波、分割、聚类、表面重建、特征提取、点云配准以及激光雷达与相机数据融合，是自动驾驶、机器人感知、三维建模等领域的关键技术。关键词：点云处理，3D点云，激光雷达LiDAR，PCL，Open3D，点云配准，点云分割，计算机视觉。

边缘部署技能Skill EdgeDeploymentSkill

该技能专注于将机器学习模型高效部署到机器人及嵌入式边缘设备（如NVIDIA Jetson）。核心功能包括模型优化（TensorRT、ONNX转换、INT8/FP16量化、模型剪枝）、加速推理配置（DeepStream、CUDA图、DLA）、以及集成实现（ROS2节点、多流推理）。旨在解决边缘计算场景下的模型轻量化、低延迟推理与硬件适配挑战，适用于机器人视觉、自动驾驶、工业检测等实时AI应用部署。关键词：边缘计算部署，Jetson模型优化，TensorRT加速，ONNX转换，INT8量化，DeepStream，ROS2推理节点，嵌入式AI，模型轻量化，低延迟推理

FiftyOne图像去重工具Skill fiftyone-find-duplicates

FiftyOne图像去重工具是一个基于深度学习的计算机视觉工具，专门用于在图像数据集中查找和移除重复或近似重复的图像。通过使用FiftyOne大脑插件的相似度计算功能，该工具能够自动识别视觉相似的图像，支持数据集清洗、图像聚类、冗余样本删除等操作。主要功能包括：计算图像嵌入向量、查找完全重复和近似重复图像、按相似度排序、自动去重等。适用于机器学习数据预处理、计算机视觉项目、图像数据集管理等场景。关键词：图像去重、FiftyOne、深度学习、计算机视觉、数据集清洗、相似度计算、图像聚类、数据预处理、AI工具、视觉识别。

基于位置的增强现实体验Skill location-ar-experience

这个技能用于设计和开发基于地理位置的增强现实（AR）体验，通过地理空间锚定、GPS集成、计算机视觉和空间计算技术，在真实世界中实现交互式覆盖。适用于城市导航、兴趣点发现、室内定位等应用场景，支持移动AR平台如ARKit、ARCore和WebXR。关键词：增强现实、AR、地理位置、GPS、计算机视觉、SLAM、地理空间锚定、移动AR、空间计算、交互设计。