计算机视觉 Skill技能列表
边缘部署技能Skill EdgeDeploymentSkill
该技能专注于将机器学习模型高效部署到机器人及嵌入式边缘设备(如NVIDIA Jetson)。核心功能包括模型优化(TensorRT、ONNX转换、INT8/FP16量化、模型剪枝)、加速推理配置(DeepStream、CUDA图、DLA)、以及集成实现(ROS2节点、多流推理)。旨在解决边缘计算场景下的模型轻量化、低延迟推理与硬件适配挑战,适用于机器人视觉、自动驾驶、工业检测等实时AI应用部署。 关键词:边缘计算部署,Jetson模型优化,TensorRT加速,ONNX转换,INT8量化,DeepStream,ROS2推理节点,嵌入式AI,模型轻量化,低延迟推理
图像增强器Skill image-enhancer
图像增强器是一款AI工具,专注于提升图像质量,特别是截图。它能智能分析图像,进行分辨率放大、锐化处理、去噪降噪,并针对不同使用场景(如社交媒体、文档、演示文稿)进行优化。核心功能包括:图像质量分析、智能超分辨率、细节锐化、压缩伪影消除。适用于博客作者、内容创作者、设计师、产品经理等需要高质量视觉素材的用户。关键词:图像增强,AI图像处理,截图优化,分辨率提升,图片锐化,去噪工具,批量处理,社交媒体图片优化。
SAM图像分割模型Skill segment-anything-model
SAM(分割任意模型)是一个用于图像分割的先进AI模型,支持零样本学习,能够通过点、框或掩码提示来分割图像中的任意对象,或自动生成所有对象掩码。适用于计算机视觉任务,如图像标注、对象检测和自动掩码生成。关键词:图像分割、零样本学习、SAM、计算机视觉、AI模型、深度学习。
高级计算机视觉Skill senior-computer-vision
高级计算机视觉技能专注于图像和视频处理、物体检测、分割与视觉AI系统构建,关键技术包括PyTorch、OpenCV、YOLO、SAM、扩散模型和视觉变压器。适用于生产环境部署、实时推理、模型训练优化、AI系统开发与性能调优,服务于企业级AI/ML数据解决方案,提升图像识别、视频分析自动化水平。
抓取规划技能Skill GraspPlanningSkill
抓取规划技能是机器人操作领域的核心技术,专注于机器人抓取姿态生成、质量评估和夹爪控制。该技能支持对向抓取检测、6自由度姿态估计、碰撞感知选择等关键功能,适用于拾取放置、料箱拣选等工业自动化场景。核心能力包括GPD算法配置、GraspIt!集成、MoveIt抓取库应用,为智能制造、工业机器人提供专业抓取解决方案。
数字病理图像处理工具包Skill histolab
Histolab 是一个Python库,专门用于处理数字病理中的全玻片图像(WSI)。它自动化组织检测,从高分辨率图像中提取信息块,并为深度学习管道准备数据集。支持多种图像格式,实现组织分割和灵活的提取策略。关键词:数字病理、图像处理、WSI、组织检测、图块提取、深度学习、计算机视觉、医学影像。
AI视觉准确性检查Skill ai-visual-accuracy-check
AI视觉准确性检查是一种基于人工智能的质量保证技能,用于验证HTML页面渲染与原始PDF文档的视觉一致性。该技能通过多模态AI模型(如Claude)对PDF截图和HTML渲染截图进行智能对比分析,评估布局匹配、视觉层次、内容定位和排版样式四个维度,提供0-100的客观评分和详细差异报告。作为流水线中的阻塞性质量门控,当评分低于85%时会自动停止部署流程,确保数字出版物的视觉保真度和用户体验。关键词:AI视觉验证、PDF转HTML质量检查、多模态AI比较、自动化质量门控、视觉一致性评估、Claude API集成、网页渲染准确性、文档数字化质量控制。
目标检测与分割技能Skill ObjectDetection/SegmentationSkill
该技能专注于在机器人感知领域部署和优化深度学习模型,实现高效的目标检测、实例分割、3D目标检测以及多目标跟踪。核心能力包括配置YOLO、Detectron2等主流框架,进行TensorRT模型加速,搭建ROS视觉管道,并支持多摄像头数据融合。适用于需要实时、精准环境感知的自动化与机器人系统开发。关键词:目标检测,实例分割,深度学习,机器人视觉,YOLO,Detectron2,TensorRT,ROS,3D检测,多目标跟踪。
FiftyOne代码风格指南Skill fiftyone-code-style
FiftyOne代码风格指南是一套完整的Python编码规范,专门为FiftyOne计算机视觉数据集管理框架设计。该指南详细规定了模块结构、导入组织、文档字符串格式、私有函数命名、延迟导入策略、错误处理模式和代码质量检查清单。适用于开发者为FiftyOne贡献代码、开发插件或编写与FiftyOne代码库集成的Python程序时遵循,确保代码风格统一、可维护性强。关键词:FiftyOne, Python代码规范, 计算机视觉, 数据集管理, 代码风格, 开发指南, 开源贡献
BLIP-2视觉语言预训练框架Skill blip-2-vision-language
BLIP-2是一个先进的视觉语言预训练框架,用于实现图像字幕生成、视觉问答(VQA)、图像文本检索和多模态聊天等功能。它采用Q-Former架构,桥接冻结的图像编码器和大型语言模型,提供零样本性能,无需任务特定训练。适用于计算机视觉和自然语言处理的多模态AI应用。关键词:BLIP-2、视觉语言预训练、图像字幕、视觉问答、VQA、多模态AI、计算机视觉、自然语言处理、零样本学习、Q-Former。
ImagePreprocessingSkill ImagePreprocessing
使用Python和OpenCV进行图像预处理,以优化OCR和计算机视觉任务的执行。关键技术包括颜色空间转换、图像降噪、阈值处理、形态学操作、边缘检测和图像纠偏。
Gemini视觉API技能Skill gemini-vision
这个技能使用Google Gemini API实现高级图像理解功能,包括图像描述、分类、视觉问答、对象检测、分割和多图像分析。适用于图像分析、视觉问题回答、对象检测或处理带有视觉的文档,关键词:Gemini API, 图像理解, 计算机视觉, AI视觉分析。