计算机视觉 Skill技能列表
FiftyOne图像去重工具Skill fiftyone-find-duplicates
FiftyOne图像去重工具是一个基于深度学习的计算机视觉工具,专门用于在图像数据集中查找和移除重复或近似重复的图像。通过使用FiftyOne大脑插件的相似度计算功能,该工具能够自动识别视觉相似的图像,支持数据集清洗、图像聚类、冗余样本删除等操作。主要功能包括:计算图像嵌入向量、查找完全重复和近似重复图像、按相似度排序、自动去重等。适用于机器学习数据预处理、计算机视觉项目、图像数据集管理等场景。关键词:图像去重、FiftyOne、深度学习、计算机视觉、数据集清洗、相似度计算、图像聚类、数据预处理、AI工具、视觉识别。
目标检测与分割技能Skill ObjectDetection/SegmentationSkill
该技能专注于在机器人感知领域部署和优化深度学习模型,实现高效的目标检测、实例分割、3D目标检测以及多目标跟踪。核心能力包括配置YOLO、Detectron2等主流框架,进行TensorRT模型加速,搭建ROS视觉管道,并支持多摄像头数据融合。适用于需要实时、精准环境感知的自动化与机器人系统开发。关键词:目标检测,实例分割,深度学习,机器人视觉,YOLO,Detectron2,TensorRT,ROS,3D检测,多目标跟踪。
BLIP-2视觉语言预训练框架Skill blip-2-vision-language
BLIP-2是一个先进的视觉语言预训练框架,用于实现图像字幕生成、视觉问答(VQA)、图像文本检索和多模态聊天等功能。它采用Q-Former架构,桥接冻结的图像编码器和大型语言模型,提供零样本性能,无需任务特定训练。适用于计算机视觉和自然语言处理的多模态AI应用。关键词:BLIP-2、视觉语言预训练、图像字幕、视觉问答、VQA、多模态AI、计算机视觉、自然语言处理、零样本学习、Q-Former。
AI视觉准确性检查Skill ai-visual-accuracy-check
AI视觉准确性检查是一种基于人工智能的质量保证技能,用于验证HTML页面渲染与原始PDF文档的视觉一致性。该技能通过多模态AI模型(如Claude)对PDF截图和HTML渲染截图进行智能对比分析,评估布局匹配、视觉层次、内容定位和排版样式四个维度,提供0-100的客观评分和详细差异报告。作为流水线中的阻塞性质量门控,当评分低于85%时会自动停止部署流程,确保数字出版物的视觉保真度和用户体验。关键词:AI视觉验证、PDF转HTML质量检查、多模态AI比较、自动化质量门控、视觉一致性评估、Claude API集成、网页渲染准确性、文档数字化质量控制。
抓取规划技能Skill GraspPlanningSkill
抓取规划技能是机器人操作领域的核心技术,专注于机器人抓取姿态生成、质量评估和夹爪控制。该技能支持对向抓取检测、6自由度姿态估计、碰撞感知选择等关键功能,适用于拾取放置、料箱拣选等工业自动化场景。核心能力包括GPD算法配置、GraspIt!集成、MoveIt抓取库应用,为智能制造、工业机器人提供专业抓取解决方案。
感知系统Skill perception-system
该技能为AI提供多模态感知能力,包括视觉锥、听觉系统、嗅觉/接近检测和威胁评估,用于环境感知、目标识别和安全监控等场景。关键词:AI感知,视觉检测,听觉系统,威胁评估,环境感知,目标识别,安全监控。
Platerecognizer自动化Skill platerecognizer-automation
这个技能用于通过Rube MCP和Composio工具包自动化Platerecognizer的车牌识别任务,实现工具集成、连接管理和操作执行。关键词:车牌识别,自动化,Rube MCP,Composio,计算机视觉,工具集成,AI应用。
边缘部署技能Skill EdgeDeploymentSkill
该技能专注于将机器学习模型高效部署到机器人及嵌入式边缘设备(如NVIDIA Jetson)。核心功能包括模型优化(TensorRT、ONNX转换、INT8/FP16量化、模型剪枝)、加速推理配置(DeepStream、CUDA图、DLA)、以及集成实现(ROS2节点、多流推理)。旨在解决边缘计算场景下的模型轻量化、低延迟推理与硬件适配挑战,适用于机器人视觉、自动驾驶、工业检测等实时AI应用部署。 关键词:边缘计算部署,Jetson模型优化,TensorRT加速,ONNX转换,INT8量化,DeepStream,ROS2推理节点,嵌入式AI,模型轻量化,低延迟推理
ImagePreprocessingSkill ImagePreprocessing
使用Python和OpenCV进行图像预处理,以优化OCR和计算机视觉任务的执行。关键技术包括颜色空间转换、图像降噪、阈值处理、形态学操作、边缘检测和图像纠偏。
FiftyOne数据集推理工具Skill fiftyone-dataset-inference
FiftyOne数据集推理工具是一个用于计算机视觉任务的端到端解决方案,支持从本地目录创建数据集、导入COCO/YOLO/VOC等标准格式标签、运行深度学习模型推理并存储预测结果。该工具提供完整的ML管道,适用于目标检测、图像分类、语义分割等计算机视觉应用,帮助用户高效管理视觉数据集和模型评估。
SAM图像分割模型Skill segment-anything-model
SAM(分割任意模型)是一个用于图像分割的先进AI模型,支持零样本学习,能够通过点、框或掩码提示来分割图像中的任意对象,或自动生成所有对象掩码。适用于计算机视觉任务,如图像标注、对象检测和自动掩码生成。关键词:图像分割、零样本学习、SAM、计算机视觉、AI模型、深度学习。
UniversalDatasetImportforFiftyOneSkill fiftyone-dataset-import
FiftyOne数据集导入技能,支持所有媒体类型和标签格式,自动检测和处理多模态数据集,适用于自动驾驶和3D场景数据。