计算机视觉 Skill技能列表

4.5

GLM-4V图像分析工具Skill glm4v-analyze-image

GLM-4V图像分析工具是智谱AI开发的多模态视觉语言模型接口,专用于图像内容识别、视觉问答和细节分析。该工具能对上传的图片进行智能解读,包括物体识别、场景描述、OCR文字提取、情感氛围分析等,支持通过自然语言提示进行交互式图像分析。适用于内容审核、智能客服、教育辅助、数据标注等多种场景,为开发者提供强大的计算机视觉AI能力。关键词:GLM-4V,图像分析,视觉问答,多模态AI,计算机视觉,OCR识别,内容理解,AI图像识别。

4.5

YOLO集成Skill YOLOIntegration

本技能提供使用Ultralytics库集成YOLO(You Only Look Once)对象检测模型的全面指南,涵盖YOLOv8和YOLOv9模型的加载、推理、自定义训练、对象检测、实例分割、姿态估计、实时推理、批处理、API集成、性能优化和生产部署。关键词:YOLO, 对象检测, Ultralytics, 计算机视觉, 深度学习, AI集成, 图像处理, 实时分析, 部署优化

4.5

计算机视觉技能Skill ComputerVisionSkill

计算机视觉技能是机器人视觉应用的核心技术,专注于相机标定、特征检测与跟踪、立体视觉和视觉伺服。该技能能够实现高精度的相机内参和外参标定,支持多种特征检测算法(如ORB、SIFT、SuperPoint)和光流跟踪技术(如Lucas-Kanade),并应用于视觉SLAM、物体检测、数字孪生等机器人流程。关键词:计算机视觉,机器人视觉,相机标定,特征检测,视觉跟踪,立体视觉,视觉伺服,OpenCV,SLAM,图像处理。

4.5

高级计算机视觉工程师Skill senior-computer-vision

本技能专注于生产级计算机视觉工程,涵盖目标检测、图像分割和视觉AI系统的部署。包括CNN和视觉变换器架构,YOLO/Faster R-CNN/DETR检测,Mask R-CNN/SAM分割,以及ONNX/TensorRT的生产部署。涉及PyTorch、torchvision、Ultralytics、Detectron2和MMDetection框架。

4.5

OCR空间自动化Skill ocrspace-automation

这个技能用于通过Rube MCP自动化OCRspace操作,实现光学字符识别任务的自动化处理。关键词包括OCR、自动化、Rube MCP、Composio、工具发现、工作流管理、计算机视觉、数据处理。

4.5

高级计算机视觉专家Skill senior-computer-vision

高级计算机视觉专家技能专注于构建和部署生产级视觉AI系统,涵盖图像/视频处理、目标检测、语义分割、3D视觉、实时推理等核心领域。专家精通PyTorch、OpenCV、YOLO、SAM、扩散模型及视觉Transformer等前沿技术栈,擅长设计可扩展的MLOps架构、优化模型性能与部署流程,并确保系统的高可用性、安全合规与成本效益。适用于自动驾驶、安防监控、工业质检、医疗影像、内容生成等场景的AI解决方案开发。 关键词:计算机视觉,目标检测,图像分割,PyTorch,OpenCV,YOLO,SAM,扩散模型,视觉Transformer,AI模型部署,MLOps,实时推理,3D视觉,视频分析,生产级AI系统

4.5

OCRwithPaddleOCRSkill OCRwithPaddleOCR

PaddleOCR是一个强大的开源OCR工具包,支持多语言文本识别、表格识别和文档布局分析,适用于各种文档处理场景。

4.5

多模态分析技能Skill multimodal-analysis

多模态分析技能是一种高级人工智能能力,专门用于解读和分析包含视觉元素的复杂媒体文件。该技能能够从PDF文档、图像、技术图表、数据可视化、UI界面等多种格式中,提取结构化信息、理解视觉上下文、识别模式关系,并提供超越简单文本提取的深度见解。核心功能包括文档内容提取、图表解读、数据可视化分析、表格信息抽取和视觉内容理解,适用于文档处理、图像识别、数据分析、技术解读等多种场景。

4.5

视觉分析师Skill vision

这是一个基于大模型的视觉分析技能,专门用于解读和分析各类图像内容。核心功能包括:识别图像中的UI元素、提取文本信息、解析图表结构、分析布局设计、诊断错误截图。适用于软件开发截图分析、架构图理解、UI设计稿评审、错误排查等场景。关键词:视觉分析,图像识别,UI分析,图表解析,错误诊断,截图解读,AI视觉助手。

4.5

点云处理技能Skill PointCloudProcessingSkill

本技能专注于利用PCL和Open3D库,对三维点云数据进行高效处理与分析。核心功能包括点云滤波、分割、聚类、表面重建、特征提取、点云配准以及激光雷达与相机数据融合,是自动驾驶、机器人感知、三维建模等领域的关键技术。关键词:点云处理,3D点云,激光雷达LiDAR,PCL,Open3D,点云配准,点云分割,计算机视觉。

4.5

图像增强器Skill image-enhancer

图像增强器是一款AI工具,专注于提升图像质量,特别是截图。它能智能分析图像,进行分辨率放大、锐化处理、去噪降噪,并针对不同使用场景(如社交媒体、文档、演示文稿)进行优化。核心功能包括:图像质量分析、智能超分辨率、细节锐化、压缩伪影消除。适用于博客作者、内容创作者、设计师、产品经理等需要高质量视觉素材的用户。关键词:图像增强,AI图像处理,截图优化,分辨率提升,图片锐化,去噪工具,批量处理,社交媒体图片优化。

4.5

FiftyOne代码风格指南Skill fiftyone-code-style

FiftyOne代码风格指南是一套完整的Python编码规范,专门为FiftyOne计算机视觉数据集管理框架设计。该指南详细规定了模块结构、导入组织、文档字符串格式、私有函数命名、延迟导入策略、错误处理模式和代码质量检查清单。适用于开发者为FiftyOne贡献代码、开发插件或编写与FiftyOne代码库集成的Python程序时遵循,确保代码风格统一、可维护性强。关键词:FiftyOne, Python代码规范, 计算机视觉, 数据集管理, 代码风格, 开发指南, 开源贡献