计算机视觉 - SkillsBot AI Skill技能库

热门搜索：openclaw springboot vue react 短视频智能体 rag 爬虫量化区块链比特币

计算机视觉 Skill技能列表

BLIP-2视觉语言预训练框架Skill blip-2-vision-language

BLIP-2是一个先进的视觉语言预训练框架，用于实现图像字幕生成、视觉问答（VQA）、图像文本检索和多模态聊天等功能。它采用Q-Former架构，桥接冻结的图像编码器和大型语言模型，提供零样本性能，无需任务特定训练。适用于计算机视觉和自然语言处理的多模态AI应用。关键词：BLIP-2、视觉语言预训练、图像字幕、视觉问答、VQA、多模态AI、计算机视觉、自然语言处理、零样本学习、Q-Former。

安装

⚡

PDF分析器Skill pdf-analyzer

4.5

PDF 分析器是一个使用视觉模型分析 PDF、DOCX 和电子表格文档的技能，通过将文档渲染为图像以保留布局和格式，并提取关键见解。适用于文档自动化处理、数据提取和内容分析，关键词包括：文档分析、视觉模型、布局保留、PDF 处理、数据提取、自动化分析。

安装

⚡

Gemini视觉API技能Skill gemini-vision

4.5

此技能基于Google的Gemini API，实现图像理解和分析功能，支持图像描述、分类、视觉问答、对象检测、分割和多图像比较，适用于AI应用和计算机视觉任务，关键词：图像理解、Gemini API、人工智能、计算机视觉、图像分析、AI模型。

安装

⚡

图像增强器Skill image-enhancer

4.5

图像增强器是一个基于AI的技能，用于自动提升图像质量，包括智能放大分辨率、锐化细节、减少压缩伪影，优化图像以适用于博客、文档、社交媒体和演示等场景，提升视觉表现。

安装

⚡

FiftyOne代码风格指南Skill fiftyone-code-style

4.5

FiftyOne代码风格指南是一套完整的Python编码规范，专门为FiftyOne计算机视觉数据集管理框架设计。该指南详细规定了模块结构、导入组织、文档字符串格式、私有函数命名、延迟导入策略、错误处理模式和代码质量检查清单。适用于开发者为FiftyOne贡献代码、开发插件或编写与FiftyOne代码库集成的Python程序时遵循，确保代码风格统一、可维护性强。关键词：FiftyOne, Python代码规范, 计算机视觉, 数据集管理, 代码风格, 开发指南, 开源贡献

安装

⚡

感知系统Skill perception-system

4.5

该技能为AI提供多模态感知能力，包括视觉锥、听觉系统、嗅觉/接近检测和威胁评估，用于环境感知、目标识别和安全监控等场景。关键词：AI感知，视觉检测，听觉系统，威胁评估，环境感知，目标识别，安全监控。

安装

⚡

数字病理学全幻灯片图像处理技能Skill histolab

4.5

Histolab是一个用于数字病理学的Python库，专为全幻灯片图像（WSI）的组织检测、瓦片提取和预处理设计，支持自动化组织分割、多种瓦片提取策略（随机、网格、评分）和图像过滤，适用于深度学习管道、数据集准备和医学图像分析。关键词：数字病理学、WSI、组织检测、瓦片提取、预处理、Python库、深度学习、医学图像、计算机视觉、H&E染色。

安装

⚡

FiftyOne数据集推理工具Skill fiftyone-dataset-inference

4.5

FiftyOne数据集推理工具是一个用于计算机视觉任务的端到端解决方案，支持从本地目录创建数据集、导入COCO/YOLO/VOC等标准格式标签、运行深度学习模型推理并存储预测结果。该工具提供完整的ML管道，适用于目标检测、图像分类、语义分割等计算机视觉应用，帮助用户高效管理视觉数据集和模型评估。

安装

⚡

OCRwithTesseractSkill OCRwithTesseract

4.5

使用Tesseract OCR引擎和Python进行光学字符识别（OCR）的综合指南，包括安装、基本用法、多语言支持、图像预处理、OCR配置优化、后处理等。

安装

⚡

计算机视觉Skill ComputerVision

4.5

利用PyTorch和TensorFlow实现图像分类、目标检测、语义分割等计算机视觉任务

安装

⚡

NVIDIAIsaacSim逼真模拟与合成数据生成技能Skill NVIDIAIsaacSimSkill

4.5

NVIDIA Isaac Sim 技能是一个专注于利用NVIDIA Isaac Sim平台进行高保真、照片级逼真模拟和合成数据生成的专家级工具。它集成了Omniverse和Replicator，能够高效创建虚拟环境、配置物理引擎、实现领域随机化，并生成带标注的训练数据，广泛应用于机器人仿真、自动驾驶、数字孪生和强化学习等领域。关键词：NVIDIA Isaac Sim，逼真模拟，合成数据生成，Omniverse，Replicator，物理模拟，领域随机化，机器人仿真，自动驾驶，数字孪生，USD格式，ROS桥接，RTX光线追踪。

安装

⚡

Platerecognizer自动化Skill platerecognizer-automation

4.5

这个技能用于通过Rube MCP和Composio工具包自动化Platerecognizer的车牌识别任务，实现工具集成、连接管理和操作执行。关键词：车牌识别，自动化，Rube MCP，Composio，计算机视觉，工具集成，AI应用。

安装