Name: 语音转文字Skill
Rating: 5 (1 reviews)
Author: inference

name: 语音转文字 description: “通过inference.sh CLI使用Whisper模型将音频转录为文本。模型：Fast Whisper Large V3, Whisper V3 Large。功能：转录、翻译、多语言、时间戳。用途：会议转录、字幕、播客转录、语音笔记。触发词：语音转文字、转录、whisper、音频转文本、转录音频、语音转文本、stt、自动转录、字幕生成、转录会议、音频转录、whisper ai” allowed-tools: Bash(infsh *)

语音转文字

通过 inference.sh CLI 将音频转录为文本。

语音转文字

快速开始

curl -fsSL https://cli.inference.sh | sh && infsh login

infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://audio.mp3"}'

安装说明： 安装脚本仅检测您的操作系统/架构，从 dist.inference.sh 下载匹配的二进制文件，并验证其 SHA-256 校验和。无需提升权限或后台进程。手动安装与验证可用。

可用模型

模型	App ID	最佳用途
Fast Whisper V3	`infsh/fast-whisper-large-v3`	快速转录
Whisper V3 Large	`infsh/whisper-v3-large`	最高准确度

示例

基本转录

infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://meeting.mp3"}'

带时间戳

infsh app sample infsh/fast-whisper-large-v3 --save input.json

# {
#   "audio_url": "https://podcast.mp3",
#   "timestamps": true
# }

infsh app run infsh/fast-whisper-large-v3 --input input.json

翻译（至英语）

infsh app run infsh/whisper-v3-large --input '{
  "audio_url": "https://french-audio.mp3",
  "task": "translate"
}'

从视频提取

# 首先从视频提取音频
infsh app run infsh/video-audio-extractor --input '{"video_url": "https://video.mp4"}' > audio.json

# 转录提取的音频
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "<audio-url>"}'

工作流：视频字幕

# 1. 转录视频音频
infsh app run infsh/fast-whisper-large-v3 --input '{
  "audio_url": "https://video.mp4",
  "timestamps": true
}' > transcript.json

# 2. 使用转录生成字幕
infsh app run infsh/caption-videos --input '{
  "video_url": "https://video.mp4",
  "captions": "<transcript-from-step-1>"
}'

支持语言

Whisper 支持 99+ 语言，包括：英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语、印地语、俄语等。

使用场景

会议：转录录音
播客：生成文字稿
字幕：为视频创建字幕
语音笔记：转换为可搜索文本
访谈：研究用转录
无障碍：使音频内容更易访问

输出格式

返回 JSON，包含：

text：完整转录文本
segments：带时间戳的段落（如请求）
language：检测到的语言

文档

运行应用 - 如何通过 CLI 运行应用
音频转录示例 - 完整转录指南
应用概述 - 了解应用生态系统

语音转文字Skill speech-to-text

语音转文字

快速开始

可用模型

示例

基本转录

带时间戳

翻译（至英语）

从视频提取

工作流：视频字幕

支持语言

使用场景

输出格式

相关技能

文档