语音转文字Skill speech-to-text

这个技能利用基于Whisper模型的AI技术,通过inference.sh命令行界面,高效地将音频文件转录为文本,支持多语言识别、时间戳标注和翻译功能,适用于会议记录、播客制作、视频字幕生成、语音笔记转化等多种场景。关键词:语音转文字,音频转录,AI语音识别,Whisper模型,inference.sh,自动字幕,多语言支持,语音识别。

NLP 0 次安装 0 次浏览 更新于 3/12/2026

name: 语音转文字 description: “通过inference.sh CLI使用Whisper模型将音频转录为文本。模型:Fast Whisper Large V3, Whisper V3 Large。功能:转录、翻译、多语言、时间戳。用途:会议转录、字幕、播客转录、语音笔记。触发词:语音转文字、转录、whisper、音频转文本、转录音频、语音转文本、stt、自动转录、字幕生成、转录会议、音频转录、whisper ai” allowed-tools: Bash(infsh *)

语音转文字

通过 inference.sh CLI 将音频转录为文本。

语音转文字

快速开始

curl -fsSL https://cli.inference.sh | sh && infsh login

infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://audio.mp3"}'

安装说明: 安装脚本 仅检测您的操作系统/架构,从 dist.inference.sh 下载匹配的二进制文件,并验证其 SHA-256 校验和。无需提升权限或后台进程。手动安装与验证 可用。

可用模型

模型 App ID 最佳用途
Fast Whisper V3 infsh/fast-whisper-large-v3 快速转录
Whisper V3 Large infsh/whisper-v3-large 最高准确度

示例

基本转录

infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://meeting.mp3"}'

带时间戳

infsh app sample infsh/fast-whisper-large-v3 --save input.json

# {
#   "audio_url": "https://podcast.mp3",
#   "timestamps": true
# }

infsh app run infsh/fast-whisper-large-v3 --input input.json

翻译(至英语)

infsh app run infsh/whisper-v3-large --input '{
  "audio_url": "https://french-audio.mp3",
  "task": "translate"
}'

从视频提取

# 首先从视频提取音频
infsh app run infsh/video-audio-extractor --input '{"video_url": "https://video.mp4"}' > audio.json

# 转录提取的音频
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "<audio-url>"}'

工作流:视频字幕

# 1. 转录视频音频
infsh app run infsh/fast-whisper-large-v3 --input '{
  "audio_url": "https://video.mp4",
  "timestamps": true
}' > transcript.json

# 2. 使用转录生成字幕
infsh app run infsh/caption-videos --input '{
  "video_url": "https://video.mp4",
  "captions": "<transcript-from-step-1>"
}'

支持语言

Whisper 支持 99+ 语言,包括: 英语、西班牙语、法语、德语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语、印地语、俄语等。

使用场景

  • 会议:转录录音
  • 播客:生成文字稿
  • 字幕:为视频创建字幕
  • 语音笔记:转换为可搜索文本
  • 访谈:研究用转录
  • 无障碍:使音频内容更易访问

输出格式

返回 JSON,包含:

  • text:完整转录文本
  • segments:带时间戳的段落(如请求)
  • language:检测到的语言

相关技能

# 完整平台技能(所有150+应用)
npx skills add inference-sh/skills@inference-sh

# 文本转语音(反向操作)
npx skills add inference-sh/skills@text-to-speech

# 视频生成(添加字幕)
npx skills add inference-sh/skills@ai-video-generation

# AI 虚拟形象(与转录同步口型)
npx skills add inference-sh/skills@ai-avatar-video

浏览所有音频应用:infsh app list --category audio

文档