当前位置：主页 > python教程 > python语音识别whisper

python语音识别whisper的使用

发布：2023-03-24 15:30:02 59

为网友们分享了相关的编程文章，网友蓟晓兰根据主题投稿了本篇教程内容，涉及到python语音识别whisper、python whisper、python语音识别whisper相关内容，已被221网友关注，下面的电子资料对本篇知识点有更加详尽的解释。

python语音识别whisper

一、背景

最近想提取一些视频的字幕，语音文案，研究了一波

二、whisper语音识别

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代码发布，生成更准确的阶段时间切换，并在无须额外推介的情况下获得申领

安装

pip install openai-whisper 
pip install stable-ts

Size	Parameters	English-only model	Multilingual model	Required VRAM	Relative speed
tiny	39 M	tiny.en	tiny	~1 GB	~32x
base	74 M	base.en	base	~1 GB	~16x
small	244 M	small.en	small	~2 GB	~6x
medium	769 M	medium.en	medium	~5 GB	~2x
large	1550 M	N/A	large	~10 GB	1x

三、示例

模型越大，越精确，相应话费的时间越长
自带语言识别功能，language最好加上，下面歌曲识别为英语，加后为中文
stable_whisper 是 whisper 进化版

import whisper
import stable_whisper as whisper

class WhisperTranscriber(object):

    def __init__(self, model_name):
        self.model = whisper.load_model(model_name)

    def whisper_transcribe(self, audio_path):
        audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')
        return audio['text']

if __name__ == '__main__':

    transcriber = WhisperTranscriber("base")
    text = transcriber.whisper_transcribe("257853511.mp3")
    print(text)

可能是伴奏声音过大，你才出来这是什么歌了吗？stable_whisper 别的用法、生成字幕

import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')

四、封装工具

buzz

如果遇到简繁转换可以石下面

pip install zhconv

zh-cn 大陆简体
zh-hant 繁體

from zhconv import convert     
convert('Python是一种动态的、面向对象的脚本语言', 'zh-hant')
'Python是一種動態的、面向對象的腳本語言'

到此这篇关于python语音识别whisper的使用的文章就介绍到这了,更多相关python语音识别whisper内容请搜索码农之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持码农之家！

上一篇：关于生产消费者模型中task_done()的具体作用
下一篇：Flask中特殊装饰器的使用

参考资料

网友讨论

最新更新

最近更新

05-29Go语言面试八股文大全
05-29MySQL 8.4中文手册
05-29华为OD机考100题(真题)
05-29Python+OpenCV入门计算机视觉实战项目52讲 v1.0
05-21敏捷软件测试实践指南
05-21编写可维护的JavaScript
05-21Modbus协议
05-21竹林蹊径：深入浅出Windows驱动开发
05-21PCIE规范合集(PCI_Express_Base 1.0/2.1/3.0/4.0/5.0/6.0)
05-21深入理解Rust并发编程

热门资源