首页 热点资讯 义务教育 高等教育 出国留学 考研考公

不丢弃音频中英文文本间需要怎么处理

发布网友 发布时间:2022-04-23 08:33

我来回答

1个回答

热心网友 时间:2022-06-18 11:09

们平时使用的微信qq都有具备聊天语音转成文字的;外部的音频文件转文字的话就需要借助一些专门的软件来实现喽,比如身边人用的比较多的浮云识音。
基本原理:语种识别,根据一段音频判断该音频是英语、中语还是法语,即判断音频的语种。语种识别项目的整体思想就是把语音数据转换成相应的语谱图或者MFCC特征,再对特征进行分析,从而判断出该语音数据的语种类别。
公开数据集:Topcoder竞赛数据(44.1khz的mp3录音,每条10秒,176种语言合计66176(176*376)条数据,诸多小语种)。东方多语种语音识别竞赛数据(海天瑞声提供7种东方语种数据+8种外语语种数据,列明的包括粤语/国语/印尼语/日语/俄语/韩语,清华大学提供越南语/哈萨克语/藏语/维吾尔语)
基本音频处理流程:语音输入,然后音频信号特征提取,然后进行特征分析处理,最终得到结果,其中音频特征提取多半采用频谱图或者MFCC特征。
语音输入:wav(波形音频文件)mp3文件或是麦克风中输入的音频信号输入音频。
音频信号特证提取:语音信号处理的目的是弄清语音中各个频率成分的分布。常用的数学工具是傅里叶变换,而傅里叶变换要求输入信号是平稳的,需要对语音信号进行分帧处理,截取出来的一小段信号(通常20-30ms)就叫一帧。【微观里断定输入信号是平稳的】语音分帧→每一帧分别FFT(离散傅立叶变换)→求取FFT之后的幅度/能量,这些数值都是正值,类似图像的像素点,显示出来就是语谱图。其中语谱图的x是时间,y轴是频率。利用语谱图可以查看指定频率端的能量分布。MFCC是最常用的声学特征参数。原理将音频转化为梅尔频率,然后进行倒谱分析。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com