为语音识别寻找语音盒文件。
介绍
Voicebox是一个语音处理工具箱,包括MATLAB例程,大部分是由英国伦敦sw7 2bt展览路帝国理工学院电气电子工程系Mike Brooks编写的。几个例程需要MATLAB的V5。
这个例程可以作为压缩的tar文件或ZIP文件使用,并根据合同条款提供GNU中的许可。
请发送任何意见、建议、错误报告等。至mike.brookes @ ic.ac.uk
目录
音频文件输入/输出
读写WAV和其他语音文件格式
频率表
在赫兹、梅尔、雇员再培训委员会和MIDI频率表之间转换
傅立叶/离散余弦变换/哈特莱变换
各种相关变换
随机数发生
产生随机向量和噪声信号。
向量距离
计算向量列表之间的距离。
语言分析
活动水平估计,以声谱图表示
LPC分析演讲
线性预测编码程序
话音合成
声门波形模式
语音增强
光谱噪声减法
语音编码
脉码调制,矢量量化。
语音识别
前端处理批准
效用函数
杂项实用功能
音频文件输入/输出
例程可以被读取,在某些情况下,可以以各种文件格式编写:
读写后缀
readwav writewav .WAV等。这些例程允许任何数量的通道,也可以处理线性PCM(任何精度高达32位)、常规PCM和wood PCM。大文件可以小块读写。
补充问题:readhtk writehtk。HTK liquid用来读写波形文件的熵隐马尔可夫工具箱。
readsfs .自力更生支持语音归档系统文件,由马克哈克瓦尔在UCL。
readsph .NIST手机领域的格式文件(包括timit)。
readaif .Mac用户使用的AIF音频交换文件格式。
大规模频率重建
Mel表是基于人对正弦波足球场的感知。mel2frq和frq2mel转换之间的这个例程的标度和频率是在Hz。
雇员再培训局,大规模,是基于等效矩形带宽。例行erb2frq和frq2erb转换再培训委员会的规模和频率赫兹之间的利率。
使用MIDI标准,也明确规定C在半音数上是加60。该例程用于在frq2midi和midi2frq之间进行转换,以及音乐频率范围和赫兹之间进行转换。除了输出之外,Frq2midi还会注意到名称中的字符格式。Midi2frq可以使用相同音阶的练习,否则毕达哥拉斯音阶只是一个音。