语音识别入门

一、什么是音频分类？

音频分类是让计算机"听"懂声音类型的技术。跟图像分类类似，但输入是声音信号而不是像素矩阵。

生活中的应用

🏭

工业异常检测
监测机器运转声音，提前发现故障

🏠

智能家居
语音唤醒、声控开关、哭声检测

🚔

安防监控
识别玻璃破碎、枪声等紧急声音

🎵

音乐分类
自动识别流派、乐器、情感

二、计算机怎么"听"声音？

声音本质上是空气振动的波形。计算机通过麦克风把振动变成数字信号——一段随时间变化的数值序列。

📐 音频信号的三个关键概念

采样率：每秒采集多少个数据点。人耳能听到20Hz-20kHz的声音，常见采样率为16000Hz（电话音质）到44100Hz（CD音质）。
振幅：声音的"大小"，数值越高表示声音越大。
频谱：把时域信号转成频域——就像彩虹分光一样，把复合声音拆成不同频率的成分。这是AI处理音频的关键步骤。

三、从波形到特征：梅尔频谱图

直接把原始波形喂给神经网络效果不好。我们需要先把声音转成梅尔频谱图（Mel Spectrogram）——它把声音变成了一张"图片"：

🔬 梅尔频谱图是什么？

横轴是时间，纵轴是频率，颜色深浅代表该频率在该时刻的能量强度。这样音频就被转成了二维图像，可以直接用处理图片的CNN模型来分类！

这就像给声音拍了一张"照片"——不同的声音（鸟叫、雷声、流水）会有完全不同的频谱"长相"。

四、ESC-50 数据集简介

本课程使用 ESC-50 数据集——环境声音分类的入门标准数据集：

ESC-50 数据统计

共50个类别，涵盖环境音效、动物叫声、人类声音、音乐等
2000条音频样本，每类40条
每条时长约5秒，采样率16kHz
训练集/测试集已划分好，开箱即用

📝 第1课小结

音频分类 = 让计算机自动识别声音类型
核心步骤：波形 → 梅尔频谱图 → CNN分类
ESC-50是入门首选数据集（50类/2000条）

下一课 → 训练声音分类模型

一、打开音频分类模块

启动平台后点击左侧导航栏的"音频分类"，界面布局与图像分类模块类似：

① 模型选择区

支持两种模型架构：CNN（卷积神经网络，处理频谱图）和 CRNN（卷积+循环网络，同时捕捉频率和时间信息）。建议先用CNN。

② 训练参数配置区

epochs：默认 10
batch size：默认 32
learning rate：默认 0.001

③ 训练日志区

实时显示训练进度和准确率变化。

二、开始训练

选择数据集：在下拉菜单中选择 ESC-50
选择模型类型：选择 CNN
设置训练轮数：epochs = 10
点击"开始训练"
首次运行会自动下载ESC-50数据集（约46MB）。数据缓存在 data/esc50/ 目录下。

三、观察训练过程

[INFO] 开始音频分类训练
[INFO] 模型类型：CNN
[INFO] 使用设备：cpu
[INFO] 正在加载esc50数据集...
[OK] 数据集加载完成

Epoch [1/10] Train Loss: 3.9102, Train Acc: 0.0875
         Val Loss: 3.7654, Val Acc: 0.1200

Epoch [5/10] Train Loss: 1.8423, Train Acc: 0.4156
         Val Loss: 2.0134, Val Acc: 0.3589

Epoch [10/10] Train Loss: 0.9217, Train Acc: 0.6234
         Val Loss: 1.2345, Val Acc: 0.5102

[OK] 音频分类训练完成!

📊 如何判断模型在"学习"？

Train Acc 从 ~9%（随机猜）→ ~62%，说明模型学到了有效特征
Val Acc 约51%，虽然低于训练准确率，但在音频分类入门阶段是正常的
Loss持续下降 = 模型在不断改进预测能力

四、音频分类 vs 图像分类——有什么区别？

关键差异对比

输入不同：图像是现成的二维像素矩阵；音频需要先做FFT变换提取频谱特征
信息维度：音频有独特的"时间轴"——声音的先后顺序很重要（比如"先敲门后说话"和"先说话后敲门"是不同的事件）
数据量：同样精度的模型，音频分类通常需要比图像分类少得多的训练数据

五、常见问题

Q：CNN和CRNN选哪个？

A：CNN是基础模型，训练快、容易理解。CRNN加入了循环神经网络层，能捕捉时间序列信息，理论上效果会更好但训练更慢。建议先跑通CNN，后续课程再对比两者差异。

Q：50个类别太多了能只选几个吗？

A：可以！在高级设置中可以选择子集（如只训练"动物声音"或"自然音效"等分组）。完整课程会教你如何自定义数据集。

📝 第2课小结

使用ESC-50训练了第一个音频分类CNN模型
理解了训练日志中的准确率变化趋势
知道音频分类和图像分类的核心差异

🎉 恭喜！语音识别免费试学完成。

后续4课时将深入：梅尔频谱图详解 → CNN vs CRNN对比 → 自定义音频采集 → 异常声音检测实战

预约免费演示 · 解锁完整课程返回课程列表

声音也能被AI理解？

🎯 本课目标