🎙️
免费试学

语音识别入门

6课时 · 初级 · 语音处理 · 已开放前2课时

声音也能被AI理解?

🎯 本课目标

  • 理解音频分类的基本概念和应用场景
  • 了解声音如何被计算机处理
  • 认识ESC-50数据集和音频分类任务

一、什么是音频分类?

音频分类是让计算机"听"懂声音类型的技术。跟图像分类类似,但输入是声音信号而不是像素矩阵。

生活中的应用

🏭

工业异常检测
监测机器运转声音,提前发现故障

🏠

智能家居
语音唤醒、声控开关、哭声检测

🚔

安防监控
识别玻璃破碎、枪声等紧急声音

🎵

音乐分类
自动识别流派、乐器、情感

二、计算机怎么"听"声音?

声音本质上是空气振动的波形。计算机通过麦克风把振动变成数字信号——一段随时间变化的数值序列。

📐 音频信号的三个关键概念

  • 采样率:每秒采集多少个数据点。人耳能听到20Hz-20kHz的声音,常见采样率为16000Hz(电话音质)到44100Hz(CD音质)。
  • 振幅:声音的"大小",数值越高表示声音越大。
  • 频谱:把时域信号转成频域——就像彩虹分光一样,把复合声音拆成不同频率的成分。这是AI处理音频的关键步骤。

三、从波形到特征:梅尔频谱图

直接把原始波形喂给神经网络效果不好。我们需要先把声音转成梅尔频谱图(Mel Spectrogram)——它把声音变成了一张"图片":

🔬 梅尔频谱图是什么?

横轴是时间,纵轴是频率,颜色深浅代表该频率在该时刻的能量强度。这样音频就被转成了二维图像,可以直接用处理图片的CNN模型来分类!

这就像给声音拍了一张"照片"——不同的声音(鸟叫、雷声、流水)会有完全不同的频谱"长相"。

四、ESC-50 数据集简介

本课程使用 ESC-50 数据集——环境声音分类的入门标准数据集:

ESC-50 数据统计

  • 共50个类别,涵盖环境音效、动物叫声、人类声音、音乐等
  • 2000条音频样本,每类40条
  • 每条时长约5秒,采样率16kHz
  • 训练集/测试集已划分好,开箱即用

📝 第1课小结

  • 音频分类 = 让计算机自动识别声音类型
  • 核心步骤:波形 → 梅尔频谱图 → CNN分类
  • ESC-50是入门首选数据集(50类/2000条)
下一课 → 训练声音分类模型

训练声音分类模型

🎯 本课目标

  • 熟悉平台的音频分类操作界面
  • 使用ESC-50数据集训练第一个音频分类模型
  • 对比CNN和CRNN两种模型的效果差异

一、打开音频分类模块

启动平台后点击左侧导航栏的"音频分类",界面布局与图像分类模块类似:

① 模型选择区

支持两种模型架构:CNN(卷积神经网络,处理频谱图)和 CRNN(卷积+循环网络,同时捕捉频率和时间信息)。建议先用CNN。

② 训练参数配置区
  • epochs:默认 10
  • batch size:默认 32
  • learning rate:默认 0.001
③ 训练日志区

实时显示训练进度和准确率变化。

二、开始训练

  1. 选择数据集:在下拉菜单中选择 ESC-50
  2. 选择模型类型:选择 CNN
  3. 设置训练轮数:epochs = 10
  4. 点击"开始训练"
    首次运行会自动下载ESC-50数据集(约46MB)。数据缓存在 data/esc50/ 目录下。

三、观察训练过程

[INFO] 开始音频分类训练
[INFO] 模型类型:CNN
[INFO] 使用设备:cpu
[INFO] 正在加载esc50数据集...
[OK] 数据集加载完成

Epoch [1/10] Train Loss: 3.9102, Train Acc: 0.0875
         Val Loss: 3.7654, Val Acc: 0.1200

Epoch [5/10] Train Loss: 1.8423, Train Acc: 0.4156
         Val Loss: 2.0134, Val Acc: 0.3589

Epoch [10/10] Train Loss: 0.9217, Train Acc: 0.6234
         Val Loss: 1.2345, Val Acc: 0.5102

[OK] 音频分类训练完成!

📊 如何判断模型在"学习"?

  • Train Acc 从 ~9%(随机猜)→ ~62%,说明模型学到了有效特征
  • Val Acc 约51%,虽然低于训练准确率,但在音频分类入门阶段是正常的
  • Loss持续下降 = 模型在不断改进预测能力

四、音频分类 vs 图像分类——有什么区别?

关键差异对比

  • 输入不同:图像是现成的二维像素矩阵;音频需要先做FFT变换提取频谱特征
  • 信息维度:音频有独特的"时间轴"——声音的先后顺序很重要(比如"先敲门后说话"和"先说话后敲门"是不同的事件)
  • 数据量:同样精度的模型,音频分类通常需要比图像分类少得多的训练数据

五、常见问题

Q:CNN和CRNN选哪个?

A:CNN是基础模型,训练快、容易理解。CRNN加入了循环神经网络层,能捕捉时间序列信息,理论上效果会更好但训练更慢。建议先跑通CNN,后续课程再对比两者差异。

Q:50个类别太多了能只选几个吗?

A:可以!在高级设置中可以选择子集(如只训练"动物声音"或"自然音效"等分组)。完整课程会教你如何自定义数据集。

📝 第2课小结

  • 使用ESC-50训练了第一个音频分类CNN模型
  • 理解了训练日志中的准确率变化趋势
  • 知道音频分类和图像分类的核心差异

🎉 恭喜!语音识别免费试学完成。

后续4课时将深入:梅尔频谱图详解 → CNN vs CRNN对比 → 自定义音频采集 → 异常声音检测实战

想让学校拥有完整的AI语音课程?

预约免费产品演示,了解完整教学方案

联系我们