图像分类实战

一、什么是图像分类？

图像分类是人工智能领域最基础也最有用的任务之一。简单来说，就是让计算机看懂图片里是什么东西。

生活中的例子

📱

手机相册智能分类
"照片"自动归类为人物、风景、美食

🏥

医疗影像诊断
X光片自动识别病变区域

🏭

工业质检
自动检测产品表面缺陷

🚗

自动驾驶
识别红绿灯、行人、车辆

二、计算机是怎么"看"图片的？

人类看图是直觉性的，但计算机需要把图片转成数字矩阵来处理：

📐 一张图片 = 一堆数字

一张 224×224 的彩色照片，在计算机眼里是一个 224 × 224 × 3 的三维矩阵（3代表红、绿、蓝三个通道），共包含 150,528 个数字。

深度学习模型的工作就是：从这些数字中找到"特征规律"——比如某块区域的像素排列方式很像猫耳朵，那就判断这张图里有猫。

三、训练一个分类模型需要什么？

三个要素：

数据（教材）

大量标注好的图片。每张图片都要贴上"标签"告诉计算机它是什么。比如CIFAR-10数据集包含6万张图片，分10个类别。

模型（学生）

神经网络结构。ResNet18是最常用的入门模型，有约1100万个可学习参数。你可以把它想象成一个"爱学习的学生"。

训练（考试）

反复让模型看图片、做预测、对照答案纠正。每轮叫一个epoch。通常10-50轮后模型就能达到不错的效果。

四、动手准备：安装AI教育实训平台

接下来你要亲手训练一个图像分类模型，首先需要安装我们的平台：

下载平台安装包 — 联系我们的工作人员获取（点击这里）
运行安装程序 — 双击安装包，按提示完成安装
打开平台主界面 — 桌面会出现快捷方式，双击启动
找到"图像分类"模块 — 在左侧导航栏中点击"图像分类"

💡 系统要求

操作系统：Windows 10/11、macOS 12+、Linux（Ubuntu 20.04+）
内存：≥8GB RAM
GPU（可选）：NVIDIA显卡可加速训练，没有也能跑（CPU模式）

⚠️ 注意

平台完全离线运行，不需要联网。所有数据都在本地处理，满足学校和企业的内网安全要求。

📝 第1课小结

图像分类 = 让计算机自动识别图片内容
原理：把图片转成数字矩阵 → 神经网络找特征规律
需要三要素：数据 + 模型 + 训练过程

下一课 → 训练你的第一个模型

一、打开图像分类模块

启动AI教育实训平台后，在左侧导航栏点击"图像分类"，你会看到以下界面布局：

① 模型选择区

选择神经网络模型类型。我们默认推荐 ResNet18——它是入门最合适的模型，精度和速度平衡得很好。

② 训练参数配置区

设置训练的超参数：epochs（训练轮数）、batch size（批次大小）、learning rate（学习率）。

epochs：建议从 10 开始，观察效果后再调整
batch size：默认 32，GPU显存小的可以改为 16
learning rate：默认 0.001，初学者不需要改动

③ 训练日志区

实时显示训练进度、每轮的损失值和准确率变化。

二、开始第一次训练

选择数据集：在下拉菜单中选择 CIFAR-10
CIFAR-10 包含 60,000 张 32×32 的彩色图片，分为 10 个类别：飞机、汽车、鸟、猫、鹿、狗、青蛙、马、船、卡车。是图像分类领域最常用的教学数据集之一。
选择模型：选择 ResNet18
设置训练轮数：epochs = 10
点击"开始训练"按钮
首次运行会自动下载CIFAR-10数据集（约163MB），请确保网络连接正常。之后数据会缓存在本地，无需重复下载。

三、观察训练日志

点击"开始训练"后，日志区会实时输出类似以下信息：

Epoch [1/10] - Train Loss: 2.1845, Train Acc: 0.2103
         Val Loss: 1.9234, Val Acc: 0.2678

Epoch [2/10] - Train Loss: 1.7236, Train Acc: 0.3812
         Val Loss: 1.5678, Val Acc: 0.3945

...

Epoch [10/10] - Train Loss: 0.6721, Train Acc: 0.7834
         Val Loss: 0.8456, Val Acc: 0.7412

[OK] 训练完成!

📊 读懂日志数据

Train Loss（训练损失）：数值越低越好，表示模型在训练集上越来越"对"
Train Acc（训练准确率）：从 ~20% 上升到 ~78%，说明模型确实在学习
Val Loss/Acc（验证损失/准确率）：反映模型在未见过的数据上的表现。如果 Val Acc 比 Train Acc 低很多，可能是过拟合

四、用训练好的模型做预测

训练完成后，你可以：

加载测试图片 — 点击"测试推理"标签页
选择待识别图片 — 从内置的CIFAR-10测试集中选一张，或上传自己的照片
查看预测结果 — 模型会给出10个类别各自的概率值，最高概率对应的就是预测结果

预期效果

经过10轮训练，ResNet18在CIFAR-10上的验证准确率通常在 72%-76% 之间。这意味着模型每识别10张图片，大约能猜对7-8张——对于一个刚入门训练的模型来说，这是不错的表现！

五、常见问题

Q：训练太慢了怎么办？

A：如果你有NVIDIA显卡，确保勾选了"使用GPU加速"选项。没有GPU的话可以把epochs降到5先体验流程。

Q：准确率不够高怎么办？

A：10轮训练只是入门演示。后续课程会教你调整超参数、数据增强等方法来进一步提升（第3-6课时内容）。

Q：下载数据集时网络失败？

A：CIFAR-10数据会自动缓存在平台的 data/cifar10/ 目录下。如果首次下载失败，重新点击"开始训练"会继续断点续传。

📝 第2课小结

熟悉了平台图像分类模块的三大区域
用CIFAR-10训练了第一个ResNet18模型
学会了读训练日志，理解损失和准确率含义

🎉 恭喜！你已经完成了免费试学内容。

后续6课时将深入讲解：超参数调优 → 数据增强 → 用自己的照片训练 → 混淆矩阵分析 → 完整花卉识别项目

预约免费演示 · 解锁完整课程返回课程列表

什么是图像分类？

🎯 本课目标