📊
免费试学

决策树与数据分类

6课时 · 初级 · 数据分析 · 已开放前2课时

什么是决策树?

🎯 本课目标

  • 理解决策树的工作原理和核心概念
  • 学会用"二十个问题"游戏类比理解决策过程
  • 了解决策树在商业和科研中的实际应用

一、从"二十个问题"游戏说起

你可能玩过这个游戏:一个人想一个东西,其他人通过问"是/否"问题来猜。比如:

"二十个问题"的决策树

🤔 "是动物吗?" → 是
  🤔 "会飞吗?" → 是
    🤔 "是鸟类吗?" → 是
      🤔 "比鸽子大吗?" → 否
        ✅ 猜到了:麻雀!

决策树的工作原理完全一样——通过一系列判断节点(问问题),把数据一步步分类到最终的"叶子节点"(答案)。

二、为什么决策树特别适合教学?

🌳 决策树的四大优势

  • 直观可解释:可以画出完整的决策流程图,每一步判断都清晰可见。不像神经网络是"黑盒"
  • 无需特征缩放:不需要像深度学习那样做复杂的预处理
  • 混合数据友好:同时处理数值型(年龄、收入)和类别型(性别、城市)数据
  • 工业界广泛使用:银行审批、医疗诊断、风控系统都在用

三、决策树 vs 深度学习

很多同学会问:既然有神经网络了,为什么还要学决策树?

适用场景对比

  • 决策树擅长:表格数据、业务规则提取、需要解释结果的场景(比如银行要告诉客户为什么拒贷)
  • 深度学习擅长:图像、语音、文本等非结构化数据的处理
  • 互补关系:实际工作中两者配合使用——先用决策树探索数据规律,再决定是否上深度学习

四、核心术语速览

🔀
根节点

整棵树的起点,包含所有数据。第一个"问题"在这里提出。

🌿
叶子节点

决策的终点,给出最终分类结果(如"通过/拒绝贷款")。

✂️
分支

每个判断产生的分叉路。二叉树每次一个Yes/No问题。

💡 小贴士

决策树是监督学习——意味着你需要有"带答案的数据"来训练。每条数据除了特征(如收入、年龄)外,还必须有标签(如"是否违约")。

📝 第1课小结

  • 决策树 = 用一系列是/否问题做分类
  • 优势:可解释性强、无需复杂预处理、工业界常用
  • 核心结构:根节点 → 中间判断节点 → 叶子节点(最终答案)
下一课 → 用真实数据训练分类器

用真实数据训练分类器

🎯 本课目标

  • 学会用CSV文件导入数据到平台
  • 训练第一个决策树分类模型
  • 查看并理解可视化决策树

一、准备数据集

决策树的输入是表格数据(CSV格式)。平台内置了一个示例数据集——鸢尾花分类,是最经典的数据分类教学数据:

鸢尾花数据集预览

  • 150条样本,3个品种各50条
  • 4个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度(单位:厘米)
  • 目标列:品种名称(Setosa / Versicolor / Virginica)

二、导入数据并训练

  1. 打开决策树模块:左侧导航栏点击"决策树"
  2. 加载示例数据:在数据集下拉菜单中选择平台内置的鸢尾花CSV文件
    你也可以用自己的CSV文件。平台的数据编辑器支持在线编辑和导入。
  3. 选择目标列:选择你要预测的分类列(如"品种")
  4. 选择模型类型:选择 决策树分类器,设置最大深度 max_depth = 4
    max_depth控制树的复杂度。值越大树越深、拟合越好,但也更容易过拟合。4是不错的起点。
  5. 点击"开始训练"

三、观察训练结果

正在加载数据... 成功,共150条样本
正在创建 decision_tree 模型 (最大深度: 4)...
划分数据:训练集120条,测试集30条
开始训练...
训练完成!

准确率: 0.9667
混淆矩阵:
              预测Setosa  Versicolor  Virginica
真实 Setosa       20          0           0
   Versicolor      0         17           1
   Virginica       0          2          10

📊 读懂结果

  • 准确率96.7%:30条测试数据中猜对了29条,表现优秀
  • 混淆矩阵:Setosa品种100%识别正确;Versicolor和Virginica各错了1-2条——这是合理的,因为这两个品种的物理特征确实有重叠

四、查看可视化决策树

训练完成后,平台会自动生成决策树可视化图——你可以看到完整的判断流程:

🌳 一棵典型的鸢尾花决策树

📦 [花瓣长度 ≤ 2.45cm?]
  ✅ 是 → 🌸 Setosa(100%确定)
  ❌ 否 → [花瓣宽度 ≤ 1.75cm?]
    ✅ 是 → [花瓣长度 ≤ 4.95cm?]
      ✅ → 🌺 Versicolor
      ❌ → 🌷 Virginica
    ❌ → 🌷 Virginica

看到没?计算机自己"想"出了判断规则——用花瓣的长宽做几次比较就分清了三个品种。这就是AI的魅力!

五、决策树在企业中的真实案例

贷款审批决策树示例

  • 特征:年收入、负债率、信用记录、工作年限、申请金额
  • 目标:是否批准贷款(是/否)
  • 训练后用真实历史数据,模型会自动发现类似"年收入>15万且负债率<40% → 批准"的规则
  • 银行可以完整追溯每个审批决策的推理路径——这是神经网络做不到的

六、常见问题

Q:我的CSV文件格式有要求吗?

A:第一行必须是列名,数据从第二行开始。数值型直接用数字,文本型用引号包裹。缺失值用空单元格即可。

Q:最大深度设多少合适?

A:小数据集(<500条)建议3-5;中等数据集5-10。树太深会过拟合——对训练集完美但对新数据差。后续课程讲剪枝技术来解决这个问题。

Q:决策树能预测数值吗?

A:可以!决策树除了做分类(预测类别),还能做回归(预测连续值,如房价)。平台同时支持两种模式。

📝 第2课小结

  • 用鸢尾花CSV数据训练了第一个决策树分类器
  • 读懂了准确率、混淆矩阵等评估指标
  • 看到了可视化的决策树判断流程

🎉 恭喜!决策树免费试学完成。

后续4课时将深入:基尼系数与信息增益 → 剪枝防过拟合 → 随机森林 → 贷款审批实战

想让学生掌握商业数据分析能力?

预约免费产品演示,了解完整教学方案

联系我们