zoey不种土豆 发表于 2025-3-11 16:21:37

一个环境测量实验及基于人工智能的数据分析

本帖最后由 zoey不种土豆 于 2025-3-11 18:24 编辑

原文作者:郑剑春



本实验中我们希望测量环境中对健康最重要的几个物理量,温度、湿度、TVOC、CO2,观察这些物理量的变化规律,并利用人工智能的方法寻找这些物理量的关连性。

一、器材






行空板温湿度传感器ENS160 空气质量传感器

二、程序设计
程序的设计思路主要是通过硬件传感器(ENS160 和 DHT11)采集环境数据,并将这些数据实时显示在图形用户界面(GUI)上,同时定期将数据记录到 CSV 文件中。

三、程序









四、运行程序



运行程序后,获得数据文件:sensor_data.csv

五、数据分析
以时间为横轴,将所有测量值绘制成曲线
要想实现这一效果,我们可以使用excel表格,当然也可以使用python编写程序(略)



示例图表:
CO2 曲线:蓝色曲线,展示 CO2 浓度随时间的变化。
TVOC 曲线:绿色曲线,展示 TVOC 浓度随时间的变化。
温度曲线:橙色曲线,展示温度随时间的变化。
湿度曲线:红色曲线,展示湿度随时间的变化。

六、用机器学习方法进行分析,寻找数据间的联系
以下是基于数据文件的完整 Python 程序,包括数据预处理、探索性数据分析、机器学习建模、模型优化和结果解释。程序的目标是分析数据之间的联系,并预测空气质量(或其他目标变量)。





1、程序说明:详见程序注释
2、运行结果:
(1)相关性矩阵

相关性矩阵,用于可视化多个变量之间的关系。相关性矩阵显示了多个变量之间的相关系数。相关系数的取值范围是从 -1 到 1,其中:
[*]1 表示完全正相关(一个变量增加时,另一个变量也按比例增加)。
[*]-1 表示完全负相关(一个变量增加时,另一个变量减少)。
[*]0 表示没有相关性。

关键观察点:

[*]CO2 (ppm) 与其他变量的关系:
CO2 与“Hour”(小时)有非常强的正相关(0.99)说明 CO2 的浓度与时间(小时)有很大关系,可能随着一天中的时间变化而波动。CO2 与 TVOC(总挥发性有机化合物)有中等程度的正相关(0.28),说明它们可能一起增加。


[*]TVOC (ppb) 与其他变量的关系:
TVOC 与 CO2 之间有强的正相关(0.91),意味着这两者可能同时增加。TVOC 与温度、其他时间相关变量也有较强的相关性。


[*]温度 (°C) 与其他变量的关系:
温度与 CO2 之间有负相关(-0.35),这意味着温度增加时,CO2 可能会减少,或者反之。


[*]时间变量(小时、分钟):
小时与分钟之间的相关性非常小(-0.008),这是预期中的结果,因为它们代表不同的时间变量(小时在 x 轴,分钟在 y 轴)。


[*]滚动均值和标准差:
CO2 和 TVOC 的滚动均值与标准差与其他变量(如 TVOC、CO2、时间相关变量)之间有一定的中等相关性。
热力图通过颜色渐变来表示这些相关值。红色和蓝色分别表示强相关性(正相关或负相关),相关系数越接近 1 或 -1,相关性越强。

(2)特征重要性 (Feature Importance)

特征重要性图展示了随机森林模型中各个特征对预测目标变量(如空气质量)的贡献程度。

关键点:
TVOC_rolling_std(TVOC 的滑动标准差)和 CO2_rolling_mean(CO2 的滑动均值)是重要性最高的特征。
TVOC_lag1 和 CO2_lag1 的重要性较低,但仍然对模型有一定贡献。温度 (°C) 和 湿度 (%) 的重要性较低,表明它们对空气质量的影响较小。

结论:
TVOC 和 CO2 的统计特征(如滑动均值和标准差)对预测空气质量非常重要。滞后特征(如 TVOC_lag1 和 CO2_lag1)也有一定贡献,但不如统计特征显著。温度 和 湿度 对空气质量的影响较小,可以在后续分析中适当忽略。

(3)SHAP 值 (SHAP Values)

SHAP 值用于解释模型的预测结果,展示每个特征对单个预测的影响。

关键点:
TVOC (ppb) 和 CO2 (ppm) 的 SHAP 值较高,表明它们对模型输出的影响较大。TVOC_lag1 和 CO2_lag1 的 SHAP 值较低,表明它们对模型输出的影响较小。温度 (°C) 和 湿度 (%) 的 SHAP 值接近零,表明它们对模型输出的影响可以忽略。

结论:
TVOC 和 CO2 是影响空气质量的主要因素。滞后特征(如 TVOC_lag1 和 CO2_lag1)对模型输出的影响较小。温度 和 湿度 对空气质量的影响可以忽略。

(4)均方误差 (Mean Squared Error, MSE)



均方误差(MSE)是评估模型预测性能的指标,值越小表示模型的预测效果越好。

关键点:
模型的 MSE 为 0.00927,这是一个非常小的值,表明模型的预测效果非常好。MSE 接近零,说明模型的预测值与实际值非常接近。

结论:
模型的预测性能非常好,能够准确地预测空气质量。

综合分析
1、数据相关性:
TVOC 和温度高度相关,表明温度可能是影响 TVOC 浓度的主要因素。CO2 和 TVOC 的相关性较弱,表明它们可能受不同因素的影响。滞后特征(如 CO2_lag1 和 TVOC_lag1)与当前值的相关性很高,表明时间序列数据具有较强的时间依赖性。

2、特征重要性:
TVOC_rolling_std 和 CO2_rolling_mean 是预测空气质量最重要的特征。TVOC_lag1 和 CO2_lag1 的重要性较低,但仍然对模型有一定贡献。温度 和 湿度 的重要性较低,表明它们对空气质量的影响较小。

3、SHAP 值:
TVOC 和 CO2 是影响空气质量的主要因素。滞后特征(如 TVOC_lag1 和 CO2_lag1)对模型输出的影响较小。温度和湿度对空气质量的影响可以忽略。

4、模型性能:
模型的 MSE 为 0.00927,表明模型的预测效果非常好。



页: [1]
查看完整版本: 一个环境测量实验及基于人工智能的数据分析