基于数据可视化学习的卡路里消耗预测分析

news/2025/2/25 0:12:44

数据分析实操集合:

1、关于房间传感器监测数据集的探索
2、EEMD-LSTM模型择时策略 — 1.EEMD分解与LSTM模型搭建
3、EEMD-LSTM模型择时策略 — 2. 量化回测
4、国际超市电商销售数据分析
5、基于问卷调查数据的多元统计数据分析与预测(因子分析、对应分析与逻辑回归)
6、手写文本识别
7、语音情感识别
8、电商会员门店消费数据分析
9、糖尿病风险预测模型分析与构建
10、基于卷积神经网络(CNN)和ResNet50的水果与蔬菜图像分类系统
11、学生抑郁情况可视化分析及预测
12、人脸表情识别(GUI实时识别)
13、基于LSTM的机场天气分析及模型预测

运动能量消耗数据分析

Background:数据集包含了来自不同用户的多项体征数据,包括性别、年龄、身高、体重等基本信息,以及运动持续时间、心率和体温等与身体活动相关的数据。

通过分析这些数据,探索用户在进行身体活动时的热量消耗情况,即目标变量Calories,从而为个性化健身计划或健康管理提供数据支持。
数据分析
基础统计分析
影响因素分析
构建预测模型

总结:通过数据分析可视化,清晰直观发现 持续时间越长,燃烧的卡路里就越高。心率跳动与燃烧的卡路里呈正相关。持续时间增加会导致心率和体温增加。

Importing Libraries 导入库

import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns

from scipy.stats import shapiro, kstest, mannwhitneyu, ttest_ind, levene

from sklearn.preprocessing import LabelEncoder

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.metrics import mean_absolute_error

数据准备

data = pd.read_csv("/home/mw/input/02141492/calories.csv")
data.sample(5)

在这里插入图片描述

data.describe()

在这里插入图片描述

data.select_dtypes('object').describe()
Data Preprocessing 数据预处理
data.shape
data.isnull().sum()

在这里插入图片描述

data.columns = data.columns.str.lower()
# 删除无关特征(如 User_Id)
# data = data.drop(columns=["User_Id"])

del data['user_id']
data.plot.box(subplots=True, figsize=(10,5))
plt.tight_layout()

在这里插入图片描述
身高、体重、心率和体温存在异常值。
Data Distribution 数据分布

import seaborn as sns
print(sns.__version__)
!pip install -U seaborn
import seaborn as sns
print(sns.__version__)

ps:由于histplot 函数是在 seaborn 0.11.0 版本中引入的; seaborn 需更新到 0.11.0 以上。

fig, axes = plt.subplots(4,2, figsize=(10,10))

for i, column in enumerate(data.columns):
    row = i // 2
    col = i % 2

    if column in data.select_dtypes(np.number).columns:
        sns.histplot(data[column], ax=axes[row, col])

    else:
        count_values = data[column].value_counts()
        sns.barplot(x=count_values.index, y=count_values.values, ax=axes[row,col])

    axes[row, col].set_title(f'Distribution of {column}')
    axes[row, col].set_ylabel('frequency')

plt.tight_layout()

在这里插入图片描述

Correlations Analysis 相关性分析
sns.heatmap(data[data.select_dtypes(np.number).columns].corr(), annot=True)

在这里插入图片描述
1.持续时间越长,燃烧的卡路里就越高。
2.心率越快,燃烧的卡路里就越高。
3.年龄和燃烧的卡路里具有较弱的相关性。
4.持续时间增加会导致心率和体温增加。

gender_calories = data.groupby('gender')['calories'].mean()

sns.barplot(x=gender_calories.index, y=gender_calories.values, palette='viridis')
plt.ylabel('average calories')
plt.title('Average Calories per Gender')

在这里插入图片描述
据观察,男性组的平均卡路里燃烧量略高于女性组。

kstest_res = []
kruskal_test = []

fig, axes = plt.subplots(1,2, figsize=(10,5))

for i, gender in enumerate(data['gender'].unique()):

    to_test = data [ data['gender'] == gender]['calories']

    stats, pvalue =  kstest(to_test, 'norm')
    
    if pvalue > 0.05:
        assumption = 'normal'
    else:
        assumption = 'not normal'

    kstest_res.append([gender, pvalue, assumption])
    kruskal_test.append(to_test)

    sns.histplot(to_test, ax=axes[i], palette='viridis')
    axes[i].set_title(f'Distribution for {gender} calories')
    axes[i].set_ylabel('frequency')
    
kstest_df = pd.DataFrame(kstest_res, columns=['gender','pvalue','assumption'])
kstest_df

在这里插入图片描述
如图男性和女性卡路里的分布不呈正态。

stats, pvalue = mannwhitneyu(*kruskal_test, alternative='greater') 

if pvalue <= 0.05:
    assumption = 'reject H0'
else:
    assumption = 'accept H0'

print('Kruskal pvalue:',pvalue,'\nAssumption:',assumption)

在这里插入图片描述
p值表明,男性燃烧的卡路里并不明显高于女性。

Feature Engineering 特征工程
encoder = LabelEncoder()

model_data = data.copy()
model_data['gender'] = encoder.fit_transform(model_data['gender'])

model_data.sample(5)
Predictive Modelling 预测建模

训练和测试

x = model_data[['gender', 'age', 'height', 'weight', 'duration', 'heart_rate',
                'body_temp']]
y = model_data['calories']

x_train, x_test, y_train, y_test = train_test_split(x, y, 
                                                    train_size=0.7, 
                                                    random_state=42)
sns.scatterplot(x=x_train['heart_rate'], 
                y=y_train, 
                color=sns.color_palette('viridis')[4])

sns.scatterplot(x=x_test['heart_rate'], 
                y=y_test, 
                color=sns.color_palette('viridis')[2])

在这里插入图片描述

Random Forest Regressor 随机森林回归
rf_model = RandomForestRegressor(n_estimators=1000, 
                                 max_depth=15, 
                                 max_features=3, 
                                 oob_score=True, 
                                 random_state=42)

rf_model.fit(x_train, y_train)
rf_predicted = rf_model.predict(x_test)
rf_score = rf_model.score(x_test, y_test)
rf_mae = mean_absolute_error(y_test, rf_predicted)
rf_oob = rf_model.oob_score_

rf_df = pd.DataFrame({'model':['Random Forest'], 
                      'r2_score':[rf_score], 
                      'rf_mae':[rf_mae], 
                      'oob_score':[rf_oob]})
sns.scatterplot(x=x_test['heart_rate'], 
                y=y_test, 
                color=sns.color_palette('viridis')[4])
sns.lineplot(x=x_test['heart_rate'], 
             y=rf_predicted, 
             color=sns.color_palette('viridis')[2])

在这里插入图片描述
Key Indicators 关键指标

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

rf_fi = pd.DataFrame({'feature':x.columns, 
                      'importances':rf_model.feature_importances_})

# 对 DataFrame 按照 'importances' 排序
rf_fi_sorted = rf_fi.sort_values(by='importances', ascending=False)

# 使用 seaborn 绘制条形图
sns.barplot(data=rf_fi_sorted, x='importances', y='feature', palette='viridis')

# 显示图表
plt.show()

在这里插入图片描述
持续时间对预测燃烧的卡路里影响最大。
Model Performance 模型性能

rf_df

在这里插入图片描述

# 检查缺失值
print(data.isnull().sum())

# 如果有缺失值,可以选择填充或删除
data = data.dropna()  # 删除缺失值

# 分离特征和目标变量
X = data.drop(columns=["calories"])
y = data["calories"]

在这里插入图片描述

# 标准化特征
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_scaled = scaler.fit_transform(x)
构建 XGBoost 模型

用 XGBoost 构建预测模型,并通过交叉验证评估模型性能

from xgboost import XGBRegressor
from sklearn.model_selection import train_test_split, cross_val_score

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# 初始化 XGBoost 模型
model = XGBRegressor(
    n_estimators=100,  # 树的数量
    learning_rate=0.1,  # 学习
    max_depth=4,  # 树的最大深度
    random_state=42
)

# 训练模型
model.fit(X_train, y_train)

# 交叉验证评估
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring="neg_mean_squared_error")
print("Cross-Validation RMSE:", np.sqrt(-cv_scores).mean())

在这里插入图片描述

模型评估
评估模型在测试集上的性能,并绘制预测结果与实际值的对比图。

# 预测测试集
y_pred = model.predict(X_test)

# 计算评估指标
from sklearn.metrics import mean_squared_error, r2_score

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("MSE:", mse)
print("R²:", r2)

# 绘制预测结果与实际值的对比图
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], color="red", linestyle="--")
plt.xlabel("Actual Calories")
plt.ylabel("Predicted Calories")
plt.title("Actual vs Predicted Calories")
plt.show()

在这里插入图片描述

特征重要性分析

分析特征对模型预测的贡献程度,帮助理解哪些因素对热量消耗的影响最大

# 获取特征重要性
feature_importances = model.feature_importances_
feature_names = x.columns

# 绘制特征重要性条形图
sns.barplot(x=feature_importances, y=feature_names, palette="viridis")
plt.xlabel("Importance")
plt.ylabel("Features")
plt.title("Feature Importances")
plt.show()

在这里插入图片描述
持续时间对预测燃烧的卡路里影响最大。

# 若需要完整数据集以及代码请点击以下链接
https://mbd.pub/o/bread/mbd-aJWUlJ9u

http://www.niftyadmin.cn/n/5864871.html

相关文章

在Ubuntu 20上使用vLLM部署DeepSeek大模型的完整指南

文章目录 步骤一&#xff1a;安装Hugging Face工具步骤二&#xff1a;下载DeepSeek模型步骤三&#xff1a;安装vLLM步骤四&#xff1a;使用vLLM部署模型步骤五&#xff1a;测试推理服务性能优化建议常见问题排查 前言 随着大语言模型&#xff08;LLM&#xff09;的快速发展&…

数仓搭建实操(传统数仓oracle):DWD数据明细层

数据处理思路 DWD层, 数据明细层>>数据清洗转换, 区分事实表,维度表 全是事实表,没有维度表>>不做处理 数据清洗>>数据类型varchar 变成varchar2, 日期格式统一(时间类型变成varchar2); 字符数据去空格 知识补充: varchar 存储定长字符类型 ; 存储的数据会…

jar、war、pom

1. <packaging>jar</packaging> 定义与用途 用途&#xff1a;默认打包类型&#xff0c;生成 JAR 文件&#xff08;Java Archive&#xff09;&#xff0c;适用于普通 Java 应用或库。 场景&#xff1a; 开发工具类库&#xff08;如 commons-lang.jar&#xff09;。…

《AI赋能星际探索:机器人如何开启宇宙新征程!》

在人类对宇宙无尽的探索中&#xff0c;空间探索任务始终充满挑战。从遥远星球的探测&#xff0c;到空间站的维护&#xff0c;每一项任务都需要高精度、高可靠性的操作。人工智能&#xff08;AI&#xff09;的迅猛发展&#xff0c;为空间探索机器人带来了革命性的变革&#xff0…

解决每次 Maven Rebuild 后 Java 编译器版本变为 1.5

解决方法 明确指定 Java 编译版本 在 pom.xml 中添加 maven-compiler-plugin 配置&#xff0c;明确指定 Java 编译版本为 1.8。可以在 标签内添加以下内容&#xff1a; <build><plugins><plugin><groupId>org.apache.maven.plugins</groupId>&…

deepseek AI写的对动态地址的linux执行文件的加壳

我开始思考如何逐步完善程序中的各个部分。首先&#xff0c;在shell. c文件中&#xff0c;有一些未定义的部分&#xff0c;如TARGET入口地址、GOT表地址等。这些需要通过调试工具&#xff08;比如gdb&#xff09;获取&#xff0c;并在代码中标明。此外&#xff0c;shellcode数组…

深度学习-7.超参数优化

Deep Learning - Lecture 7 Hyperparameter Optimization 简介超参数搜索用于超参数选择的贝叶斯优化启发性示例贝叶斯优化 引用 本节目标&#xff1a; 解释并实现深度学习中使用的不同超参数优化方法&#xff0c;包括&#xff1a; 手动选择网格搜索随机搜索贝叶斯优化 简介 …

DDD - 整洁架构

DDD&#xff08;领域驱动设计&#xff09;的整洁架构&#xff08;Clean Architecture&#xff09;是一种通过分层和依赖规则&#xff0c;确保领域模型&#xff08;业务逻辑&#xff09;与技术实现解耦的架构模式。其核心目标是让业务逻辑成为系统的核心&#xff0c;而技术细节&…