欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 产业 > 数据分析-前期数据处理

数据分析-前期数据处理

2024/12/2 22:06:58 来源:https://blog.csdn.net/sjfx123456/article/details/142251420  浏览:    关键词:数据分析-前期数据处理
   今天找到一份关于医学体检的数据,在数据分析前期工作需要对数据做处理,在这里我们对原始数据做一些处理,将数据处理为可分析的标准数据。下一篇文章做数据的分析。数据想要获取的话可以到我的资源下载。

1 数据读取

import pandas as pd
data = pd.read_excel(r'E:\学习\项目\数据分析\体检数据\dataset.xls')
print(data.head())

在这里插入图片描述

2 定义数据处理函数

数据中有“是否吸烟”,“是否饮酒”,“性别”是否,需要将其转化为0 1二分类数据,便于后期分析。

# 替换特定的值
def replace_value1(row):if row['是否吸烟'] == '是': # ['是否吸烟'] == '是':return 1else:return 0
def replace_value2(row):if row['是否饮酒'] == '是':return 1else:return 0
def replace_value3(row):if row['性别'] == '男':return 1else:return 0

3 数据处理

数据处理,获取出生年月,从事工作时间,体检年份,年龄等

data['出生年月'] = data['身份证号'].str[4:8]  ## 添加出生年月
data['从事工作年份'] = data['开始从事某工作年份'].astype(str).str[0:4]
data['是否吸烟'] = data.apply(replace_value1, axis=1)
data['是否饮酒'] = data.apply(replace_value2, axis=1)
data['性别'] = data.apply(replace_value3, axis=1)
# for name,group in data.groupby('体检年份'):  ## 体检年份包含字符字段# print(name,group)
data['体检年份'] = data['体检年份'].astype(str).replace('2015年','2015')
data['从事工作时间'] = data['体检年份'].astype(float) - data['从事工作年份'].astype(float)
data['年龄'] = data['体检年份'].astype(float) - data['出生年月'].astype(float)

4 清洗后的数据

干净的数据可以直接用来分析

data_new = data.loc[:,['序号 ', '性别', '是否吸烟', '是否饮酒', '体检年份', '淋巴细胞计数','白细胞计数',  '血小板计数', '出生年月', '从事工作年份', '从事工作时间','年龄']]
print(data_new.head(20))

结果:在这里插入图片描述
下一篇文章会给予处理后的数据进行数据分析。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com