欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 美食 > 01《Python数据分析》数据分析初探章节总结

01《Python数据分析》数据分析初探章节总结

2025/4/13 11:16:39 来源:https://blog.csdn.net/weixin_42521211/article/details/144194775  浏览:    关键词:01《Python数据分析》数据分析初探章节总结

目录

  • 1 概述
    • 1.1 数据分析定义
    • 1.2 数据分析目标
    • 1.3 数据分析分类
  • 2 数据分析方法
  • 3 数据分析流程
  • 4 寻找问题原因
  • 5 典型问题
  • 参考学习


1 概述

1.1 数据分析定义

数据分析1就是:用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。

1.2 数据分析目标

回答三大问题

  • 我是谁:过去发生了什么。
  • 我从哪里来:归因。
  • 我要到哪里去:预测。

1.3 数据分析分类

描述性分析(Descriptive Analytics):已经发生了什么?
预测性分析(Predictive> Analytics):将发生什么?
指导性分析(Prescriptive Analytics):应该怎么办?

2 数据分析方法

描述性统计分析:应用统计特征、统计表、统计图等方法,对资料的数量特征及其分布规律进行测定和描述。

描述行统计分析的方法:

  • 集中趋势:平均值、中位数、众数
  • 离散程度:极差、方差、标准差
  • 分布形状:偏度、峰度

验证性统计分析:侧重于对已有的假设或模型进行验证。

验证性统计分析的方法:

  • 参数估计:用样本统计量去估计总体的参数。
  • 假设检验:对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。
  • 方差分析:通过比较总体各种估计间的差异来检验方差的正态总体是否具有相同的均值,是检验多因素之间差异显著性的重要统计分析方法

参数估计与假设检验区别:

  • 角度不同:参数估计是利用样本信息推断未知的总体参数,而假设检验是对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。

假设检验可分为

  • 单样本假设检验;
  • 双样本的均值比较假设检验;
  • 成对样本的均值比较假设检验。

一个好的假设需要满足以下几点

  • 它涉及一个自变量和一个因变量;
  • 它是可测试的;
  • 它是可证伪的。

自变量是原因(可以改变或控制),因变量是效果(可测试结果)。可证伪意味着假设可被证明是错误的。确保有一个可证伪的假设的有效方法是在这个问题中放弃变量:如果自变量/原因发生,因变量/效果是真还是假?无论是正式的还是非正式的,我们的假设将在下一步使用数据得到证实或反驳。分析将从最有可能的假设开始,然后在找到原因之前继续进行。

探索性数据分析:主动在数据之中发现新的特征或有用的隐藏信息。

常用的方差分析方法有:

  • 单因子方差分析;
  • 双因子方差分析

描述性统计分析(Exploratory Data Analysis,EDA):对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

3 数据分析流程

数据分析的流程:

  • 问题定义
  • 收集数据
  • 数据处理
  • 数据分析
  • 结果解读与应用

4 寻找问题原因

寻找原因的步骤:

  • 寻找任何快速解决问题的可能性
  • 询问其它团队
  • 对可能原因进行假设
  • 数据怎么说

5 典型问题

数据分析中应该避免的典型问题

  • 单方论证(Cherry Picking):仅选择支持自己观点的数据,同时丢弃不支持自己观点的部分。(诺贝尔经济学奖获得者罗纳德·科斯说:“如果你对数据进行足够长时间的折磨,它就会承认任何事情。”)(避免方式:我们需要保持中立,并且不要爱上某个假设!)
  • 错误因果关系(False Causality):我们经常会因为两个事件同时发生,就认为二者相关,这可能会导致错误因果关系(False Causality)。有时似乎相关的模式可能与第三个独立因子相关,而不是彼此相关。(避免方式:收集更多数据并查看可能的第三方原因。)
  • 幸存者偏差(Survivorship Bias):一种常见的逻辑谬误,指的是只能看到经过某种筛选而产生的结果,而没有意识到筛选的过程,因此忽略了被筛选掉的关键信息。( 避免方式:分析数据时,一个很重要的步骤是问一下自己有什么缺失的数据。有时可能没办法掌握数据的整体情况就是因为它们只反映了一部分。)
  • 采样偏差(Sampling Bias):我们并不总是能获得全部数据,那么数据能代表总体样本就变得至关重要。

参考学习


  1. 《Python数据分析》, 江雪松 邹静 ,清华大学出版社 , ISBN:9787302555179
    ↩︎

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词