基于多种机器学习的51_job数据分析及薪资预测【前程无忧、智联招聘、BOOS直聘】

文章目录

- - ==有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主==
- 项目介绍及意义
- 总体思路
- - 数据抓取
  - 数据预处理
  - 数据可视化（EDA探索性分析）
- 基于多种机器学习的薪资预测
- - 模型数据准备
  - 特征重要性
  - 自定义评估函数
  - 总结
  - 每文一语

有需要本项目的代码或文档以及全部资源，或者部署调试可以私信博主

项目介绍及意义

随着社会生产水平的持续提升和人们知识文化水平的不断进步，人才竞争在各行各业变得愈发激烈。在这种背景下，对于职场人士来说，理解自身优势和行业价值规律成为了迫切需求。本研究旨在通过科学的数据分析方法，提供就业市场的深入洞察，以助力职业发展。

研究基于Python语言开发的网络爬虫技术，对国内大型招聘网站51job进行数据采集。通过运用selenium库实现自动化页面加载和数据获取，结合Xpath技术精确抓取目标字段，本研究成功采集了包含27个特征的岗位信息数据，覆盖了数据分析、算法工程师等7大类岗位，共计7000条记录。值得注意的是，由于前端页面的频繁变更，研究采用JSON格式进行灵活而全面的数据抓取。

在这里插入图片描述

数据采集完成后，研究对数据集进行了细致的预处理工作，包括删除无关变量、重命名特征列、剔除空值数据等。特别地，针对薪资字段的多样化和复杂性，研究运用多种方法智能化处理，建立了新的薪资计算和范围字段，并统一其单位。这些预处理工作为后续的数据分析和可视化奠定了坚实基础。

在处理好的数据基础上，本研究进行了多维度的分析，包括薪资、地区、学历、职位分布、福利等方面。通过结构化分析和可视化，研究揭示了不同岗位下的行业价值信息，为求职者提供了宝贵的参考。

更进一步，为了深入探索影响行业薪资的因素，并提前了解不同职位在各种环境因素下的薪资水平，本研究构建了基于多种机器学习技术的薪资预测模型。通过特征工程构建与薪资相关的变量，并应用集成学习技术，如随机森林、XGBoost、LightGBM、CatBoost等，研究成功构建了四组模型。模型结果不仅展示了影响薪资的重要性特征排序，还通过常见指标如均方根误差、R方等进行了评估。基于薪资发布的区间性质，研究特别设计了自定义评估指标，即预测值落在薪资上下限内的命中率和超出范围的残差值。

对比四种模型，CatBoost模型显示出最佳效果，其R方值最高，均方根误差最低。研究最终绘制了CatBoost模型的预测值与薪资上下限的可视化图，观察到大多数预测值落在合理范围内，这表明该模型具有较好的预测能力和实用价值。

综上所述，本研究不仅提供了就业市场的深刻洞察，而且展示了数据科学在职场信息解析上的强大应用潜力，对于职业发展规划和人才市场分析具有重要的实际意义。

提供就业市场的深入洞察
本研究的首要目的是通过对51job网站的招聘数据进行深入分析，提供就业市场的全面洞察。在当前社会生产和知识文化水平不断提升的背景下，这种洞察对于理解职场人士的优势、行业发展趋势和薪酬规律至关重要。这不仅帮助个人在职业选择和发展方面作出更明智的决策，也为企业和政策制定者提供重要的市场信息。
探索数据科学在职场信息解析中的应用
本研究致力于探索数据科学在职场信息解析中的应用潜力。通过运用先进的数据采集技术、数据预处理方法和机器学习模型，研究旨在揭示招聘数据中隐藏的模式和趋势。这一探索有助于推动数据科学在人才市场分析领域的进一步应用，同时也提供了新的视角和方法论，以支持更科学的职业规划和人力资源管理。
智能化处理薪资数据
鉴于薪资数据的复杂性和多样性，本研究特别强调对薪资字段进行智能化处理的重要性。通过构建新的薪资计算和范围字段，研究旨在提供更准确、更统一的薪资信息。这不仅对于理解各个职位的市场价值至关重要，也为后续的薪资预测模型提供了可靠的基础。
构建薪资预测模型
研究的另一关键目标是构建基于机器学习技术的薪资预测模型。这些模型通过分析与薪资相关的多种因素，预测不同职位在各种环境下的薪资水平。这一目标的实现不仅能够帮助求职者和雇主更好地理解当前市场薪酬状况，也为未来的薪酬趋势提供预测。
评估和比较不同的预测模型
本研究还旨在评估和比较不同的薪资预测模型，如随机森林、XGBoost、LightGBM和CatBoost等。通过对这些模型的性能进行综合比较，研究力求确定最适合招聘数据薪资预测的模型。这一评估工作不仅对于理解各种算法在实际应用中的效果至关重要，也为未来相关研究提供了宝贵的参考。

总体思路

随着社会生产水平和人们文化素养的提升，人才竞争日益激烈。在当前严峻的就业形势下，了解自身优势和行业价值规律成为职场人士的必备技能。

数据抓取

本研究运用Python网络爬虫技术，针对51job招聘网站进行数据采集。通过selenium库实现自动化加载，并使用Xpath定位目标字段。考虑到页面变动频繁，采用JSON方式全面获取27个特征信息。研究聚焦于数据分析、算法工程师等7个相关岗位，共采集7000条数据。
在这里插入图片描述

数据预处理

数据预处理阶段包括删除无关变量、重命名特征列、去除空值行。针对格式不统一的薪资字段，构建了智能化方法，统一单位并计算薪资上下限，为后续分析奠定基础。
在这里插入图片描述

数据可视化（EDA探索性分析）

多维度分析涵盖薪资、地区、学历、职位分布和福利等方面，通过结构化分析和可视化，深入探讨不同岗位的行业价值信息。

通过前期的数据采集，数据预处理，为数据的探索性分析（EDA）打下了基础，同时本研究从薪资、学历、公司背景、工作经验、岗位福利信息等多种维度进行横向和纵向的分析。旨在通过其对数据深入的探索，了解不同岗位信息下的规律分布，为求职者和招聘者提供多维的参考价值。

在这里插入图片描述
图表清晰展示了工作经验从1年到8-9年的薪酬分布趋势。分析如下：

薪资增长趋势：
- 起点：1年经验的起始薪资最低。
- 整体趋势：随工作年限增加，年薪呈上升趋势。
- 高峰期：5-7年和8-9年经验的职位年薪最高，可能反映了此阶段员工的技能成熟度、职业稳定性和可能担任的中高级职位。
非线性增长特征：
- 关键增长期：3-4年到5-7年间薪资增幅较大，可能与职业发展的重要里程碑相关，如获得重要资格认证或晋升管理层。
- 平缓期：8-9年后薪酬增长速度趋缓，显示更长工作经验后薪资增长可能放缓。
洞察与启示：
- 薪资与工作经验密切相关。
- 中期职业阶段可能经历显著薪酬增长。
- 数据为职场人士的职业规划提供了有价值的参考。

这一分析揭示了职业发展与薪酬增长的动态关系，对求职者和在职人员的职业决策具有重要指导意义。它强调了不同职业阶段的薪资特点，有助于个人制定更有针对性的职业发展策略。
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
不同城市，地理位置不一样，发展水平也各不相同，其中北上广深这种一线发达城市而言，薪资水平普遍较高，而相对于三四线小城市，消费水平以及相关的配套娱乐设施也不是很多，工资薪水自然会相对于较少，这和地区的发展有着密切的联系。

排名前五的分别是“保定”、“北京”、“广西”、“深圳”和“上海”。这些地区的平均月薪相对较高，显示了这些城市的职位可能提供更具竞争力的薪酬。相比之下，在提供最低平均月薪的地区中，排名前五的是“漳州”、“枣庄”、“天门”、“泸州”和“揭阳”。这些地区的平均月薪相对较低。这表明地区差异是影响薪资水平的一个重要因素，一线城市和经济发达地区往往能提供更高的薪酬。

在这里插入图片描述

基于多种机器学习的薪资预测

模型数据准备

由于机器学习是一个基于数据驱动的智能化框架，在进行模型训练的时候，首先需要对现由的数据集进行数据预处理工作。通过构建薪资上下限字段，有利于后续的自定义模型效果评估。

在这里插入图片描述
建立模型需要对特征进行筛选，无关的变量首先就需要将其删除，为了不造成对模型的干扰，共计删除：[‘职位标题’, ‘薪资’, ‘发布时间’, ‘网页等级排名’, ‘职位等级排名’, ‘公司名称’, ‘福利描述’, ‘薪资_分割’,‘薪资下限’,‘薪资上限’ ]。

对文本的数据列进行自动编码，可以为后续的XGBoost，lightGBM，随机森林这些模型准备，而对于Catboost是不需要进行特征的编码的，它可以自动的识别和处理相应的文本字段，且不需要调整参数就能够获得较好的评估效果。

通过随机森林，XGBoost，lightGBM，Catboost这些集成学习的机器学习模型，对其数据进行建模。数据按照20%的测试集和80%的训练集进行分割，并分别在四种模型上进行训练和评估。采用均方误差和均方根误差，最大误差，R方对其进行评估，其效果最佳的是Catboost。

特征重要性

在这里插入图片描述

自定义评估函数

为预测薪资水平并了解影响因素，研究构建了基于机器学习的预测模型。采用特征工程提取相关变量，结合随机森林、XGBoost、lightGBM和Catboost等集成学习模型进行对比实验。评估指标包括均方根误差、R方，以及自定义的命中率指标。

在这里插入图片描述

实验结果显示，Catboost模型表现最佳，具有最高的R方值和最低的均方根误差。通过可视化预测值与实际薪资范围的对比，验证了模型的有效性和实用价值。

这项研究为求职者提供了数据驱动的决策支持，有助于更好地把握就业市场动态和个人职业发展方向。

本研究在职业市场分析与预测领域展现了多方面创新，为数据科学应用做出了显著贡献：

数据采集技术：
利用Python结合selenium库和Xpath技术，开发了高效精准的网络爬虫。这一创新方法实现了对51job招聘网站的自动化大规模数据采集，为研究提供了丰富且实时的数据基础。
数据预处理方法：
针对薪资信息的复杂性，研究设计了智能化处理算法。通过创建统一的薪资计算和范围字段，不仅提高了数据质量，也为后续分析奠定了可靠基础。
多维度分析方法：
采用结构化分析和可视化技术，从薪资、地域、学历和职位分布等多角度深入剖析行业价值信息。这种全面的分析方法增强了研究结果的解释性和实用价值。
薪资预测模型：
应用随机森林、XGBoost、LightGBM和CatBoost等先进机器学习技术，构建了一系列预测模型。特别是针对薪资数据的区间特性，创新性地设计了自定义评估指标，在职场薪资预测领域开创了新的研究方向。
模型评估与优化：
通过严谨的对比实验，发现CatBoost模型在预测精度和实用性方面表现卓越。这一发现不仅验证了模型的有效性，也为未来相关研究提供了重要参考。

总之，本研究在数据获取、处理、分析和预测等环节均体现出显著创新性。它不仅深化了对就业市场的理解，也展示了数据科学在人才市场分析中的巨大应用潜力，为相关领域的决策支持和战略规划提供了有力工具。

总结

本研究运用数据科学技术，深入剖析当前就业市场，为职场人士提供实用的行业洞察和职业发展指导。研究聚焦于51job招聘网站的数据采集、处理、分析及薪资预测模型的构建与评估。

研究亮点包括：

数据采集：
采用Python爬虫技术，结合selenium和Xpath，高效精准地收集了7000条涵盖7大类岗位的数据，包含27个特征。
数据预处理：
针对薪资字段的复杂性，开发智能化处理方法，统一计算标准并建立新的薪资范围字段，显著提升数据质量。
多维度分析：
从薪资、地区、学历、职位分布等角度进行结构化分析和可视化，揭示各职位的行业价值信息。
薪资预测模型：
应用集成学习技术，包括随机森林、XGBoost、LightGBM和CatBoost，构建四组预测模型。创新性地设计自定义评估指标，其中CatBoost模型表现最佳。

研究局限性：