人工智能-数据分析及特征提取思路

1、概况

基于学生行为数据预测是否涉黄、涉黑等。

2.数据分析

数据分析的意义包括得到数据得直觉、发掘潜在的结构、提取重要的变量、删除异常值、检验潜在的假设和建立初步的模型。

2.1数据质量分析

2.1.1数据值分析

查看数据类型：
首先明确各字段的数据类型，例如学生标识通常为字符串类型（如学号），访问时间一般是日期时间类型，访问网址、搜索关键词等为文本类型，停留时长、访问频次等则是数值类型，而是否涉黄涉黑标签多为整型（0 或 1）表示类别。确保数据类型的准确性对后续的处理和分析至关重要，若类型错误可能导致无法正确进行相应的计算或操作。

值域范围检查（针对数值型字段）：
对于像停留时长、访问频次这类数值型数据，查看其取值范围是否合理。例如，停留时长理论上应为非负数值，若出现负数则明显不符合实际情况，可能是数据记录错误。再比如，访问频次如果过高（远超正常学生在一定时间内可能的上网操作次数），也需要进一步核实，有可能是系统异常重复计数或者数据录入错误导致的异常值。

文本内容审查（针对文本型字段）：
对于访问网址、搜索关键词以及聊天记录（若有）等文本字段，简单浏览部分样本内容，查看是否存在乱码、无法识别的字符或者不符合正常语义表达的内容。例如，访问网址中出现一些格式完全错误、不符合 URL 规范的字符串，可能意味着数据采集过程中出现了问题，需要对这些数据进行清理或修正。

2.1.2 异常值分析

数值型数据异常值检测方法：

箱线图法：绘制各数值型字段（如停留时长、访问不同类型网站的频次等）的箱线图，通过箱线图的上下限（通常定义为 Q1 - 1.5 * IQR 和 Q3 + 1.5 * IQR，其中 Q1 为下四分位数，Q3 为上四分位数，IQR 为四分位距）来判断异常值。落在箱线图上下限范围之外的数据点可视为异常值。例如，若发现某个学生在某网站的停留时长远远超出箱线图上限，比大部分学生的停留时间长很多，这就需要进一步排查是因为该学生确实存在特殊的长时间浏览行为（如进行深度学习、观看长篇视频等合理原因），还是数据记录错误等异常原因导致的。

基于统计分布的方法：假设某些数值型数据符合特定的统计分布（如正态分布等），可以通过计算均值和标准差，将偏离均值一定倍数标准差（通常取 3 倍标准差范围外）的数据认定为异常值。比如，统计学生每天的上网总时长，若其服从正态分布，那些超出 3 倍标准差的上网时长数据就很可能是异常情况，需要关注并处理。

分类型数据异常识别：

频次统计：对于像网站域名类型、下载文件类型等分类字段，统计各分类出现的频次，查看是否存在出现频次极低、不符合常理的类别值。例如，在域名类型中出现了一个从未见过且无法与正常网站类别对应的域名，可能是数据录入错误或者恶意伪造的数据，需要进一步核实该记录的真实性。

逻辑判断：依据业务知识和常识进行逻辑判断，检查分类值之间是否存在矛盾或不合理的情况。比如，若记录显示学生从一个标注为 “正规教育资源” 的网站下载了类型为 “成人视频” 的文件，这显然不符合逻辑，可能存在数据标注错误或者其他异常情况，需要对相关记录进行修正或排查。

异常值处理策略：

核实与修正（如果能确定异常原因）：对于能够明确判断是由于数据录入错误、系统故障等原因导致的异常值，如时间记录格式错误、明显的分类标注错误等，可手动修正为正确的值。例如，将错误的时间格式按照正确的日期时间格式进行调整，或者修正错误标注的网站域名类型等。

删除异常值（无法准确修正且对整体数据影响较大时）：若异常值占比较小且明显不符合正常的数据分布规律，对后续模型训练可能造成干扰，可考虑删除这些异常值对应的记录。例如，个别学生的异常高访问频次是由于系统故障重复记录导致的，删除这些异常记录可使数据更贴近真实情况，同时避免对模型训练产生误导。不过，在删除异常值时要谨慎操作，确保不会丢失重要的信息或影响数据的代表性。

数据转换（使异常值不那么极端影响结果）：对于一些无法直接删除的数值型异常值，可以通过数据变换方法，如对数变换、标准化等，将其数值范围调整到更合理区间，降低其对整体分析的影响。例如，对停留时长进行对数变换后，异常长的停留时长在变换后的数值上就不会显得过于突出，更符合数据的整体分布规律。另外，对于一些异常的分类值，如果不能直接修正或删除，可以将其归为一个特殊的 “其他” 类别，在后续分析中单独考虑其影响。

2.1.3一致性分析

跨字段逻辑一致性检查：

时间关联一致性：查看访问时间与停留时长之间是否逻辑一致。例如，若某条记录显示访问时间是凌晨 1 点开始，停留时长为 2 小时，但后续紧接着的另一条记录访问时间却是凌晨 3 点 30 分，中间存在时间间隔不符合常理，这可能意味着数据记录存在时间戳不准确或者停留时长计算错误等问题，需要对相关记录进行核对和调整。

行为关联一致性：分析不同行为相关字段之间的逻辑关系是否合理。比如，若学生在某一时刻记录显示正在访问一个正规学习网站，而同时搜索关键词却都是涉黄涉黑相关敏感词，这种行为上的矛盾可能暗示数据存在错误或者需要进一步深入了解背后的原因，可能是数据采集的时间点不准确或者存在其他干扰因素导致的不一致情况。

重复记录检查：通过对学生标识以及关键行为字段（如访问网址、搜索关键词等组合）进行查重操作，查看是否存在完全重复的记录。重复记录可能是由于数据采集过程中的重复采集、存储错误等原因导致的，过多的重复记录会影响数据分析的准确性以及模型训练的效果，需要根据具体情况进行去重处理。如果是少量的偶然重复，可直接删除重复记录；若重复情况较为复杂且涉及大量数据，需要进一步排查数据采集和存储环节的问题，确保数据的准确性和唯一性。

3、数据特征分析

3.1分布分析

3.1.1数值型数据分布分析

绘制直方图或密度图：

对于停留时长、访问频次等数值型数据，绘制直方图或密度图来直观展示其分布形态。例如，通过绘制学生每天上网总时长的直方图，可以观察到上网时长是近似正态分布、偏态分布还是其他分布形态。如果呈现正态分布，说明大部分学生的上网时长集中在某个均值附近，两侧的极端值较少；若为偏态分布（如右偏态，意味着长尾在右侧），则表示有少数学生上网时间较长，偏离了大部分学生的上网时长范围，这有助于进一步了解数据的整体特征以及发现潜在的异常值或特殊情况。

统计分布参数（如均值、中位数、众数等）：

计算数值型数据的均值、中位数、众数以及标准差等统计参数，从数值角度描述数据的集中趋势和离散程度。例如，均值反映了数据的平均水平，中位数则更能体现数据的中间位置情况（不受极端值影响），众数是出现频次最高的数据值，标准差则表示数据相对于均值的离散程度。通过对比这些参数，可以更深入地了解数据的分布特点，比如若均值和中位数相差较大，可能暗示数据存在偏态分布，有较多的极端值影响了均值的代表性。

3.1.2分类型数据分布分析

绘制柱状图：

针对网站域名类型、下载文件类型等分类字段，绘制柱状图展示各分类的频次分布情况。从柱状图中可以直观地看出学生访问不同类型网站的偏好情况，例如哪种类型的网站被访问的次数最多，哪些类型相对较少等，这有助于发现数据中的重点关注类别以及可能存在的异常类别（如访问不良内容类网站的情况）。

计算比例关系：

统计各分类在总体中所占的比例，了解不同类别数据的占比情况。例如，计算访问正规教育类网站的记录占总上网记录的比例，以及涉黄涉黑相关网站（如果有标记）的访问记录占比等，通过这些比例关系可以判断整体数据中各类行为的相对重要性和普遍性，为后续的特征工程和模型训练提供参考依据。

3.2对比分析

3.2.1不同学生群体对比

按年级分组对比：将学生按照不同年级进行分组，对比各年级学生在上网行为特征上的差异。例如，分析不同年级学生访问各类网站的频次、搜索关键词的特点等，可能会发现高年级学生由于知识储备和自主学习需求不同，访问学术资源类网站的频次更高，而低年级学生可能更多地访问娱乐类网站；同时，也可以观察不同年级学生涉及涉黄涉黑相关敏感词的情况是否存在差异，以便针对不同年龄段的学生特点采取相应的教育和监管措施，以及在模型训练中考虑不同年级的特征差异。

按性别分组对比：根据学生性别进行分组对比，查看男女生在上网行为方面的不同之处。比如，可能发现男生对游戏类网站的访问频次相对较高，而女生在社交类网站上花费的时间更多；在搜索关键词方面，男女生关注的话题也可能有所不同，这些差异可以帮助我们更细致地了解学生群体的行为模式，在特征工程中可以考虑加入性别相关的交互特征，以提高模型对不同性别学生行为判断的准确性。

3.2.2不同时间段对比

按日、周、月等时间周期对比：分析学生在不同时间周期内的上网行为变化。例如，对比工作日和周末学生上网的频次、访问网站类型以及停留时长等情况，可能会发现周末学生上网时间普遍更长，访问娱乐类网站的比例更高；按月对比不同月份的上网行为，可能会发现寒暑假期间学生上网行为与在校期间有较大差异，这些时间上的对比分析有助于把握学生上网行为的动态变化规律，为后续的特征构建和模型训练提供更具时效性的信息，比如可以针对不同时间段设置不同的特征权重或者调整模型的训练策略。

3.3统计量分析

3.3.1集中趋势统计量（如均值、中位数、众数）

均值：计算各数值型特征（如停留时长、访问频次等）的均值，了解学生上网行为在平均水平上的表现。例如，计算学生平均每次访问网站的停留时长，通过均值可以大致判断学生浏览网页内容的平均投入程度；但要注意均值容易受极端值影响，当数据存在较多异常值时，均值可能不能很好地反映数据的真实集中趋势。

中位数：确定各数值型特征的中位数，它表示将数据按照大小顺序排列后处于中间位置的数值。中位数相较于均值更具稳健性，不受极端值的影响较大，能更准确地反映数据的中间水平。例如，在分析学生每天上网总时长时，如果均值受到少数长时间上网的学生影响而偏高，中位数则可以更客观地体现大部分学生每天上网的大致时长情况，为后续的数据分析和模型训练提供更可靠的参考。

众数：找出各数值型或分类型特征的众数，即出现频次最高的数据值（对于分类型数据就是出现次数最多的类别）。比如，在网站域名类型中，众数可能是某个主流的娱乐类网站域名，这说明该类型网站是学生访问最为频繁的，通过众数可以了解到学生上网行为中最具代表性的情况，在特征工程中可以将众数相关的特征进行重点考虑，或者作为一种基准来对比其他类别或数值的情况。

3.3.2离散程度统计量（如标准差、方差、极差）

标准差：计算各数值型特征的标准差，它衡量了数据相对于均值的离散程度。标准差越大，说明数据越分散，学生之间在相应上网行为特征上的差异越大；反之，标准差越小，数据越集中在均值附近。例如，通过比较不同类型网站停留时长的标准差，可以了解到学生对不同类型网站关注程度的差异情况，对于标准差较大的网站类型，说明学生在该网站上的停留时长差异明显，可能需要进一步分析原因，是因为网站内容多样性导致还是个体兴趣差异等因素造成的，这对后续的特征构建和模型理解都有帮助。

方差：方差是标准差的平方，与标准差具有相同的含义，都是用于描述数据的离散程度，在一些统计分析和模型计算中也会经常用到，通过方差可以更直观地看到数据的波动情况，例如分析学生访问频次的方差，能判断学生上网行为的稳定性程度。

极差：极差是数据中的最大值减去最小值得到的差值，它简单直观地反映了数据的取值范围大小。例如，通过计算学生上网总时长的极差，可以快速了解到学生之间上网时间跨度的最大差异情况，对于发现数据中的极端值以及整体数据的波动范围有一定的帮助。

3.4相关性分析

3.4.1数值型特征之间的相关性分析

计算相关系数（如 Pearson 相关系数、Spearman 相关系数等）：使用统计方法计算不同数值型特征之间的相关系数，以衡量它们之间线性相关的程度。例如，计算停留时长与访问频次之间的 Pearson 相关系数，如果相关系数接近 +1，表示两者之间存在强正相关，即访问频次越高，停留时长往往也越长；若相关系数接近 -1，则为强负相关；接近 0 表示两者之间基本不存在线性相关关系。Spearman 相关系数则更适用于非线性相关或者存在等级顺序的数据情况。通过相关性分析，可以发现哪些特征之间存在较强的关联，避免在特征工程中引入过多冗余的相关特征，同时也能挖掘出一些潜在的特征组合关系，为模型训练提供更有效的输入特征。

绘制散点图（可视化相关性）：对于相关性分析中发现的一些重要的数值型特征对，绘制散点图来直观展示它们之间的关系。例如，以访问频次为横轴，停留时长为纵轴绘制散点图，通过观察散点的分布情况，可以更清晰地看到两者之间的线性或非线性关系趋势，辅助判断相关系数所反映的相关性是否符合实际情况，以及进一步探索是否存在异常的数据点影响了相关性分析结果等。

3.4.2数值型特征与分类目标（是否涉黄涉黑）的相关性分析

分组统计分析：将学生按照是否涉黄涉黑进行分组，然后对比两组学生在各数值型特征（如访问不良内容类网站频次、涉黄敏感词出现频次等）上的均值、中位数等统计量差异。例如，发现涉黄涉黑的学生组在访问不良内容类网站频次上的均值明显高于未涉黄涉黑的学生组，这就表明该特征与目标变量之间可能存在较强的关联，在后续的特征工程和模型训练中应重点关注此类特征，将其作为重要的判断依据纳入模型。

使用统计检验方法（如 t 检验、卡方检验等，根据数据类型选择合适方法）：通过相应的统计检验方法来判断数值型特征与分类目标之间的相关性是否具有统计学意义。例如，对于数值型特征 “在涉黑相关网站停留时长” 与目标变量 “是否涉黑”，可以采用 t 检验（假设数据符合正态分布等条件）来检验两组（涉黑组和未涉黑组）在该特征上的均值差异是否显著，若检验结果显示差异显著，则说明该特征与是否涉黑有较强的相关性，对模型区分涉黑学生有一定的帮助作用，可作为重要特征用于模型构建。

3.4.3分类型特征与分类目标（是否涉黄涉黑）的相关性分析

列联表分析：对于像网站域名类型、下载文件类型等分类特征，构建列联表，统计不同类别与是否涉黄涉黑之间的交叉频数情况。例如，在列联表中可以看到访问正规教育类网站的学生中涉黄涉黑的人数和未涉黄涉黑的人数，以及访问不良内容类网站的学生相应的涉黄涉黑情况等，通过观察列联表中的频数分布，可以初步判断不同类别与目标变量之间的关联程度，比如发现访问不良内容类网站的学生中涉黄涉黑的比例相对较高，说明该分类特征与目标变量有较强的相关性，在模型训练时可将其作为重要的分类依据进行特征编码和使用。

卡方检验（用于检验分类变量之间的关联性）：基于列联表进行卡方检验，判断分类型特征与是否涉黄涉黑之间的相关性是否具有统计学意义。若卡方检验的结果显示 p 值小于设定的显著性水平（如 0.05），则表明两者之间存在显著的关联，可以将该分类型特征纳入后续的特征工程和模型训练中，帮助模型更好地进行分类决策。