SPSS统计分析案例:多层感知器神经网络

SPSS统计分析案例:多层感知器神经网络

神经网络模型起源于对人脑思维方式的研究。它是一个非线性数据建模工具。神经元由输入层、输出层和一个或多个隐层组成,神经元之间的连接被赋予相应的权重。训练和学习算法在迭代过程中不断调整这些权重,从而最小化预测误差,给出预测精度。

在SPSS神经网络中,有两种方法:多层感知器(MLP)和径向基函数(RBF)。

本期主要研究多层感知器神经网络。很难解释清楚。为了直观感受它的作用,我们先从一个案例入手,然后再总结知识。

案例数据

该数据文件涉及银行为降低贷款违约率而采取的措施。该文档包含过去获得贷款的700名客户的财务和人口统计信息。请使用这700个客户的随机样本创建一个多层感知器神经网络模型。银行需要这个模型来根据高或低的信用风险对新客户数据进行分类。

首先分析:菜单参数

要运行多层感知器分析,请从菜单中选择:

分析>神经网络>多层感知器

如上图所示,MLP主面板* * *有八个页签,其中至少需要设置“变量”、“分区”、“输出”、“保存”、“导出”五个页签,其他接受软件默认设置。

▌“变量”选项卡

将“默认”移到因变量框中;

将分类变量“教育”移至因子框,其他数值变量移至“协变”框;

因为协变量的维度不同,所以选择“标准化”;

▌“分区”选项卡

在此之前,先在《皈依》中说明;在随机数生成器的菜单中,随机数的固定种子设置为9191972(这里和SPSS的官方文档一样,用户可以自由设置),因为在“分区”页签中,要求对原始数据文件进行随机抽样,将数据分为“训练样本”、“支持样本”、“测试样本”三块,所以随机过程可以重复。

初始建模时,将70%的样本作为训练样本完成自学习,构建神经网络模型,30%作为支持样本对建立的模型进行性能评估,暂时不分配测试样本;

▌“输出”选项卡

查看“描述”和“图”;

查看“模型汇总”、“分类结果”和“预测实测图”;

查看“案件处理总结”;

构成“自变量重要性分析”;

这是第一次尝试性的分析。主要参数如上设置,其他页签接受软件默认设置。最后,返回主面板,点击“确定”开始MLP进程。

第一次分析的结果:

主要结果如下:

案件处理汇总表,记录700个贷款客户,其中480个客户被分配到训练样本,占68.6%,另外220个客户被分配到支持样本。

根据模型汇总表,第一次构建的MLP神经网络模型的错误预测百分比为12.7%,独立支持样本检验模型的错误百分比为20.9%,表明超过了最大时间课程数,模型的异常规则被中止,表明有过度学习的嫌疑。

判断:第一次建立的模型需要防止过度训练。

第二个分析:菜单参数

第一次分析有过度训练的嫌疑,所以第二次分析主要是添加测试样本,输出最终的模型结果。

要运行多层感知器分析,请从菜单中选择:

分析>神经网络>多层感知器

▌“分区”选项卡

重新分配样本,总共700个样本,30%的支持样本,50%的训练样本从70%减少,另外20%分配到独立测试样本空间;

▌“保存”选项卡

保存每个因变量的预测值或类别;

保存每个因变量的预测准概率;

▌“出口”标签

将估计的突触权重导出到XML文件;

命名XML模型文件并指定存储路径;

其他选项卡的操作与第一个分析一致。返回主面板,点击“确定”开始第二次分析。

第一次分析的结果:

总样本在3个分区中的分布比率。

MLP神经网络图,该模型包括1个输入层,1个隐藏层和1个输出层。输入层神经元数为12,9个隐层,2个输出层。

根据模型汇总表,模型误差在1连续步中未得到优化降低,模型如期终止。三个分区中模型的不正确预测的百分比接近。

在模型分类表中,软件以0.5作为违约对错的概率边界,交叉对比三大区域样本的正确率,显示预测为否,即预测不违约的概率高于违约,模型对违约贷款客户的风险识别能力较低。

预测-实测图,根据贷款客户是否拖欠和预测结果进行分组,纵坐标为预测概率。当边界为0.5时,优质客户的识别效果较好,但对欠费客户的识别出错概率较大。

显然,以0.5为分界线并不是最优解。我们可以尝试将分割线下移至0.3左右,这样会使第四个方框图中的大量客户被正确地重新归类为债务人,提高风险识别能力。

自变量重要性图表,它是重要性表中值的条形图,按重要性值的降序排序。它表明,与客户稳定性(就业,地址)和债务(信用债务,debtinc)相关的变量对网络如何对客户进行分类有很大的影响。

最后,查看导出的XML模型文件:

第二个MLP神经网络模型存储在XML文件中,可用于新客户的分类和风险识别。

新客户分类

假设有150个新客户,需要利用之前建立的模型快速分类识别这些客户的风险。

打开新客户数据并从菜单中选择:

实用程序>评分向导

键入" XML文件",点击"下一步":

检查新数据文件变量的定义是否准确。下一步。

选择输出“预测类别的概率”和“预测值”。完成了。

新客户数据文件中增加了三个新列,分别给出了每个新客户的预测概率和风险分类(是否欠贷款)。

多层感知器神经网络综述

前馈监督学习技术;

多层感知器可以发现极其复杂的关系;

如果因变量被分类,神经网络将根据输入数据将记录分类到最合适的类别中;

如果因变量是连续的,则网络预测的连续值是输入数据的连续函数;

建议打造培训-测试-支持三分区,网络培训学习会更有效;

该模型可以导出为XML格式,以便对新数据进行评分;