利用分层筛选检测医保欺诈行为

时间：2022-12-25

小编：

【摘要】（数据来自网络）本文针对交易记录和病人资料，观察其交易情况，分析其医保欺诈可能性，进而将患者划分为较高嫌疑欺诈人员、疑似欺诈人员和正常人员三类，以达到筛选出目标人员的目的。

【关键词】医疗保险欺诈；分层筛选法；模糊标度法；聚类分析法；欺诈识别因子

（一）第一层分析网

目的在于将庞大的数据集缩小化，以减少后续深入分析的工作量，提高工作效率。具体方法：

对所有交易记录的单笔消费和患者一个月内购药次数两方面做统计方法处理，简单筛选出大量的正常交易记录与少量的可疑交易记录和大量的正常人群与少量疑似人群，将可疑交易记录和疑似人群分别传入第二层分析网。

（二）第二层分析网

本层分析网目的在于将初步疑似交易记录和疑似人群中分别找出更为准确的人员分类，即较高嫌疑欺诈人群和疑似欺诈人群。具体方法：

模块a：采用模糊标度法对初步筛选记录进行分析，计算出两类数据集各指标权重，找出两类数据集中的显著识别因子（主因子），为下一模块作铺垫。

模块b：利用模糊标度法分析得出的显著识别因子，采用聚类分析法根据选出的显著识别因子对初步疑似人群进行分类评级处理，最终得到较高嫌疑欺诈人群、疑似欺诈人群和正常人群。

（三）最终评级认定

对第二层中的第一类和第二类分析网的出的较高嫌疑欺诈人群、疑似欺诈人群和正常人群整合分析，以其高评级为其实际评级（即一患者如果在第一类分析网中被认定为疑似欺诈人群，在第二类分析网中被认定为较高嫌疑欺诈人员，则最终认定其为较高嫌疑欺诈人员），最终的到目标人群。

（一）第一层筛选法

依据数据中较为直观的两个识别因子：一段时间内购买药物频率和单笔总费用，对数据进行初步筛选，分成两类数据集，服务于下一层筛选网：

第一类数据集：以流水号为因子，其单笔购药总费用为因变量，进行因子筛选。运用SPSS 统计软件的Analyze->Descriptive->Explore 功能，筛选出按单笔购药总费用降序排列的前10%的数据。

第二类数据集：以病人编号为因子，运用Excel 软件的数据透视表功能计算出每个病人编号所对应的频数，用SPSS 的explore 功能取其上四分位数以上的数据，并将其他原始患者资料中的相关数据与之关联。

（二）第二层筛选法

模块a：模糊标度法确定指标权重（确定显著识别因子）

为确定第二层的第一类与第二类筛选法各识别因子对检测结果的影响大小，采用层次分析法中的模糊标度法对两分支中各因子进行目标优属度分析。即计算出各可利用因子的指标权重，以此筛选出影响检测的显著识别因子，作为之后聚类分析的变量。上述过程及计算由SPSS软件实现，可得指标的权向量：

模块b：聚类分析（分类数据）

由之前的模糊标度法可分别得得两类数据集的影响“医保欺诈可能性大小”的显著识别因子，接下来将基于这两组因子分别对两个数据集分类，以便之后的分析。此处目的是对样本数据进行聚类，即横向合并数据，因此使用Q 型系统聚类法。

先确认分类个数。令

其中Pk为离差平方和，W为类内离差平方和。PK/W的值越小，即R2越大，说明k个类分得越开。期望的聚类结果是：类的个数尽可能的少同时R2的值保持较大。因此，类的个数进一步减少一般不应以R2的大为减少作为代价。在取不同k 值的过程中我们发现，当k=3 时R2的值最大，且当k>3 时R2减少缓慢，kAnalyze->Classify->Hierarchical Cluster Analysis，将影响“医保欺诈可能性大小”的总费用数据集的3个的显著识别因子：数量、总费用、核算分类（频数数据集的2个显著识别因子：一个月内购药次数、年龄）送入变量框，在统计量Statistics->Cluster Membership 处选择Single Solution，聚类数均输入3。输出结果经整理得：

其中“3”代表“医保欺诈可能性大小：高”，“2”代表“医保欺诈可能性大小：中”，“1”代表“医保欺诈可能性大小：低”。

两次聚类分析后，实现了对两个数据集的分类，从整体上得到了医保欺诈可能性大小“高-中-低”的三组对象。

利用分层筛选检测医保欺诈行为

小编：

相关推荐

热点推荐

相关搜索

最新排行