百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

一种面向混合数据的模糊等价关系构造约简

zhezhongyun 2025-03-28 23:25 17 浏览

摘 要: 基于模糊粗糙集模型构建模糊等价关系是混合数据分析的有效方法之一。针对属性类别多样性的混合型信息系统,提出一种带权的对象间相似性度量方法,该方法建立每类属性对应的相似性度量函数,再通过归并确立带权的模糊相似矩阵。在转化为模糊等价关系的基础上,采用加入蕴含专家领域知识及用户需求的约简算法。通过数据库中几个数据集样本对属性约简后的数目、精度进行对比,验证了方法的有效性和可行性。

0 引言

粗糙集理论是一种以精确的数学形式处理不确定信息的数学工具,属性约简在保持分类能力不变的前提下获得最小特征子集,是粗糙集理论的核心应用之一。经典粗糙集理论[1-3]通常是处理只包含符号型属性的数据模型,而实际的信息系统中属性和决策的值域是多样性的,有符号型属性,也有连续数值型属性,即混合分类数据。对于混合数据的处理大体可分为两类:一类是离散化方法[4],将数值型属性转化为符号型属性的数据形式,即在数值属性值域中选择合适的分割点,划分成若干由字符标记的不同区域,从而将不同类别属性转化为统一的数据形式再进行约简。如何选择分割点引出了离散化方法的系统分析比较[5],讨论的关键在于分割点数量和位置的设计,缺点在于产生了量化误差,丢失了同种符号表示的区域内不同属性值间的序信息。另一类是对不可分辨关系进行拓展的混合型方法。Hall提出了利用信息熵计算符号变量相关性的特征选择方法[6],Zhou和Qian提出了采用定性信息分解复杂问题的决策树构造方法[7],以及之后提出的混合数据特征选择的方法[8],缺点都是将符号型属性和数值型属性割裂开分析,丢失了分类能力较强的数值属性信息。Kwak和Choi、Peng等人陆续采用Parzen窗方法计算数值型样本概率密度来进行特征选择[9],取得了一定进展。Zadeh提出了模糊集理论[10],认为模糊信息粒化在知识发现过程中极其重要,模糊粗糙集和粗糙模糊集概念的提出,融合了模糊粒化和粗糙逼近两种不确定方法[11-15],使得约简结果能更清晰地体现信息系统的分类能力。Hu采用信息熵的概念度量信息系统的分类能力,在混合数据的处理过程中,得到的对象间相似矩阵数值单一,且整合符号型和数值型属性的过程中丢失很多分类信息[16]。遗传算法应用于混合数据约简的方法,由于本身算法的特点导致计算量大、耗时长[17-18]。

本文重点研究在模糊粗糙集模型框架下如何定义混合数据间带权的相似性度量方法及模糊等价关系,通过定义不同类别属性对应的相似性度量函数,以及带权的模糊相似矩阵,最终确定模糊等价关系;之后通过加入领域专家的经验知识和系统客户的需求偏好对数据进行约简,将约简后的属性数目、精度与其他方法的数据进行对比,以验证方法的有效性和可行性。

1 模糊等价关系及其度量

针对符号型变量的处理,可以利用粗糙集在等价关系的基础上建立对象间关系。但对于数值型变量,等价关系不足以清晰地刻画对象间关系,需要借助模糊等价关系的概念。

给定信息系统S=(U,A),论域U={x1,x2,…,xn},属性集合A=C∪D是条件属性和决策属性的集合,且C∩D=

。本文讨论的混合信息系统的属性集合既有条件属性,也有数值属性。 定义1:给定一个矩阵A=(aij)n×n,若对

i,j=1,2,…,n,满足:(1)自反性:aii=1;(2)对称性:aij=aji;(3)模糊性:aij∈[0,1];(4)传递性:aij≥∨k(aik∧akj),则称矩阵A为模糊等价矩阵。

在以下论述中,用M(R)=(rij)n×n来表示二元关系R的关系矩阵,其中R满足模糊等价关系。

定义4[16]:给定模糊信息系统,A=C∪d,若H(d|B-a)=H(d|B),则属性a是冗余的,若H(d|B-a)>H(d|B),则B是独立的。若满足:(1)H(d|B)=H(d|A);(2)∨a∈B∶H(d|B-a)<H(d|B),则称B是A的属性约简。

下节将利用上述度量,构造混合数据间的模糊等价关系,依据属性重要性的度量进行约简。

2 模糊等价矩阵的构造及算法描述

基于模糊等价关系的数据构造是混合数据分析的重要模型,利用矩阵形式刻画具有不同属性类别的样本间关系。针对符号型属性,Hu[16]根据属性取值是否相等计算样本间的相似度贡献,属性间取其交集得结果,由此矩阵中只见两个单一数值,不能具体地刻画样本间的区分信息,且需针对每个属性做重复计算;刻画不同类别属性间的关系依然采用取其交集的简便算法,在各种属性类别取值丰富多样的信息空间,这种关系构造方法丢失大量的非冗余的有效信息。本节将对混合数据中各个类别属性分别重新进行构造,提出一种带权的对象间相似性度量方法,并且使其最终转化为一个模糊等价关系,在加入量化知识的基础上进行约简。

2.1 模糊相似关系的构造

给定一个包含n个样本的决策系统,其中A=A1∪A2,A1定义为符号型属性的集合,A2定义为数值型属性的集合,U={x1,x2,…,xn},

。本节将描述样本的属性分类处理,分别定义与之对应的唯一函数。

符号型属性的取值是离散的、非有序的,若两个样本的条件属性取值完全相同,则其决策是一致的。因此,不同样本间的区分能力由取值不同的属性来体现,在此引入一个关系矩阵来体现符号型属性集对样本间的贡献度。

数值型属性的取值是连续的、有序的,当两个样本除属性a之外的其余条件属性相同时,针对属性a,若样本x比样本y占优,则x的决策至少不比y差。因此,不同样本间的区分能力由决策不一致的程度(即样本x比样本y占优的程度)来体现。同样定义数值型属性集对样本间的贡献度:

s(xi,xj)表示对象xi比xj在属性a上偏好、占优的程度,若xi比xj占优,则s(xi,xj)>0.5。若xj比xi占优,则s(xi,xj)<0.5。当s(xi,xj)=1时,说明xi比xj绝对占优。矩阵

是s(xi,xj)转化后的对象间模糊相似关系,表示对象xi和xj间的相似性度量。

以上是针对一个数值属性进行的对象间模糊相似处理,对于多个属性,采用交运算来归并不同属性间的模糊关系。假设属性a和属性b分别计算其偏好关系为wij和zij,则对象xi与xj对属性{a}∪{b}量化的偏好关系为min(wij,zij)。

以上论述中提出了带权的对象间相似性度量方法,实现了混合数据间的模糊相似关系构造,但模糊等价关系是计算信息熵的前提,因此,最后还需将模糊相似矩阵转化为模糊等价矩阵。

2.2 模糊等价关系的构造算法及约简算法

本节采用Lee Hauan-Shih给出的关于模糊相似矩阵传递闭包问题的优化算法来进行转化[19],使其满足模糊等价关系的充要条件传递性,具体算法如下:

算法:设模糊相似矩阵为R=(rij)n×n,模糊等价矩阵为R*=(r*ij)n×n

输入:R=(rij)n×n

输出:R的传递闭包R*

(1)令r*ii=1(1≤i≤n);

(2)集合U={rij|j>i}中的元素是从大到小排序的序列;

(3)

①若R*中元素不存在r*ii=

,结束算法;否则转步骤②。 ②对于U中的最大元素ri′j′,若r*i′j′=

,令I={j|r*i′j≠

},J={i|r*ij′≠

},置r*ij=r*ji=ri′j′(i∈I,j∈J),U=U-{ri′′j};否则,转步骤①。

下面将采用基于属性重要性的约简算法进行约简,算法中设置一个信息表T用来存储所有属性值,其中属性元素按照领域专家的经验值和用户的需求偏好多寡来排序。

算法如下:

输入:决策系统S=,A=C∪d,信息表T;

输入:S的属性约简RED。

(1)令RED=

(2)令T中元素从大到小进行排序;

(3)

①选择T中第一个属性ai,计算H(d|ai∪RED)以及SIGi(ai,ai∪RED,d)=H(d|RED)-H(d|ai∪RED)

②若SIGi>0,则ai∪RED→RED,T-ai→T,返回

步骤①;否则算法结束。

3 实验分析

本节在MATLAB实验环境下选择UCI数据库中的数据集,验证混合数据的模糊等价关系构造约简方法的有效性,表1列出了数据集的基本信息。可以看出其中数据集WPBC包含一类属性,其他数据集包含两类属性。

表2和表3分别列出了本文方法下的数据集约简结果以及约简后属性数目的统计。

分析表3,与其他三种方法(原始数据下的约简、离散化方法下的约简、模糊熵方法下的约简)[16]支撑的数据相比,本文方法在信息量保持不变的前提下剔除了更多的冗余属性;同时,针对包含一类或两类属性的数据集都进行了有效的约简。表4是采用支持向量机对本文结果与其他几种方法[16]的约简数据进行精度对比。实验结果显示本文方法下约简后的属性精度平均值较高。由此可以看出本文提出的基于模糊等价关系构造的混合数据约简有效地达到了约简的目的,并且得到较优的约简结果。

4 结束语

模糊粗糙集和粗糙模糊集概念的提出,融合了模糊粒化和粗糙逼近两种不确定性方法,基于模糊粗糙集模型构建模糊等价关系是混合数据分析的有效方法之一。针对混合型信息系统,本文分别提出各类数据的对象间度量以及总体度量方法,建立带权的对象间相似性度量方法,在转化为模糊等价关系的基础上,采用了加入领域专家的经验知识和系统客户需求的约简算法。通过实验数据分析验证了方法的有效性和可行性。

参考文献

[1] PAWLAK Z. Rough sets-theoretical aspects of reasoning about data[M]. Dordrecht: Kluwer Academic, 1991.

[2] 张清华,王国胤,肖雨.粗糙集的近似集[J].软件学报,2012,23(7):1745-1759.

[3] 石梦婷,刘文奇,余高锋,等.变精度软粗糙集[J].计算机工程与应用,2014(1):101-104.

[4] CATLETT J. On changing continuous attributes into ordered discrete attributes[C]. European working session on learning, 1991:164-178.

[5] LIU H, HUSSIANM F, TAN C L, et al. Discretization: an enabling technique[J]. Data Mining and Knowledge Discovery, 2002,6(4):393-423.

[6] HALL M A. Correlation-based feature selection for discrete and numeric class machine learning[C]. In Proc 17th ICML, 2000:359-366.

[7] ZHOU Z H, QIAN C Z. Hybrid decision tree[J]. Knowledge Based Systems, 2002,15(8):515-528.

[8] TANG W. Y, MAO K. Z. Feature selection algorithm for mixed data with both nominal and continuous features[J]. Pattern Recognition Letters, 2007,28(5):563-571.

[9] KWAK N, CHOI C H. Input feature selection by mutual information based on parzen window[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002,24(12): 1667-1671.

[10] ZADEH L. Toward a generalized theory of uncertainty-an outline[J]. Information Science, 2005,172:1-40.

[11] DUBOIS D, PRADE H. Rough fuzzy sets and fuzzy rough sets[J]. International Journal of General Systems, 1990,17(2-3):191-209.

[12] 范成礼,邢清华,邹志刚,等.基于直觉模糊粗糙集相似度的多属性决策方法[J].计算机工程与应用,2014(7):121-124.

[13] 丁世飞,朱红,许新征,等.基于熵的模糊信息测度研究[J].计算机学报,2012,35(4):796-801.

[14] Pan Zhenghua, Zhang Lijuan. A new fuzzy set with three kinds of negations and applications to decision making in financial investment[J]. Journal of Haman and Ecological Risk Assessment, 2011,17(4):795-780.

[15] 潘正华.模糊知识的三种否定及其集合基础[J].计算机学报,2012,35(7):1421-1428.

[16] Hu Qinghua, Yu Daren, Xie Zongxia. Information-preserving hybrid data reduction based on fuzzy-rough techniques[J]. Pattern Recognition Letters, 2006,27(5):414-423.

[17] HASHMI K, ALHOSBAN A, MALIK Z, et al. WebNeg: a genetic algorithm based approach for service negotiation[C]. In: Foster I, et al., eds. Proc. of the ICWS 2011, Los Alamitos: IEEE CS, 2011:105-112.

[18] 梁亚澜,聂长海.覆盖表生成的遗传算法配置参数优化[J].计算机学报,2012,35(7):1522-1538.

[19] LEE H S. An optimal algorithm for computing the max-min transitive closure of a fuzzy similarity matrix[J]. Fuzzy Sets and Systems, 2011,123(1),129-136.

相关推荐

JPA实体类注解,看这篇就全会了

基本注解@Entity标注于实体类声明语句之前,指出该Java类为实体类,将映射到指定的数据库表。name(可选):实体名称。缺省为实体类的非限定名称。该名称用于引用查询中的实体。不与@Tab...

Dify教程02 - Dify+Deepseek零代码赋能,普通人也能开发AI应用

开始今天的教程之前,先解决昨天遇到的一个问题,docker安装Dify的时候有个报错,进入Dify面板的时候会出现“InternalServerError”的提示,log日志报错:S3_USE_A...

用离散标记重塑人体姿态:VQ-VAE实现关键点组合关系编码

在人体姿态估计领域,传统方法通常将关键点作为基本处理单元,这些关键点在人体骨架结构上代表关节位置(如肘部、膝盖和头部)的空间坐标。现有模型对这些关键点的预测主要采用两种范式:直接通过坐标回归或间接通过...

B 客户端流RPC (clientstream Client Stream)

客户端编写一系列消息并将其发送到服务器,同样使用提供的流。一旦客户端写完消息,它就等待服务器读取消息并返回响应gRPC再次保证了单个RPC调用中的消息排序在客户端流RPC模式中,客户端会发送多个请...

我的模型我做主02——训练自己的大模型:简易入门指南

模型训练往往需要较高的配置,为了满足友友们的好奇心,这里我们不要内存,不要gpu,用最简单的方式,让大家感受一下什么是模型训练。基于你的硬件配置,我们可以设计一个完全在CPU上运行的简易模型训练方案。...

开源项目MessageNest打造个性化消息推送平台多种通知方式

今天介绍一个开源项目,MessageNest-可以打造个性化消息推送平台,整合邮件、钉钉、企业微信等多种通知方式。定制你的消息,让通知方式更灵活多样。开源地址:https://github.c...

使用投机规则API加快页面加载速度

当今的网络用户要求快速导航,从一个页面移动到另一个页面时应尽量减少延迟。投机规则应用程序接口(SpeculationRulesAPI)的出现改变了网络应用程序接口(WebAPI)领域的游戏规则。...

JSONP安全攻防技术

关于JSONPJSONP全称是JSONwithPadding,是基于JSON格式的为解决跨域请求资源而产生的解决方案。它的基本原理是利用HTML的元素标签,远程调用JSON文件来实现数据传递。如果...

大数据Doris(六):编译 Doris遇到的问题

编译Doris遇到的问题一、js_generator.cc:(.text+0xfc3c):undefinedreferenceto`well_known_types_js’查找Doris...

网页内嵌PDF获取的办法

最近女王大人为了通过某认证考试,交了2000RMB,官方居然没有给线下教材资料,直接给的是在线教材,教材是PDF的但是是内嵌在网页内,可惜却没有给具体的PDF地址,无法下载,看到女王大人一点点的截图保...

印度女孩被邻居家客人性骚扰,父亲上门警告,反被围殴致死

微信的规则进行了调整希望大家看完故事多点“在看”,喜欢的话也点个分享和赞这样事儿君的推送才能继续出现在你的订阅列表里才能继续跟大家分享每个开怀大笑或拍案惊奇的好故事啦~话说只要稍微关注新闻的人,应该...

下周重要财经数据日程一览 (1229-0103)

下周焦点全球制造业PMI美国消费者信心指数美国首申失业救济人数值得注意的是,下周一希腊还将举行第三轮总统选举需要谷歌日历同步及部分智能手机(安卓,iPhone)同步日历功能的朋友请点击此链接,数据公布...

PyTorch 深度学习实战(38):注意力机制全面解析

在上一篇文章中,我们探讨了分布式训练实战。本文将深入解析注意力机制的完整发展历程,从最初的Seq2Seq模型到革命性的Transformer架构。我们将使用PyTorch实现2个关键阶段的注意力机制变...

聊聊Spring AI的EmbeddingModel

序本文主要研究一下SpringAI的EmbeddingModelEmbeddingModelspring-ai-core/src/main/java/org/springframework/ai/e...

前端分享-少年了解过iframe么

iframe就像是HTML的「内嵌画布」,允许在页面中加载独立网页,如同在画布上叠加另一幅动态画卷。核心特性包括:独立上下文:每个iframe都拥有独立的DOM/CSS/JS环境(类似浏...