查字典论文网 >> Web内容挖掘算法模拟器设计

Web内容挖掘算法模拟器设计

小编:

摘要:各种数据源的大量出现,数据的分析算法的研究已成为Web挖掘一个热点研究课题。本论文提针对Web内容挖掘,采用回归算法、趋势分析方法、cure算法及分类,利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,从不同的角度来观看数据,从而得到不同的结果。

关键词: Web内容挖掘 算法模拟器 可视化

1 Matlab与VC++接口技术

挖掘技术中广泛使用MATLAB对挖掘信号进行数字滤波处理,将MATLAB和可视化的编程语言VC++结合起来可实现二者的混合软件开发[3],从而实现自动化的挖掘。

而MATLAB与VC++结合方式有:MATLAB引擎方式、MATLAB编译器(MCC)、COM组件。

本文采用基于MCC和COM组件的MATLAB与VC++接口编程方法,以VC++作为主界面,通过调用MATLAB下的MCC命令,实现Web内容挖掘自动化、可视化。

2 WEB内容挖掘算法的实现

WEB内容中数据表现形式不规则,不易进行挖掘。针对海量数据的研究,本文采用多种挖掘算法进行比较分析[4],利用利用MATLAB和VC++设计了一个Web内容挖掘算法模拟器,得出数据间的关系,抽取深层、潜在的有用信息。

2.1回归算法

回归算法是用两个或多个变量之间的函数关系。

一元线性回归对数据的平滑作用,可用于处理异常值。

从数据的散点图、线性回归、二次回归、对比分析可以推测,数据之间大致具有线性相关关系

2.2趋势分析

利用趋势分析的方法进行Web内容挖掘过程中,这种趋势分析分为样本数据采集、直接预测算法、移动平均平滑算法、趋势预测四个过程。

2.3 CURE算法

CURE聚类算法的一个目的就是较好地处理特殊点。

聚类过程:随机抽取的数据样本,对样本对象进行分割,形成三个簇,每一个簇有两个代表性点,具体的聚类过程结果如图1。

2.4分类

分类视为一个从数据库到类别集合的映射。

给定一个由形如t=的一些元组组成的数据库,其中0≤x≤8, 0≤y≤10。

CURE的时间复杂性是O(n2lgn),空间复杂度是O(n)。

图2通过分割数据空间而得到预先定义的类,提供了样本输入数据,展示了基于已定义的类对Web数据进行分类。

3结语

基于以上算法对比分析,可对Web页面内容进行分类,挖掘出用户的访问行为,既可满足访问者对信息的渴求,又可向经营者提供站点的改进意见。而将Web挖掘技术与信息检索的智能搜索引擎搜索技术相结合,向用户提供个性化智能化的服务,是互联网+的一个重要研究方向。

参考文献

[4]岳岩,郑丽英.Web挖掘技术研究[J].科技咨询导报,2007

(3):34-34.

热点推荐

上一篇:嵌入式计算机技术及其应用研究

下一篇:如何对幼儿进行德育教育论文 幼儿园关于德育教育之类的论文

2023年消费者投诉举报工作总结(汇总9篇) 最新进修胃镜护士个人总结(五篇)