面向互联网文本主题分析方法的软件平台设计与实现文献综述

 2023-10-31 11:05:39

文献综述

随着Internet迅猛发展,互联网拥有越来越庞大的用户群,且逐渐发展成为群众发布信息、获取信息和传递信息的主要载体。互联网环境中文言语信息爆炸性地增长,使互联网言语信息的挖掘遇到新的问题。网络上确定文本主题的算法多种多样,有LDA,PLSA等模型、非负矩阵分解模型的算法,AP算法、MAC算法等。

近邻传播算法(AP)是近年出现的一种在数据挖掘领域极具优势的聚类算法,相比较于其它聚类算法,AP算法能够很快完成多类别大规模数据集的聚类。相比较于其它传统的聚类算法,近邻传播算法将每个数据点都作为候选的类代表点,避免了聚类结果受初始类代表点的选择影响,同时近邻传播算法对于数据集生成的相似度矩阵的对称性没有要求,并在处理多类大规模数据时运算速度较快。

任务聚类(MAC)算法,用于聚类可以同时属于多个聚类的布尔矢量数据。在生成模型中,每个数据向量的每个组成部分都是从信号分布(由数据项所属的集群给出)或从独立的全局噪声分布中提取的。

对初学者来说,他们很难使用这些算法,也很难分辨出哪种算法的分析结果最好。由于网络上的这些算法是基于代码的,没有良好的可视化界面,初学者使用起来比较困难,因此设计一个可视化界面供他们尤为重要。

为了让初学者能更好地使用这些算法,本文针对这些算法设计了一个可视化平台。这个平台是由MATLABGUI 编写的,主要是对由AP算法,MAC算法计算得到的聚类结果与原始数据的聚类情况进行比较,并用标准化互信息NMI计算数据集的相似程度。相似程度越高表明算法的社团发现能力强。这便于初学者了解两个算法的社团发现能力,为他们挑选更合适的算法做基础。

[1]魏彦婧. 基于AP算法的文本聚类研究与实现[D]. 2014.

[2]白翔, 毛玉明,冷甦鹏, et al. QoS区分的自适应p-Persistent MAC算法对信道利用率的动态优化[J]. 软件学报, 2009, 20(3).

[3]周天一. 非负矩阵分解算法可靠性分析[D]. 2016.

[4]赵学华, 杨博, 陈贺昌.一种高效的随机块模型学习算法[J].软件学报, 2016, 27(9):2248-2264.

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

以上是文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。