文档下载
网盘链接: https://pan.baidu.com/s/1fhOstYCVJpmmj-8JEdzByQ
提取码: eog1
部分内容展示
摘要:随着网络技术的飞速发展,互联网信息资源增长迅猛,对海量数据的分类提出了进一步的要求。文本分类作为文本挖掘最重要的研究方向,在现实生活中有着广泛的应用。多标签分类与单标签分类不同,每一个样本可能同时包含多个标签,且不同标签之间是可能存在相互重叠的。多标签分类在文本分类、情景分类、以及基因功能分类等实际问题中有广泛的应用。针对目前多示例多标记支持向量机中的信息丢失问题,即标记与示例间的联系信息和标记之间联系信息,对多示例多标记支持向量机算法进行改进,提出了基于双标签支持向量机的多标签ML-LSTSVM分类改进算法。本文首先对相关概念进行介绍,对多标签分类算法进行概述,然后提出改进的ML-LSTSVM多标签分类算法,最后通过实验证明改进的算法在准确率和其他几种评价指标上优于目前存在的多标签分类算法,提高了处理过程中的计算效率。
关键词:双标签;一对多;多标签分类;支持向量机;分类算法;
更多范文
1、前言
随着互联网的快速发展,文本信息的数据量剧增,文本信息的提取效率较低,如何有效地组织和管理这些信息资源,并快速、准确地获取用户关注的信息越来越重要。通过分类器进行文本分类可以有效的提高文本信息的获取效率,在需求和质量不断提高的今天,文本分类在多标签分类、关联分析、运行效率等多方面都仍然有很大的发展空间。文本分类技术作为过滤、处理和组织大量文本数据的有效手段,可以帮助用户准确地定位所需的资源。当前主流的分类技术有决策树、朴素贝叶斯、K近邻、神经网络、罗杰斯特回归、支持向量机等,这些有监督学习算法,其目的是在假设空间中搜索一个泛化能力较强的分类器。随着人们对于分类精度和分类要求的提高,单标签分类已经无法满足精准的分类,往往单个文本信息拥有多个分类的类别。