设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 325|回复: 2

关键词提取的应用场景介绍

[复制链接]
发表于 2019-9-24 17:20:00 | 显示全部楼层 |阅读模式
对文章中的有效关键词进行分析,是内容推荐算法的核心。这种推荐主要是针对在文本中出现频率较高的词。但是在每篇文章中,往往出现次数最多是“的”“是”“在”等等,这些词称为“停用词”,表示对结果毫无用处,必须过滤掉的词。另外,在其他有实际意义的词中,又会遇到一些问题。比如:在《中国蜜蜂养殖》这篇文章中,“中国”“蜜蜂”“养殖”三个词出现的次数一样多,但很显然,我们更想要的标签是后面两个词。
对关键词提取能够帮助我们对文章中的有用信息进行提取。
关于文本的关键词提取方法
1. 有监督的关键词抽取算法
它是建关键词抽取算法看作是二分类问题,判断文档中的词或者短语是或者不是关键词。既然是分类问题,就需要提供已经标注好的训练预料,利用训练语料训练关键词提取模型,根据模型对需要抽取关键词的文档进行关键词抽取
2. 半监督的关键词提取算法
只需要少量的训练数据,利用这些训练数据构建关键词抽取模型,然后使用模型对新的文本进行关键词提取,对于这些关键词进行人工过滤,将过滤得到的关键词加入训练集,重新训练模型。
3. 无监督的方法
不需要人工标注的语料,利用某些方法发现文本中比较重要的词作为关键词,进行关键词抽取。有监督的文本关键词提取算法需要高昂的人工成本,因此现有的文本关键词提取主要采用适用性较强的无监督关键词抽取。
关键词提取的应用场景
1)各大内容分发平台——基于内容推荐算法
通过对文章的关键词计算再结合用户行为特征两者之间就能进行匹配和推荐,进而实现精准内容推荐。
2)话题聚合
根据文章计算的关键词权重,聚合相同标签的文章,便于用户对同一话题的文章进行全方位的信息阅读。
对目标关键词的提取能够让我们完成有限定的提取目标,在对有效关键词分析的基础上完成内容推荐,实现数据价值最大化。

回复

使用道具 举报

发表于 2019-9-24 17:20:00 | 显示全部楼层
灵玖软件,大数据搜索与挖掘技术服务商 灵玖软件专注于大数据搜索与挖掘的技术创新与服务,提供大数据搜索、大数据挖掘与大数据应用解决方案,以应对大数据的管理、处理、分析并从大数据中获知识与智慧。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-11-19 08:25 , Processed in 0.305791 second(s), 29 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表