设为首页收藏本站

大数据论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 382|回复: 2

文本挖掘中,文档的收集和标准化过程

[复制链接]
发表于 2019-9-28 16:33:54 | 显示全部楼层 |阅读模式
文本分析中的数据标准化过程,即提取文本数据中的结构化数据,这些数据主要是文档中重要信息的元数据。
由于数据的来源和收集的方法不同,所以在上传之前,我们有时需要使用格式转换器,来处置好目标文档的格式。下面是一些具体的数据收集与准备任务:
通过对源文档的扫描,来收集数据
在这种情况下,系统使用光学字符识别引擎(如:Tesseract之类的OCR工具),将文本分成多个部分与段落。不过,光学识别的一个常见问题是:它经常会碰到格式较为复杂的文本(如各种列或表格),这些元素都会影响系统的最终转换,以及合并出有意义的文档。此外,有时为了同时扫描多个文档,系统需要使用特定的属性标记,标注出给定文档的开头和结尾。
通过PDF或DJVU文档的方式收集数据
这些文档的格式,虽然比较适合用来查看那些格式化好的文档,但是不适合被应用来存储结构化的数据。PDF与DJVU文件虽然能够存储符号和单词的位置,以便于显示和用户的阅读,但这些文件并没有任何的语句边界标记。因此,和上述文档扫描方式类似,此类具有复杂格式、表格和图像的PDF与DJVU文件,也会给文本的挖掘带来不同程度的挑战。
Web源收集数据
并非所有包含数据源的网站或系统都有便捷的API,有时它们可能只是一个方便操作的用户界面而已。在这种情况下,系统需要用到Web爬虫,即:通过分析网站来收集数据。因此,除了常用的HTML代码分析,系统还可能需要使用计算机视觉(computer vision)来解决此类特殊问题。
用户手动上传数据
有时候,用户已经有能力在本地自动化地处理一定数量的文档了。那么,系统为了支持用户上传大量具有丰富格式的文档,就必须将某些元数据添加到上载的文档之中。诸如发布日期、作者、源、以及文档类型之类的元数据,将有助于后期的文本挖掘操作,包括:针对特定主题,查找特定作者的作品等操作。
在面对大量的数据信息时候,我们真正需要的数据可能只是其中的一小部分,这也就需要我们对数据实行标准化。
回复

使用道具 举报

发表于 2019-9-28 16:33:57 | 显示全部楼层
元芳你怎么看?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|大数据论坛 ( 京ICP备10002193号-4 京公海网安备110108001289号  

GMT+8, 2019-11-19 08:28 , Processed in 0.279252 second(s), 29 queries , Gzip On.

Powered by Discuz! X3.1

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表