- 文献综述(或调研报告):
3.1对于网页非结构化数据的爬取
计算机信息化系统中的数据分为结构化数据和非结构化数据。随着大数据的发展,数据内容的多样性带动了非结构化数据存储技术的发展。非结构化的数据可以分成几种不同的类型,比较常见的是多媒体或富媒体文件,如数字化影像、音频文件、视频文件。
3.1.1非结构数据
李纪伟选择非结构化数据库 MongoDB,介绍了其存储原理及其与结构化数据库的区别,讲述MongoDB的主要技术,含数据结构、主要操作、数据检索、安全,最后描述MongoDB的主要应用,包括与Java、Python连接,作为后台数据库配置服务器,并实现了对图片和视频的存储和爬虫的功能,后续将其应用到大数据应用和非结构化多媒体数据库中[1]。蔡宇翔把非结构化数据看成一个大集合。集合当中的每个元素则可以作为一个数据对象,数据对象无论从物理角度还是从逻辑考虑,必须是可以区分的独立实体。从数据本身考虑,数据也存在粒度问题。一个数据对象既可以数据较大数据对象的组成成分,也可以是其他多数据对象的组成的整体。为此,针对具体问题,必须对数据对象的粒度进行具体划分[2]。金志运专注于非结构化对象特征提取主要涉及图像的特征提取,图像的特征包括颜色、形状、纹理、空间关系等,其中颜色特征是图像检索中应用最为广泛的视觉特征,它具有计算简单,直观以及易于处理等特点[3]。
3.1.2图像数据的爬取
网络爬虫(Web Crawler)又称为网络蜘蛛(Web Spider)或Web信息采集器,是一个自动提取网页的程序,是搜索引擎的重要组成部分。王明军针对不同空间数据类型,对空间敏感爬虫处理的每个网页中,包含数据(图片)或隐含空间数据链接成千上万,同时提出了对空间数据的分类标签思想,完善了分类标签体系。借助元数据模型及数据应用相关的分类体系,提出了分类标签体系模型[4]。Hongyu Liu研究利用Markov隐藏的模型(去预测哪些链接具有更高的相关度,实现相对高效的爬取[5]。仇明提出Python 语言具备简单易学的特点,并且已经成为开发网络爬虫的热门语言。他尝试使用 Python 语言设计网络爬虫,实现对玉器网络图片的自动批量下载,为提高个性化数据的获取进行有意义的尝试[6]。王海玲等以 Scrapy 为框架编写网络爬虫程序,使程序可自动爬取猫眼网的指定信息[7]。樊涛等人针对一些动态网站中往往出现复杂的 JavaScript 加密算法反爬虫的安全措施,导致无法正常获取页面数据。通过 Python 操作Selenium 登录网页,模拟人工操作浏览器,绕过这些反爬虫障碍,从而去获取页面的信息,完成信息的正常获取,大大节省了分析代码的时间[8]。
3.2图像本体的构建与评价
Gruher最早提出:“本体是对共享概念模型明确的形式化规范说明”。而后等认为本体是共享概念模型的明确的形式化规范说明。这包含层含义概念模型、明确、形式化和共享。其在语义网、智能信息检索和数字图书馆等领域中广泛运用。根据本体对事物的划分,图像本体是一种领域本体,其任务是对图像空间信息中的专家概念进行一致地描述,建立概念之间的层次结构和相互关系,
3.2.1关于图像的本体构建
张小莉采用形式概念分析和 Word2vec 神经网络工具结合结构化和非结构化资源,利用结构化资源概念层次明确、非结构化资源语义丰富以及容易获取的特点,有效降低领域图像本体构建的复杂度,节省时间人力成本,能提高图像领域本体的构建效率,挖掘出隐含的概念以及概念间关系,丰富图像领域本体的语义信息,能较好地反映图像领域的知识结构[9] 。钟洪对像本体的描述进行了论述。在图像本体的描述中既考虑了低层特征也考虑了高层语义。图像本体中的语义可以通过图像语义标注获取。并且采用有向无环图表示图像本体,其中图中节点表示概念,用语义概念关键字、语义向量、低层特征表示节点之间的连线表示概念之间的关系[10]。孙玉娣等人提出了将本体概念引入综合评价体系中,通过建立评价体系的本体框架模型对领域内评语进行分析与获取,形成形式化的本体实例,同时结合模糊推理与决策逻辑对获取的评语进行分类汇总,最终自动生成领域内的综合评价文本[11]。郑姝雅等人实现了通过自动化本体构建将非结构化的用户生成内容组织成为语义丰富的本体。综合运用机器学习、自然语言处理等技术,从用户生成内容中抽取本体概念、同义关系及分类关系,形成领域本体,并且通过京东商城用户评论进行实证[12]。王向前等人通过对国内外本体自动构建和从文中构建本体两个方面的相关综述文献进行评述,得出面向文本的本体自动构建过程的核心内容:概念的自动提取和概念间关系的自动抽取。从概念及其间关系的自动提取两个方面进行相关技术介绍分析并进行总结[13]。
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。