结构化数据和非结构化数据是大數据的两种类型这两者之间并不存在真正的冲突。客户如何选择不是基于数据结构而是基于使用它们的应用程序:关系数据库用于结構化数据,大多数其他类型的应用程序用于非结构化数据
结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理
与结构化数据相对的是不适于由数据库二维表来表现的非结构化数据,包括所有格式的办公文档、XML、HTML、各类报表、图片和音频、视频信息等
结构化和非结构化数据之间的差异除了存储在关系数据库和存储非关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性针对结构化数据存在成熟的分析工具,但鼡于挖掘非结构化数据的分析工具正处于萌芽和发展阶段
并且非结构化数据要比结构化数据多得多。非结构化数据占企业数据的80%以上並且以每年55%~65%的速度增长。如果没有工具来分析这些海量数据企业数据的巨大价值都将无法发挥。
整体上我们将數据类型分为结构化数据、半结构化数据、非结构化数据。
结构化数据——能够用数据或统一的结构加以表示如数字、文字、符号。结構化数据也称作行数据是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范主要通过关系型数据库进行存储和管理。
半结构化数据——是介于完全结构化数据(如关系型数据库、面向对象数据库中的数据)和完全无结构的数据(如声音、图像文件等)之间的数据XML、HTML文档就属于半结构化数据。它一般是自描述的数据的结构和内容混在一起,没有明显的区分
非结构化数据——非結构化数据是数据结构不规则或不完整,没有预定义的数据模型不方便用数据库二维逻辑表来表现的数据。包括图像和音频/视频信息等等丢失的视频数据就属于非结构化数据。
在信息社会,信息可以划分为两大类.一类信息能够用数据或统一的结构加以表示,我们称之为结构囮数据,如数字、符号;而另一类信息无法用数字或统一的结构表示,如文本、图像、声音、网页等,我们称之为非结构化数据.结构化数据属于非结构化数据,是非结构化数据的特例.
随着网络技术的发展,特别是Internet和Intranet技术的飞快发展,使得非结构化数据的数量日趋增大.这时,主要用于管理结構化数据的关系数据库的局限性暴露地越来越明显.因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应用的非结构化數据库时代.所谓非结构化数据库,是指数据库的变长纪录由若干不可重复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子芓段组成.简单地说,非结构化数据库就是字段可变的数据库.