你以为大数据的「大」,仅仅是指数据量吗?_.NET_编程开发_程序员俱乐部

中国优秀的程序员网站程序员频道CXYCLUB技术地图
热搜:
更多>>
 
您所在的位置: 程序员俱乐部 > 编程开发 > .NET > 你以为大数据的「大」,仅仅是指数据量吗?

你以为大数据的「大」,仅仅是指数据量吗?

 2017/8/14 16:31:27  DavidZang  程序员俱乐部  我要评论(0)
  • 摘要:知识点ZB是多少?Zettabyte(泽字节)这个概念对普通人来说可能有些陌生,我们可以这样换算:1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB.....So,如何应对这个问题?嗯,又是一个「大」工程,不过也挺简单,多生产点大容量硬盘,把所有这些数据都存储进去,大数据其实也挺简单嘛。对此,只能说:首先必须明确一点:我们为什么要斥巨资买那么多大硬盘,存储那么多数据?难道仅仅是为了满足老板的「数据囤积癖好」?并不能!重点在于,存那么多数据
  • 标签: 数据

知识点

 

ZB是多少?

Zettabyte(泽字节)这个概念对普通人来说可能有些陌生,我们可以这样换算:1ZB=1000EB,1EB=1000PB,1PB=1000TB,1TB=1000GB.....

 

So,如何应对这个问题?嗯,又是一个「大」工程,不过也挺简单,多生产点大容量硬盘,把所有这些数据都存储进去,大数据其实也挺简单嘛。对此,只能说:

首先必须明确一点:我们为什么要斥巨资买那么多大硬盘,存储那么多数据?难道仅仅是为了满足老板的「数据囤积癖好」?并不能!重点在于,存那么多数据,还是为了能从中有所收获的

例如,母婴用品公司的销售额,与新生儿数量有直接关系,这谁都知道,但这是否与不同地区的经济发展趋势以及相关政策的变化有关?

市政府想要改善交通状况,可人员最密集的热点地区,人们都是从哪里来的,来这里做什么,如何进行合理规划实现分流?

科学家使用大型强子对撞机之类的设备每秒钟就会产生上亿次对撞,如何从中找出一两个可能是自己需要的结果?

答案很简单:需要对各种数据进行分析!So,新的问题来了:数据分析处理问题该如何解决?继续依赖现有数据库技术?别忘了,传统的关系型数据库技术只擅长处理结构化数据,而目前企业里 85% 的数据都是非结构化的。

 

知识点

 

结构化和非结构化数据,分别是什么?

结构化数据:可以用二维逻辑的形式来呈现的行数据,如 Excel 表格或 SQL 数据库中的数据。

非结构化数据:无法用二维逻辑的形式呈现的数据,如 Word 文档、图片、音频、视频。

 

解释到这儿,其实小编想说的是:我们需要一套有效、有用的「大数据」解决方案,对于这种解决方案来说,装下足够多的数据只是第一步,在此基础上,还要能用简单快捷的操作及时分析海量数据在足够短的时间内得出我们想要的结果!也就是说,这样的解决方案必须能同时满足下面的需求:

可以同时处理结构化、非结构化、甚至半结构化,各种类型和来源的各类数据;

可以高效率地容纳并妥善存储极为大量的数据;

必须具备极高的扩展性和可靠性,以便应对不知道什么时候会面临的数据「大爆炸」;

必须能用各种技术对这些数据进行各种复杂的分析,进而给用户提供所需的见解

进行上述分析时速度必须足够快速,提出问题,等一年才能给出答案的解决方案是不行的;

必须简单易用,不仅具备专业技能的数据科学家,最好是普通用户也能无障碍使用;

当然,好用、实用、易用、有用的同时,越便宜越好咯。

亲,要求辣么多?有点强人所难了吧!

 

你可以试试这个现成的解决方案

北京红象云腾(Redoop)系统技术有限公司是一家创立于 2013 年的 Hadoop 大数据解决方案提供商,致力于工业大数据和基于数据处理的机器学习解决方案的开发。

通过与微软的合作,红象云腾利用基于 Azure 云平台和 Hadoop 技术,推出了红象大数据快速部署平台(CRH)平台,并通过 Azure Marketplace 进行发布,将大数据平台推向大众。CHR 平台是为公有云集成的一套完整的大数据开发平台,产品完整涵括了集群管理和调度、企业cangku.html" target="_blank">数据仓库、数据集市、实时计算、数据挖掘和数据查询等领域,可以帮助用户在云平台上快速便捷的构建大数据应用,快速探索和发现数据的价值。

Azure+Redoop

是如何应对上文那些挑战的?

大数据解决方案面临的一系列挑战,Redoop 通过基于 Azure 构建的大数据解决方案是如何解决的?

→高度集成的 Hadoop 平台:一个整体的云端数据存储和计算平台。大量 Hadoop 生态工具在 Azure 的无缝集成使不同业务可以集中在一个平台内完成,利用 Azure 提供的 Resource Manager 提供统一的资源调度,智能分配集群中 CPU、内存等,充分利用计算资源。

→计算能力自动缩放:基于集群 CPU 使用量需求情况,通过和 Azure 提供的界面自动启动新节点,通过 CRH 提供的 Rest API 启动计算节点服务。在资源闲置情况下自动伸缩,节省成本。

→多数据分析平台:通过不同的计算框架实现业务运营最优化。例如:针对批处理的 MapReduce 计算框架、针对交互式查询的 SparkSQL 内存查询引擎、针对内存以及流计算的 Spark/Storm 框架、针对机器学习、数据挖掘等业务的训练测试模型等。这些框架都通过 Azure 底层对大数据平台良好的支持性实现。

→增强的数据安全及审核技术:在微软 Azure 高度安全且具备多项合规性认证的云端环境中,利用 Kerberos 提供统一的认证、授权等技术,充分保证大数据平台的安全。

→高度可管理性:结合 Azure 平台所提供的高可用性、高容错等特性,结合自动化数据备份,进一步提升了 CRH 的自愈性。端到端的图形化管理工具提供直观的管理、诊断、监控、集成等功能,保证企业的大数据平台可靠运行。支持通过图形化的管理工具实现大数据平台的部署和管理,配合主动诊断及支持服务,一目了然的图形化面板,确保系统稳定运行。

 

强大如此的大数据解决方案

也能这样平易近人

 

基于 Azure Hadoop、Azure Storage、IoT 技术构建的红象云腾 CRH 一键部署大数据平台解决方案,为企业客户和自身带来了众多收益:

    class="list-paddingleft-2">
  • 大数据应用一键部署,优化客户体验

解决大数据平台选型问题,帮助用户在 Azure 云平台上一键部署快速便捷的构建大数据应用,快速探索发现数据价值,同时让「高大上」的大数据变得越来越平易近人。

  • 用更短时间和更低成本满足客户需求

Azure 大幅降低了红象云腾的研发及客户采纳、部署成本,无需基础设施、大规模计算和存储硬件,以及网络投入,也无需考虑数据增长需求,缩短交互周期,提升交互效率,降低硬件成本和运维难度与成本。

  • 提升国内外客户的品牌认同,促进战略发展

随着红象云腾加入 ODPI Linux Foundation 等多个国际化技术组织和社区,其全球化大数据战略的发展目标逐渐显现,利用 Azure 这一开放灵活的公有云平台和微软在全球的良好声誉,为全球其他国家的客户提供数据后端处理和大数据分析解决方案,为国际化战略抢占先机。

 

借由 Azure 平台的技术支撑,红象云腾大数据快速部署平台已登录 Azure 镜像市场!只需简单点击鼠标,便可在自己的 Azure 订阅中迅速部署一套功能完备的大数据平台解决方案,用最低投入、最快速度上线大数据平台。

 

立即访问http://market.azure.cn

发表评论
用户名: 匿名