大数据如何获得?如何统计分析?
首发

大数据如何获得?如何统计分析?

优质
请用语音读文章

热门回答:

从数据源角度。可以将大数据统计工具分两类:有数据源和无数据源。

有数据源

解释:依靠海量网络数据为数据源。整理呈现分析最终展现出来给你看的统计工具。

此类工具包括:

百度指数:以百度海量网民行为数据为基础的数据分享平台:

5118:可掌控一些大网站运营所需的关键数据(如今日头条)

阿里指数:电商必备的行业价格、供应、采购趋势分析工具

其他还包括微信指数/搜狗指数/360指数/微指数……

无数据源

解释:工具本身是不带数据源的。需要企业根据需要去导入数据。

此类工具包括:

fineBI:新一代自助大数据分析的BI工具。所见所得的自助式数据分析

Tableau:将数据运算与美观的图表嫁接在一起。

其他还包括魔镜/RapidMiner……

以上答案由数据化管理云平台【简道云 】整理提供

其他观点:

“大数据的运用。汽车私人定制服务已经不远。”

这里仅从笔者比较熟悉的汽车行业举一个例子。分享一下车联网大数据在汽车产业运用的一个例子。抛砖引玉。

背景

2017年我国汽车保有量已经达到2.05亿辆。而且预计在未来的销量还会增加。到2020年达到3000万辆。

汽车的最终目的是为人们提供移动出行的解决方案。对于未来汽车的发展趋势。业界基本上有一个共识。未来的汽车会朝着“电动化。网联化。智能化。共享化”四个方向发展。

以用户为中心的生态链

基于汽车网联化的发展。形成了以用户为中心的生态链。如下图:

围绕在车主周围。有不同层级的参与者。传统的主机厂。汽车制造商。硬件供应商。4S店。只是其中很一小部分。还有各种服务商。提供商。开发商。保险公司。传媒。甚至教育机构。也扮演着重要的角色。

车联网能够将这些参与者全部连接起来。靠什么?

大数据

汽车产业数据。驾驶行为数据。汽车感知数据。外部环境数据。还有最重要的人的社会数据。都储存在“庞大的汽车保有量”这个数据库中。

围绕着车联网。以上的数据不断地更新。不断地累积。形成了庞大的数据库。可被收集。并进行分析和处理。

运用举例-私人定制服务

通过数据处理。得到基于用户里程的分布。轨迹。行驶速度。超速违规事件一系列统计:

由此。构建出一个精准的用户画像。做什么。爱好是什么。习惯什么等等。

那么。针对于该用户。各种服务商就可以提供私人的“定制服务”。比如安全指导。保费个性化。出行效率提升等等。

据估计。车联网的市场规模从目前年250亿。到2020年能够达到4000亿元。又是一个巨大的蛋糕。

版权声明:本文为“汽车人参考”原创。如需转载。请务必提前联系。转载时请注明“本文出处于+媒体平台名称+汽车人参考”以及原文链接。侵权必究。

技术·原创·精致·有趣

汽车圈儿的清流

希望以上回答对您有所帮助。欢迎关注“汽车人参考”。获取更过精彩原创文章

其他观点:

主要讨论大数据的分析

从所周知。大数据已经不简简单单是数据大的事实了。而最重要的现实是对大数据进行分析。只有通过分析才能获取很多智能的。深入的。有价值的信息。那么越来越多的应用涉及到大数据。而这些大数据的属性。包括数量。速度。多样性等等都是呈现了大数据不断增长的复杂性。所以大数据的分析方法在大数据领域就显得尤为重要。可以说是决定最终信息是否有价值的决定性因素。基于如此的认识。大数据分析普遍存在的方法理论有哪些呢?

1. 可视化分析。大数据分析的使用者有大数据分析专家。同时还有普通用户。但是他们二者对于大数据分析最基本的要求就是可视化分析。因为可视化分析能够直观的呈现大数据特点。同时能够非常容易被读者所接受。就如同看图说话一样简单明了。

2. 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法。各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点。也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部。挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据。如果一个算法得花上好几年才能得出结论。那大数据的价值也就无从说起了。

3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析。从大数据中挖掘出特点。通过科学的建立模型。之后便可以通过模型带入新的数据。从而预测未来的数据。

4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战。我们需要一套工具系统的去分析。提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

5.数据质量和数据管理。大数据分析离不开数据质量和数据管理。高质量的数据和有效的数据管理。无论是在学术研究还是在商业应用领域。都能够保证分析结果的真实和有价值。

大数据分析的基础就是以上五个方面。当然更加深入大数据分析的话。还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术

数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成。最后加载到数据仓库或数据集市中。成为联机分析处理、数据挖掘的基础。

数据存取:关系数据库、NOSQL、SQL等。

基础架构:云存储、分布式文件存储等。

数据处理:自然语言处理(NLP。Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言。所以自然语言处理又叫做自然语言理解(NLU。Natural Language Understanding)。也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支。另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像。视频。音频等)

模型预测:预测模型、机器学习、建模仿真。

结果呈现:云计算、标签云、关系图等。

大数据的处理

1. 大数据处理之一:采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据。并且用户可以通过这些数据库来进行简单的查询和处理工作。比如。电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据。除此之外。Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中。其主要特点和挑战是并发数高。因为同时有可能会有成千上万的用户来进行访问和操作。比如火车票售票网站和淘宝。它们并发的访问量在峰值时达到上百万。所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2. 大数据处理之二:导入/预处理

虽然采集端本身会有很多数据库。但是如果要对这些海量数据进行有效的分析。还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库。或者分布式存储集群。并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算。来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大。每秒钟的导入量经常会达到百兆。甚至千兆级别。

3. 大数据处理之三:统计/分析

统计与分析主要利用分布式数据库。或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等。以满足大多数常见的分析需求。在这方面。一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata。以及基于MySQL的列式存储Infobright等。而一些批处理。或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大。其对系统资源。特别是I/O会有极大的占用。

4. 大数据处理之四:挖掘

与前面统计和分析过程不同的是。数据挖掘一般没有什么预先设定好的主题。主要是在现有数据上面进行基于各种算法的计算。从而起到预测(Predict)的效果。从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes。主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂。并且计算涉及的数据量和计算量都很大。常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤。才能算得上是一个比较完整的大数据处理。

以上就是由优质生活领域创作者 生活常识网 整理编辑的,如果觉得有帮助欢迎收藏转发~

分享到 :
相关推荐

美国目前每天新冠确诊7万+而且越来越重!为啥不把美国列为疫区?

请用语音读文章热门回答:美国目前每天新冠确诊7万+而且越来越重。但不能美国列为疫[&...

世界有哪些名贵的手表?

请用语音读文章热门回答:有二款最贵的:天霸表为飞行员而订制。海霸表为海军而订制。[&...

你认为郭富城、郑伊健、黎明相比,颜值巅峰时期谁更帅一些?为什么?

请用语音读文章热门回答:帥的排名黎。郭。鄭酷的排名郭。黎。鄭魅力排名郭。黎。[&he...

在07年的选秀大会上,奥登凭什么能够力压杜兰特成为状元秀?

请用语音读文章热门回答:07年的选秀大会之所以奥登能够力压杜兰特成为状元。我想主[&...

发表评论

您的电子邮箱地址不会被公开。

评论(2)

  • 亦久亦旧 永久VIP 2022年10月1日 01:26:18

    数据,大数,数据源,数据处理,据分析,算法,数据库,汽车,工具,自然语言

  • 入了迷 永久VIP 2022年10月1日 01:26:18

    没想到大家都对大数据如何获得?如何统计分析?感兴趣,不过这这篇解答确实也是太好了

  • 眼泪、说拜拜 永久VIP 2022年10月1日 01:26:18

    从数据源角度。可以将大数据统计工具分两类:有数据源和无数据源。有数据源解释:依靠海量网络数据为数据源。整理呈现分析最