加入收藏 | 设为首页 | 会员中心 | 我要投稿 焦作站长网 (https://www.0391zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

搞定极大复杂数据的三类实际建议

发布时间:2021-06-09 21:15:57 所属栏目:大数据 来源:互联网
导读:许多年来,我一直领导谷歌搜索日志的数据科学团队。经常需要我们对一些乱七八糟的结果来赋予意义,对日志记录的操作来挖掘新现象,验证别人的分析,以及用于解释

许多年来,我一直领导谷歌搜索日志的数据科学团队。经常需要我们对一些乱七八糟的结果来赋予意义,对日志记录的操作来挖掘新现象,验证别人的分析,以及用于解释用户行为的度量指标。有些人似乎天生就擅长做这种高质量的数据分析。这些工程师和分析师常常被描述为“谨慎”、“有技术”。但实际上这些形容词是什么意思?您怎么做才能赢得这些标志?

 

为了回答这些问题,我将Google公司的经验整理进一篇文档,并得意地将他简单命名为“好的数据分析”。令我惊奇的是,这篇文档比我在谷歌过去十一年做的其他任何文档的阅读量都高。在上次大改版之后的四年时间里,每次检查的时候,我甚至发现有许多Goolge员工翻看它。

 

为什么经过这段时间,这个文档使那么多人产生共鸣?我认为最主要的原因是全文都是关于具体的可以实施的方案,不只是抽象的理想。我见过许多工程师和分析师养成了这些(文中涉及的)习惯,并进行高质量的工作。我将在这个博客中分享那篇文档的内容。

 

建议总结起来,分为三大类:

 

技术:如何操作和检测数据的思想和技术。 过程:一些建议,关于怎样处理您的数据,应提出怎样的问题,还有一些需要检查的事情。 沟通:如何与他人合作及交流,关于您的数据和见解。

 

技术

 

看看你的数据分布

 

虽然我们一般会使用总体度量(均值、中值、标准差,等等)和人交流数据分布,但是您应该常常关注分布的更丰富的表示形式。直方图、累积分布函数(CDFs)、Q-Q图,诸如此类给予您了解是否存在重要有趣的数据特征,如多模态行为或是一个明显的异常类,您需要决定如何总结它们。

 

考量异常值

 

您应当关注您数据中的异常值。它们会成为煤堆中的金丝雀,是您的分析所暴露的更基本的问题。从您的数据中将他们排除,或把它们放在一起形成一个“异常”类别,这样做可以,但您应该确保您知道为什么一些数据最后被放在这一类。例如,点击率(CTR)最低的查询,可能显示了在用户界面中有一些点击元素是您无法统计的。点击率最高的查询,可能又会反映了您不应统计的点击。另一方面,一些异常值是您永远无法解释的,所以这里投入多少时间您需要特别留意。

 

报告噪音或者置信度

 

首要的是,我们必须意识到存在随机性,这很坑。如果您不小心,您发现的模式就混着噪声。每个您生成的估计量,您应当附上估计的置信度。有时这可以相当正式和精确(采取一些测量方法,如估计量的置信区间或可信区间,以及结论的p值或贝叶斯因子),有时也没那么严格。例如,假如一个同事问您,多少查询关于周一我们获得的青蛙数量,您可能会做一个快速分析,看了两个星期一就报告“通常介于1000万到1200万”(而不是真实数字)。

(编辑:焦作站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读