大数据：阻止诈骗进入你的life

发布时间：2021-05-16 12:48:22 所属栏目：大数据来源：互联网

导读：要处理的数据不算太多时，你必须要在统计学和分析学之间做出选择。幸运的是，如果你有大量数据，那么你将有一个绝妙的机会来利用自己的分析和统计信息，而不会上

要处理的数据不算太多时，你必须要在统计学和分析学之间做出选择。幸运的是，如果你有大量数据，那么你将有一个绝妙的机会来利用自己的分析和统计信息，而不会上当受骗。你还可以通过一个完美的计策来让自己免受骗子侵害，这叫做“数据拆分”，笔者认为这是数据科学中最强大的思想。

为保护自己免受骗子侵害，你要做的就是确保某些测试数据处于他们可窥探到的范围之外，然后将其他所有内容看作分析学(不要当真)。当你面对某种你可能会全盘接受的理论时，可以用它来替你做主，然后打开你的秘密测试数据，看看这个理论是不是一派胡言。

从人们习惯的时代到“小数据”时代，这是一个巨大的文化转变，你必须解释自己是如何知道自己所知道的东西，才能以一种轻松的方式-说服人们，你可能确实知道一些东西。

同样的道理也适用于机器学习/人工智能

一些伪装成机器学习/人工智能专家的骗子很容易被识破。你可以通过识破蹩脚工程师的方法来识破他们：他们反复尝试构建的“解决方案”无法交付。(较早的预警信号是他们缺乏行业标准编程语言和库的经验。)

但是那些构建出看上去可以正常运行的系统的人呢?你怎么知道事情是否有可疑之处?同样的道理也适用于此!骗子是阴险的，他会向你展示他们的模型有多好，用的是他们制作模型时使用的数据。如果你构建了一个极其复杂的机器学习系统，你怎么知道它能不能正常运行呢?你没法知道，除非你能证明它可以处理以前从未见过的新数据。

有足够的数据可以分割时，无需改变工整的公式即可证明项目的合理性(这仍然是一种老习惯，在任何地方都可以看到，不仅仅是在科学领域)。

（编辑：焦作站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

识别实体与值对象的关	折叠屏技术全面提升三
了解大数据风控平台的	大数据时代的智能分析