大数据:阻止诈骗进入你的life
要处理的数据不算太多时,你必须要在统计学和分析学之间做出选择。幸运的是,如果你有大量数据,那么你将有一个绝妙的机会来利用自己的分析和统计信息,而不会上当受骗。你还可以通过一个完美的计策来让自己免受骗子侵害,这叫做“数据拆分”,笔者认为这是数据科学中最强大的思想。 为保护自己免受骗子侵害,你要做的就是确保某些测试数据处于他们可窥探到的范围之外,然后将其他所有内容看作分析学(不要当真)。当你面对某种你可能会全盘接受的理论时,可以用它来替你做主,然后打开你的秘密测试数据,看看这个理论是不是一派胡言。 从人们习惯的时代到“小数据”时代,这是一个巨大的文化转变,你必须解释自己是如何知道自己所知道的东西,才能以一种轻松的方式-说服人们,你可能确实知道一些东西。 同样的道理也适用于机器学习/人工智能 一些伪装成机器学习/人工智能专家的骗子很容易被识破。你可以通过识破蹩脚工程师的方法来识破他们:他们反复尝试构建的“解决方案”无法交付。(较早的预警信号是他们缺乏行业标准编程语言和库的经验。) 但是那些构建出看上去可以正常运行的系统的人呢?你怎么知道事情是否有可疑之处?同样的道理也适用于此!骗子是阴险的,他会向你展示他们的模型有多好,用的是他们制作模型时使用的数据。如果你构建了一个极其复杂的机器学习系统,你怎么知道它能不能正常运行呢?你没法知道,除非你能证明它可以处理以前从未见过的新数据。 有足够的数据可以分割时,无需改变工整的公式即可证明项目的合理性(这仍然是一种老习惯,在任何地方都可以看到,不仅仅是在科学领域)。 (编辑:焦作站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |