作为数据科学家，你会如何搞定这五大挑战？

发布时间：2021-05-15 06:31:25 所属栏目：大数据来源：互联网

导读：只要有一个工作人员出错，你就会面临这个挑战。数据科学专家的主要工作之一就是做业务问题描述这也就是起初使用数据科学的原因。实际上，多数情况下描述不是某

只要有一个工作人员出错，你就会面临这个挑战。数据科学专家的主要工作之一就是做业务问题描述——这也就是起初使用数据科学的原因。

实际上，多数情况下描述不是某个数据科学专家自己，而是整个团队。团队里通常包括利益相关者，比如产品经理。但是，团队内可能出现技术脱节，任一方都可能对业务问题描述不当。

产品经理可能会说：“我们要提更多建议，大家才能买的更多”，而数据科学专家可能会说：“向大家推荐产品的时候，超过80%的情况下我们要有95%的把握。”

这两种问题描述总体来讲都很好，但都不够细化，或者只是勾勒出了问题的轮廓。问题描述是要从中找出解决方案，但是本身并不是解决方案。

以下是一个更好的业务问题描述问题的例子：“顾客平均每个订单只买一件东西”。

就是这么简单。一开始双方都想方设法将描述复杂化，但现在这样更高效。虽然没有解决方案，但人人都能看懂这种直接、通俗易懂的描述。

示例描述说明一件东西不够，那么解决方案可能就是如何让顾客更可能买一件以上的东西。一种数据科学解决方案就是使用机器学习推荐系统。在工作中不要好高骛远，而要专注于眼下的实际问题，这很重要。

数据失衡

任何真正与数据打交道的人大多都会遇到数据失衡的问题。比如，遇到分类问题时使用逻辑回归给新数据赋值0或1。目标变量预计0和1各占50%的可能。然而，结果完全出乎预料。

如果试着将一种新动物归类为狗或者猫，就需要猫狗各1000列的训练数据。这样，模型才足够辨别二者的不同之处。如果训练数据中猫有1900只，狗只有100只，那么就可能产生误解，认为多数新动物都是猫，这是个很常见的问题。

可能的解决方案是使用其他补强少数部分的机器学习算法，或者创建新的综合数据。有一种技术叫不均衡学习(imbalanced-learn)，可以采用下列具体方法进行过采样：

ADASYN算法(Adaptive Synthetic，自适应综合过采样)

BorderlineSMOTE算法

KMeansSMOTE算法

RandomOverSampler算法

SMOTNC算法

SVMSMOTE算法(Nominal andContinuous)

（编辑：焦作站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

识别实体与值对象的关	折叠屏技术全面提升三
了解大数据风控平台的	大数据时代的智能分析