-
官方调研重磅发布,Pandas或将重构?
所属栏目:[教程] 日期:2019-10-25 热度:95
为指引 Pandas 未来开发方向,Pandas 官方团队于 2019 年夏搞了一次调研,这次调研历时 15 天,共有 1250 条反馈数据。问卷数据保存在 data 文件夹的 2019.csv.zip 文件里。 这里又学一招,原来 pandas 可以直接从压缩文件里读取数据文件,原文用的是 .gz[详细]
-
51信用卡被查引发“爬虫技术”争议 是否侵犯个人信息?
所属栏目:[教程] 日期:2019-10-25 热度:150
据中国之声报道:近日,51信用卡被查事件,让本就处在风口浪尖的大数据风险控制领域,再添一把火。业内人士透露,在隐私保护薄弱、数据安全存在漏洞的国内互联网环境中,爬虫技术往往与信息来源违法、滥用等问题交织在一起。 有媒体综合各方消息这样勾勒出[详细]
-
Excel,Python全都靠边站,这才是数据分析应该有的样子
所属栏目:[教程] 日期:2019-10-25 热度:147
前段时间,老同学居然和我说她在学编程。当时我很不理解,她是市场专员,又不是程序员,为啥要学编程?直到上周,她请我吃饭,告诉我她调到了新项目组做主管。 学编程不一定就是做程序员,我用python搜集竞品信息,对产品和服务做数据分析,毕竟知己知彼,[详细]
-
互联网大数据与物联网大数据的区别 你有必要了解下
所属栏目:[教程] 日期:2019-10-21 热度:71
随着互联网、传感器,以及各种数字化终端设备的普及,一个万物互联的世界正在成型。同时,随着数据呈现出爆炸式的指数级增长,数字化已经成为构建现代社会的基础力量,并推动着我们走向一个深度变革的时代。 大数据(big data)是指无法在一定时间范围内用常[详细]
-
VPN技术及企业常用VPN组网方式介绍
所属栏目:[教程] 日期:2019-10-21 热度:122
VPN(Virtual Private Network)即虚拟专用网络,是指利用公共网络主要使用Internet建立私有专用网络从而传输私有数据。 这是啥意思呢,我们可以从一些需求出发来进行解释,因为一切技术的产生都是为了满足某种需求。想象一下单位有这样一类系统,比如OA(Off[详细]
-
商业数据可视化可不是比谁图画得漂亮,这些常见误区你了解吗
所属栏目:[教程] 日期:2019-10-21 热度:105
数据可视化是指利用数据分析工具增加数据的视觉化效果,表达对数据信息的见解。商业领域是使用数据分析最多的地方,销售人员利用可视化数据向客户展示不同的产品,分析人员通过数据画像研究客户的偏好,企业的管理者也需要根据企业经营状况的绩效指标推算[详细]
-
动画讲解TCP,再不懂请来打我
所属栏目:[教程] 日期:2019-10-21 热度:173
前言 TCP 三次握手过程对于面试是必考的一个,所以不但要掌握 TCP 整个握手的过程,其中有些小细节也更受到面试官的青睐。 对于这部分掌握以及 TCP 的四次挥手,小鹿将会以动画的形式呈现给每个人,这样将复杂的知识简单化,理解起来也容易了很多,尤其对[详细]
-
TCP/IP、UDP、HTTP、MQTT、CoAP这五种物联网协议
所属栏目:[教程] 日期:2019-10-21 热度:135
对于软件公司来说,IoT 模式为其硬件设计以及所提供的服务带来决定性的改变。其中影响最大的一个方面是通信协议。 通信协议可以被认为是一种语言,即两台或两台以上的设备可以相互交流。同时无规矩不成方圆,通信协议也遵循一组规则,两台设备会将有意义的[详细]
-
TCP粘包、拆包与通信协议详解
所属栏目:[教程] 日期:2019-10-21 热度:106
在TCP编程中,我们使用协议(protocol)来解决粘包和拆包问题。本文将详解TCP粘包和半包产生的原因,以及如何通过协议来解决粘包、拆包问题。让你知其然,知其所以然。 1 TCP粘包、拆包图解 由于TCP传输协议面向流的,没有消息保护边界。一方发送的多个报文[详细]
-
使用Spark Streaming SQL进行PV/UV统计
所属栏目:[教程] 日期:2019-10-20 热度:53
1.背景介绍 PV/UV统计是流式分析一个常见的场景。通过PV可以对访问的网站做流量或热点分析,例如广告主可以通过PV值预估投放广告网页所带来的流量以及广告收入。另外一些场景需要对访问的用户作分析,比如分析用户的网页点击行为,此时就需要对UV做统计。[详细]
-
大数据和人工智能如何协同工作
所属栏目:[教程] 日期:2019-10-20 热度:141
人工智能和机器学习如何帮助组织从大数据中获得更好的业务见解?需要了解人工智能和大数据分析的下一步发展。 大数据技术并不像几年前那样广受关注,但这并不意味着大数据技术没有得到发展。如果说有什么不同的话,那就是大数据的规模正在变得越来越大。 大[详细]
-
当WiFi6撞上5G,是危机还是商机?
所属栏目:[教程] 日期:2019-10-20 热度:67
2019年9月16日 WiFi联盟宣布WiFi6认证计划 而我国的5G牌照早在今年6月份已发放 2019年是5G与WiFi6的商用元年,二者近来也颇具话题性,甚至不少人在争论,未来WiFi6与5G正面碰撞,WiFi6会逐渐被淘汰,但也有不少人认为WiFi6与5G是相互竞争,但也可以是完美[详细]
-
一文详解被阿里腾讯视作核心机密的大数据平台架构
所属栏目:[教程] 日期:2019-10-20 热度:95
【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 如果我们能够化整为零,在企业内部从宏观、整体的角度设计和实现一个统一的大数据平台,引入单一集群、单一存储,统一服务和统一安全的架构思想,就能很好的帮助企业解决很多问题。 提到[详细]
-
大数据时代下如何打造“智慧交通”
所属栏目:[教程] 日期:2019-10-20 热度:200
【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 图片来自Unsplash 当今时代,数据已经渗透到每一个行业和业务职能领域,对于海量数据的挖掘和运用,因为近年来,互联网和信息行业的发展而进一步引发关注。仅从交通管理角度出发,探索在[详细]
-
面试问:Kafka为什么速度那么快?该怎么回答
所属栏目:[教程] 日期:2019-10-20 热度:57
【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 Kafka的消息是保存或缓存在磁盘上的,一般认为在磁盘上读写数据是会降低性能的,因为寻址会比较消耗时间,但是实际上,Kafka的特性之一就是高吞吐率。即使是普通的服务器,Kafka也可以轻[详细]
-
谷歌首席科学家:搞研究的痛苦,搞工程的人不懂
所属栏目:[教程] 日期:2019-10-20 热度:107
【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 谷歌首席科学家、谷歌大脑技术负责人Vincent Vanhoucke(万努克)最近发出的一篇劝退文,引发海外科研学者的热议。 在这博客中,万努克直言以研究为业,固然令人羡慕,但会面临着各种各样的[详细]
-
Python爬虫44万条数据揭秘:如何成为网易音乐评论区的网红段子手
所属栏目:[教程] 日期:2019-10-20 热度:127
【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 获取数据 其实逻辑并不复杂: 爬取歌单列表里的所有歌单url。 进入每篇歌单爬取所有歌曲url,去重。 进入每首歌曲首页爬取热评,汇总。 歌单列表是这样的: 翻页并观察它的url变化,注意[详细]
-
小型企业将如何从5G中受益
所属栏目:[教程] 日期:2019-10-20 热度:122
【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 在足够多的新设备进入主流市场之前,5G已经在许多领域引起了越来越多的关注。从IT、零售、交通和制造业到医疗、娱乐、教育和农业,几乎每个行业都将在某种程度上受到5G的影响。 越来越多[详细]
-
对PB级非结构化数据的要求
所属栏目:[教程] 日期:2019-10-20 热度:101
【大咖·来了 第7期】10月24日晚8点观看《智能导购对话机器人实践》 众所周知,非结构化数据很难管理。但是,当组织的非结构化数据资产超过PB阈值时,控制数据集将带来一系列全新的挑战。 大多数传统的网络附加存储(NAS)系统都难以管理100 TB的非结构化数据[详细]
-
实例:大型监控网络系统如何规划ip地址?
所属栏目:[教程] 日期:2019-10-17 热度:118
对于监控项目来说,很多故障的原因都是跟ip地址设置不当有关,如ip冲突,或者有几路监控图像没有显示等,都是跟ip有一定关联,合理的分配ip地址十分重要。 一、为什么要合理分配IP? 对于小型监控项目来说,ip地址的设置比较简单,大部分的人都不会出错,对[详细]
-
一文详细解读 Dubbo 中的 Http 协议
所属栏目:[教程] 日期:2019-10-17 热度:158
太阳红彤彤,花儿五颜六色,各位读者朋友好,又来到了分享 Dubbo 知识点的时候了。说到 Dubbo 框架支持的协议,你的第一反应是什么?大概会有 Dubbo 默认支持的 dubbo 协议,以及老生常谈的由当当贡献给 Dubbo 的 rest 协议,或者是今天的主角 http。截止到[详细]
-
大数据世界中7种灾难性的网络安全错误
所属栏目:[教程] 日期:2019-10-17 热度:93
在人们生活的这个大数据世界中,需要防范一些网络安全错误。 如今,大数据正在以多种方式改变世界。企业依靠数据来提供高效的服务,但也必须担心网络安全风险。 行业媒体Towards Data Science提供了关于机器学习与黑客相关性的一份非常详细的指南,指出如[详细]
-
大数据分析师学习入门,10个数据可视化技巧
所属栏目:[教程] 日期:2019-10-16 热度:59
我必须对你说实话:当我学习数据科学时,我完全低估了绘图的重要性。没错,那时一切都一团糟:我从头开始学习 python、熟悉了所有可能的算法、理解了所有东西背后的数学原理,但是我的绘图技巧很糟糕。 为什么会这样?我们总是在做同样的事情。你知道的:pa[详细]
-
SparkSQL访问Hive遇到的问题及解决方法
所属栏目:[教程] 日期:2019-10-16 热度:65
需要先将hadoop的core-site.xml,hive的hive-site.xml拷贝到project中 测试代码 报错 查看源码 解决方法 将$HIVE_HOME/lib下的spark-hive_2.11-2.4.2.jar与spark-hive-thriftserver_2.11-2.4.2.jar添加到project中 继续报错 查看源码 进入ConfVars 发现Con[详细]
-
Python分析信用卡反欺诈!骗我程序员,不存在的
所属栏目:[教程] 日期:2019-10-16 热度:62
前言: 本文研究的是大数据量(284807条数据)下模型选择的问题,也参考了一些文献,但大多不够清晰,因此吐血整理本文,希望对大家有帮助; 本文试着从数据分析师的角度,设想拿到数据该如何寻找规律、选哪种模型来构建反欺诈模型?的角度来分析,以业务导向[详细]