这篇文章把数据讲透了(二):数据采集

编辑导读:随着“数智化”时代的到来,我们生活中的方方面面都离不开数据,而你真的了解数据吗?本文将为你重新解读数据的概念和价值 ,以及数据的价值是如何在“数智化 ”时代下一步一步得到运用与升华的;因内容颇多,笔者将分几期为大家进行讲解 。

这篇文章把数据讲透了(二):数据采集

一 、前言

上一期文章中,我们已经了解到“数据”是一个庞大的体系(如下图所示)这篇文章把数据讲透了(一):数据来源;并用了菜市场的例子 ,为大家讲解数据来源的含义;而今天小陈主要给大家到了指定“菜市场”后 ,我们怎样“买菜 ”,即数据采集的过程。

这篇文章把数据讲透了(二):数据采集

二、数据采集(买菜)

首先,我们先对数据采集的方式进行一个简单的分类介绍 ,后面分别介绍每一种数据采集形式需要注意的要点。

这篇文章把数据讲透了(二):数据采集

1. 按数据采集方式

线下(问卷、实地调研)——注意要点:遵循5大要素!

5个要素:

1)紧紧围绕研究主题和目的

评价一份问卷调查优劣程度的准则中很重要的一点就是,问卷内容是否贴合研究主题,就算一份问卷设计得再精妙 ,如果与主题无关,也是毫无价值的,因为我们开展问卷调查的本质目的也是调查相关要素和调研群体背后千丝万缕的联系 。

例如 ,调查用户满意度,一般涉及到产品本身(价格 、包装等)和受众特点(年龄 、地域、心理满足等)两个维度 。

2)题目易读、易理解 、且具有一般性

问卷分发后,是需要受众进行填写的 ,所以问卷的易理解程度也最终决定者问卷的质量。

问卷并不是学术论文,不需要为了彰显专业素养而涉及很多专业、晦涩难懂的词汇,让调查者能够真的看懂才是关键。

而一般性则指的是这个问题的设置是否对所有受众都具普遍意义 。例如 ,调查居民出行方式的问卷中 ,你认为最安全的交通工具是,A火车 B飞机 C宝马小轿车 D电动车,我们可以看到C选项不具有普遍意义 ,且和A、B 、D不是一个维度的选项。

3)充分考虑被调者特点

在使用问卷调查方式时,要充分结合被调群体的特色,来进行问卷的设置;例如针对学龄前儿童和老年人 ,则不宜采取书面问卷调研的形式,要充分考虑到他们的语言偏好(有些老人可能普通话不标准,但方言流利)、对内容的理解能力 ,再派出访谈调研小组进行调研。

4)充分考虑问题排序(循序渐进)

问卷问题的设置除了考虑每个问题的规范性、合理性外,还需要考虑到问题与问题之间的逻辑性和连贯性,避免时间 、空间、人称等维度的频繁跳跃 。

5)充分考虑统计便利性

除了考虑问卷调查的受众外 ,问卷设置还需要充分考虑后期问卷回收后的统计分析;尽可能减少后期工作压力,变量不宜设置太多,应该用尽量少的变量高效获取标签信息 ,帮助后期研究定性。

线上(按数据采集端口细分为APP端和网页端)

APP端(主)——数据埋点获得相关数据:

首先 ,先和大家科普一下,数据埋点到底是什么?以及APP端为何要特别重视数据埋点。

其实,所谓埋点就是在用户使用APP的过程中 ,对他们的一系列行为数据进行收集,以优化产品和运营;而大多APP自带服务和盈利性质(如淘宝、得到等),那么想要实现转化 ,引导购买就需要将“点 ”埋到具体的交互组件上(例如,点击跳转链接 、购买按钮等),然后对PV、UV;停留时间、跳出率 、购买率等指标进行量化 。

就埋点的形式而言 ,主要分为以下三种:

代码埋点:控件操作发生时通过预先写好的代码来发送数据,目前百度统计 、友盟都提供这一服务。

下面举一个例子,例如 ,我们想统计淘宝APP里面加入购物车这个按钮的点击次数,则在其被点击时,可以在这个按钮对应的 OnClick 函数里面调用SDK提供的数据发送接口来发送数据。

优点:控制发送数据时间 ,事件自定义属性详细记录;缺点:时间、人力成本大 ,数据传输的时效性 。

可视化埋点:利用可视化交互手段,通过可视化界面配置控件操作与事件操作发生关系,通过后台截屏的方式采集数据;例如 ,当用户产生多次刷新这一行动时,结合大数据算法,推算出用户的喜好并切换推送内容、产品 ,再通过可视化埋点,自动切换到对应的个性化推荐内容页面。

这篇文章把数据讲透了(二):数据采集

优点:成本低,速度快 ,产品 、市场等各部门均能参与;缺点:行为记录信息少,支持的分析方式少,减轻开发负担。

无埋点:用户展现UI界面元素时 ,平台会通过控件绑定触发事件,事件被触发的时候系统会有相应的接口让开发者处理这些行为;上传UI界面后,系统能够自动识别生成控件的唯一ID ,ID是在程序内部生成 ,只需保证在不同的手机上面这些ID是一样的,就能实现用户端的无埋点数据获取 。

这篇文章把数据讲透了(二):数据采集

优点:无需埋点,方便快捷;缺点:行为记录信息少 ,传输压力大 。

网页端——网页爬虫(python,C…):

就具体语法而言,因为使用工具不同 ,并不能就具体语法提供指导(大家根据自己使用的语言,在CSDN上进行搜索),但其总体方法论是一致的。

方法论:人工确定爬取信息的维度→分析目标网站URL构成→确认爬取工具→编写程序语言→获取数据→保存于本地→后续进行数据挖掘。

三、结语

本期 ,笔者通过一个“买菜”的例子,带着大家了解了数据采集的几种方式,相信大家有所收获!

下期 ,笔者讲在数据采集的基础上,为大家讲解如何利用常用工具进行数据清洗和数据清洗的几个维度!

本文由 @小陈同学ing. 原创发布于人人都是产品经理,未经作者许可 ,禁止转载 。

题图来自Unsplash ,基于CC0协议。

文章采集

快速入门爬虫10基础采集入门知识

欢迎来到小白的数据梦工厂,很高兴你对爬虫感兴趣,并且想要学习爬虫 ,或者想从网页上采集一些数据。

先自我介绍一下,我是八爪鱼采集器的创始人刘宝强,八爪鱼是全球领先的网页数据采集平台 ,为全球70万企业和个人每天采集上亿条数据 。恭喜你在众多的爬虫入门方式中选择了八爪鱼,这是一个非常好的起点,你将从一开始就站在巨人的肩膀上!

这是快速入门爬虫的第一篇 ,本系列文章将带领你从0基础开始,一步一步,从采集一个简单的网页 ,到复杂的列表,多页数据,Ajax页面 ,瀑布流等等 ,直到应对常见封IP,验证码等防采集措施,包括采集淘宝 ,京东,微信,大众点评等热门网站。由浅入深 ,循序渐进的深入网页数据采集领域,相信认真学完本系列,你也会成为采集大神 ,有能力把互联网变成自己的数据库(这一段提到了Ajax等专业数据,你可能不懂,但有个好消息:到目前为止你不需要了解这些技术概念)。


学习本篇内容 ,你需要先掌握以下知识:

  1. 会上网,知道什么是网页,什么是网址 ,什么是浏览器 。
  2. 会使用windows XP ,windows 7,windows 8.1,windows 10等操作系统 ,会使用Excel。
  3. 没有了,如果1、2点有不懂的,我墙裂建议你百度一下。

学习本篇内容 ,你将会掌握以下内容:

  1. 什么是爬虫,什么是网页采集器,八爪鱼采集器是什么 。
  2. 使用八爪鱼采集器采集一个新闻网页 ,获取一条新闻数据。

好了,能读到这里我相信上面的要求对你而言太容易达到了。因为有了百度 、知乎这些知识平台,我相信查询一个名词很容易 ,除非你是伸手党 。但是往往这些名词的解释过于专业,同时又提到更多专业术语,容易让人困惑 ,所以我这里给出的解释不一定那么专业严谨 ,但是却通俗易懂 。

  1. 什么是爬虫:我们讲的不是真正的动物或者小虫子,而是一些自动化的程序或者软件,会自动浏览网页 ,并从网页上获取内容。百度就是一个典型的爬虫,百度从各个网站上自动浏览网页,然后把网页内容存起来 ,给我们提供了一个搜索的工具,我们输入关键词,百度就会搜索爬虫保存的网页内容 ,罗列相关网站当做搜索结果。
  2. 什么是网页采集器:我这里讲的网页采集器专门指会根据用户的指令或者设置,从指定的网页上获取用户指定内容的工具软件 。严格来讲,我这里说的网页采集器也是爬虫的一种。
  3. 八爪鱼采集器:八爪鱼采集器就是一种网页采集器 ,用户可以设置从哪个网站爬取数据,爬取那些数据,爬取什么范围的数据 ,什么时候去爬取数据 ,爬取的数据如何保存等等。

换句话说,八爪鱼是一个网页采集器,网页采集器是一种专门的爬虫工具 。参考下图:

好 ,概念讲完,对概念还不明白或者有不同想法吗?没关系,可以在评论区给我留言 ,我会回复。


接下来,让我们从一个最简答的任务开始,采集一篇新闻(一个网页) ,上手操作一下如何采集数据。

开始采集之前,你需要下载并安装八爪鱼采集器,八爪鱼采集器目前仅支持windows操作系统 ,如果你正在使用Mac电脑或者Linux操作系统,请更换一台电脑,或者在Mac、Linux上安装windows虚拟机 ,然后在windows虚拟机上安装八爪鱼采集器 。你可以百度如何安装虚拟机 ,我稍后会专门写一篇文章讲解如何通过虚拟机来安装八爪鱼采集器。

1. 下载八爪鱼采集器:免费下载 - 八爪鱼采集器,网址:http://www./download。注意:截止本文发稿时,八爪鱼采集器最新版本为7.1.6 。八爪鱼官网同时提供了6.4.5版本和7.1.6版本的下载链接(注意下载按钮下面的小字链接)。

2. 安装八爪鱼采集器:下载后是一个zip文件 ,解压缩,然后运行里面的,这个安装文件。

安装过程很简单 ,20秒左右就安装完成了 。安装完成后,点击安装完成界面的“立即体验”按钮,或者在桌面上双击“八爪鱼采集器 ”快捷方式 ,就可以启动八爪鱼采集器了 。

3. 注册并登陆八爪鱼账号,八爪鱼客户端需要登陆才能使用,不过好消息是 ,使用一个手机号或者邮箱就可以免费注册。点击八爪鱼采集器客户端登录界面的“免费注册”链接:

使用注册的用户名和密码登录后,将默认打开八爪鱼采集器主界面:

关于八爪鱼采集器界面各个功能讲解,我会单独写文章介绍 ,这里我们模拟采集一条新闻 ,常见的新闻网页一般包括新闻标题,发布时间,正文等等 ,八爪鱼专门为大家提供了一些网页用来练习,例如:http://www./guide/demo/s,这个网页非常简单 ,甚至有些简陋,不过都没关系,假设这就是一个新闻的网页 ,我们的目标就是采集这条新闻的标题,时间和正文,并且把采集到的数据保存到一个Excel文件中。

在开始采集前 ,我想先给大家介绍一下 八爪鱼采集器的工作原理 , 注意,这个非常重要!理解了原理 ,所有采集都是一层窗户纸 ,一捅就破,如果不理解,你将事倍功半 ,只知道怎么做,不知道为什么这么做 。

八爪鱼采集的核心原理是: 模拟人浏览网页,复制数据的行为 ,通过记录和模拟人的一系列上网行为,代替人眼浏览网页,代替人手工复制网页数据 ,从而实现自动化从网页采集数据,然后通过不断重复一系列设定的动作流程,实现全自动采集大量数据。

根据这个原理 ,假设你不使用采集工具,如何获取上面这个新闻网页的数据,并把数据保存到excel文件中呢 ,我想你会这么做:
1. 复制上面的网址 ,打开网页浏览器(IE,火狐,Chrome、safari等等) ,把网址粘贴到浏览器地址栏,打开这个网页。

2. 选中标题部分的文字,按鼠标右键或者Ctrl+C复制选中文字 ,新建一个Excel文件,打开,并且粘贴到第一个单元格 ,然后复制时间,粘贴到第二个单元格,然后复制正文 ,粘贴到第三个单元格 。为了让别人知道这些数据列都是什么,你可能会给三列分别加上列名,如:标题 ,时间 ,正文。结果如图:

这个我相信是个人都会,那么,如何让八爪鱼采集这个页面呢?同样也是几乎一样的上面的两个步骤。

1. 复制上面的网址 ,打开八爪鱼采集器,点击首页自定义采集下面的“立即使用”按钮,然后把网址粘贴到网址输入框 ,点击保存,系统会自动打开网页 。

2. 在八爪鱼打开网页后,用鼠标选中(出现蓝色背景色时点击鼠标做点就可以选中蓝色区域对应的文字)标题 ,八爪鱼会在右边黄色区域弹出操作提示,我们选择“采集该元素的文本 ”就相当于告诉八爪鱼复制标题文本一样。同样,对时间和正文做同样的操作 ,然后我们打开上面的“流程”开关,看到左边出现了一个流程图,上面有两步 ,第一步打开网页 ,第二步提取数据,右边现在显示的是提取的三个数据字段,系统已经自动识别第二个是时间 ,我们把第一个,第三个的字段名字修改一下。然后点击下面的确定按钮,采集过程就设置好了 。当然这个时候还是我们手动设置的 ,然后点击上面的“开始采集按钮”,选择“本地采集 ”,看一下系统是如何自动按照我们设定的过程采集数据的。

这个很容易理解吧 ,这也正是八爪鱼设计最为精妙的地方,不像其他采集工具,需要你去理解计算机内部如何工作 , 八爪鱼就像是一个机器人,我们要做的就是训练这个机器人,教他按照我们设定的步骤一步一步像人一样去采集数据 ,唯一的区别就是 ,八爪鱼是程序,他会不知疲倦的,全自动的工作。


小结:

首先恭喜你!你已经入门了 ,从完全不懂爬虫,到自己成功采集了一篇新闻数据,保存到了Excel中 ,这是个非常大的进步!除非你不看教程已经可以做到这个结果,否则不要因为这个教程太简单而不去实践操作,我们后面会学习更多 ,但是都离不开这里学习的基础,而且采集其他任何网站,采集更多数据 ,其实都是一样的过程,只是采集的设置过程可能更复杂而已 。如果你想跑,请先学会走 。

继续学习下一篇:快速入门爬虫2-完整采集一个网站的数据

评论由作者筛选后显示

百家号文章采集

什么是文章采集

采集文章是一件不好的事情,seo的大忌,建议楼主不要这样去做,如果你真的采集了,那就需要楼主,采集回来以后自己进行编辑一下,也就是进行伪原创一下.这样才能提高文章的可读性.当然蜘蛛最喜欢的还是原创性,并且能提高用户的体验度的问题.才是最好的文章.建议楼主三思而后行.

文章采集

大神专栏文章征集令

如果你热爱文字;

如果你热衷表达;

如果你有数不清的奇思妙想;

那就千万别错过略懂社的#大神专栏#!

现#大神专栏#火热开启 ,面向所有大神(原专家)征稿啦~被选中的文章都有机会让更多人看到!

搜狗略懂社 ,给你展示的舞台,释放自己的精彩!

一 、参与对象:仅限大神(原专家)参与

二、投稿方式:在略懂社发布文章,文章格式为【我要上专栏】文章标题

(如【我要上专栏】90后影视剧大回顾)

三、展示方式:

被选中的文章 ,将于每周一 、周四在略懂社首页进行展示,每篇文章展示长为3~5天。
(具体时间视实际情况可能会有小幅变动)

四、评选规则:

1、正文内容不得少于100字,无错别字 ,且内容原创。

2 、图文并茂优先,图片需清晰无水印 。

3 、文章内容层次分明,格式整齐。

4、文章内容热度(点赞数、评论数)更高的优先考虑。

5 、优先选择最近2周内发布的内容 。

6、原则上不重复选择同一篇文章展示。

大家火速来投稿吧~~向略懂社的童鞋们展示你的才华!

百家号文章采集

帮收集一下文章哭泣的照片 ,特别的是这张,处理一下

照片处理一般是用Photoshop软件,它是图片处理最大的软件。Ps与Lr肌恭冠枷攉磺圭委氦莲的区别在于ps处理图片强大 ,功能多,效果好,而Lr是专修图片软件 ,在处理图片时比ps简单 ,容易操作 。

本文版权归QU快排Www.seoGurubLog.com 所有,如有转发请注明来出,竞价开户托管,seo优化请联系QQ▲61910465