一篇非常棒的安装Python及爬虫入门博文！

一. 大数据及数据挖掘基础（私信小编007即可获取大量Python学习资料！）

成都创新互联公司专注为客户提供全方位的互联网综合服务，包含不限于网站设计制作、做网站、盈江网络推广、微信平台小程序开发、盈江网络营销、盈江企业策划、盈江品牌公关、搜索引擎seo、人物专访、企业宣传片、企业代运营等，从售前售中售后，我们都将竭诚为您服务，您的肯定，是我们最大的嘉奖；成都创新互联公司为所有大学生创业者提供盈江建站搭建服务，24小时服务热线：18980820575，官方网址：www.cdcxhl.com

***部分主要简单介绍三个问题：

1、什么是大数据？

2、什么是数据挖掘？

3、大数据和数据挖掘的区别？

1、大数据（Big Data）

大数据（big data）指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

下图是大数据经典的4V特征。

IBM大数据库框架及可视化技术，大数据常用：Hadoop、Spark，现在更多的是实时数据分析，包括淘宝、京东、附近美食等。

下图是大数据的一些应用

说到大数据，就不得不提Hadoop，而说到Hadoop，又不得不提Map-Reduce。

MapReduce是一个软件框架由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。MapReduce的思想是“分而治之”。Mapper负责“分，Reducer负责对map阶段的结果进行汇总。

2、数据挖掘（Data Mining）

数据挖掘（Data Mining）：数据库、机器学习、人工智能、统计学的交叉学科。

数据挖掘需要发现有价值的知识，同时最顶端都是具有智慧的去发现知识及有价值的信息。

因为它主要是针对网页数据进行的大数据分析，需要Web Mining分类如下：

Web挖掘主要分为三类：Web日志挖掘、Web内容挖掘、Web结构挖掘。

3、机器学习

讲到机器学习和数据挖掘相关的知识，通常都会补充两幅图片。很形象的表示了计算机智能化与人类传统知识的类比。

二. 安装Python及基础知识

1、安装Python

在开始使用Python编程之前，需要介绍Python的安装过程。python解释器在Linux中可以内置使用安装

步骤如下：

***步：打开Web浏览器并访问官网；

第二步：

在官网首页点击Download链接，进入下载界面，选择Python软件的版本，作者选择下载python 2.7.8，点击“Download”链接。

Python下载地址：

第三步：选择文件下载地址，并下载文件。

第四步：双击下载的“python-2.7.8.msi”软件，并对软件进行安装。

第五步：在Python安装向导中选择默认设置，点击“Next”，选择安装路径，这里设置为默认的安装路径“C:Python27”，点击“Next”按钮，如图所示。

注意1：建议将Python安装在C盘下，通常路径为C:Python27，不要存在中文路径。

在Python安装向导中选择默认设置，点击“Next”，选择安装路径，这里设置为默认的安装路径“C:Python27”，点击“Next”按钮。

安装成功后，如下图所示：

第六步：假设安装一切正常，点击“开始”，选中“程序”，找到安装成功的Python软件，如图所示：

选中上图中第三个图标，即点击“Python （command line）命令行模式”，运行程序输入如下代码：

 
 
 
   
  
  
  print 'hello world'

则python命令行模式的解释器会打印输出“hello world”字符串，如下图所示。

选中图中的***个图片，点击“IDLE （Python GUI）”，即运行Python的集成开发环境（Python Integrated Development Environment，IDLE），运行结果如下图。

注意2：建议大家使用IDLE写脚本，完整的代码而不是通过命令行模式。

2、Python基础知识

这里简单入门介绍，主要介绍下条件语句、循环语句、函数等基础知识。

a、函数及运行

这里举个简单的例子。打开IDLE工具->点击栏"File"->New File新建文件->命名为test.py文件，在test文件里添加代码如下：

保存文件。并在test.py文件里点击Run->Run Module，输出结果如下图所示。

b、条件语句

包括单分支、双分支和多分支语句，if-elif-else。

(1).单分支语句

它的基本格式是：

 
 
 
   
  
  
  if condition:    
  
  
  statement    
  
  
  statement

需要注意的是Ptthon中if条件语句条件无需圆括号()，条件后面需要添加冒号，它没有花括号{}而是使用TAB实现区分。其中condition条件判断通常有布尔表达式(True|False 0-假|1-真非0即真)、关系表达式(>= <= == !=)和逻辑运算表达式(and or not)。

(2).双分支语句

它的基本格式是：

 
 
 
   
  
  
  if condition:    
  
  
  statement    
  
  
  statement    
  
  
  else:    
  
  
  statement    
  
  
  statement

(3).多分支语句

if多分支由if-elif-else组成，其中elif相当于else if，同时它可以使用多个if的嵌套。具体代码如下所示：

c、while循环语句

while循环语句的基本格式如下:

 
 
 
   
  
  
  while condition:    
  
  
  statement    
  
  
  statement    
  
  
  else:    
  
  
  statement    
  
  
  statement

其中判断条件语句condition可以为布尔表达式、关系表达式和逻辑表达式，else可以省略(此处列出为与C语言等区别)。举个例子：

d、for循环

该循环语句的基础格式为：

 
 
 
   
  
  
  for target in sequences:    
  
  
  statements

target表示变量名,sequences表示序列,常见类型有list(列表)、tuple(元组)、strings(字符串)和files(文件)。

Python的for没有体现出循环的次数，不像C语言的for(i=0;i<10;i++)中i循环计数，Python的for指每次从序列sequences里面的数据项取值放到target里，取完即结束，取多少次循环多少次。其中in为成员资格运算符，检查一个值是否在序列中。同样可以使用break和continue跳出循环。

下面是文件循环遍历的过程：

e、课堂讲解代码

仅供大家参考：

输出结果如下图所示：

三. 安装PIP及第三方包

接下来需要详解介绍爬虫相关的知识了，这里主要涉及到下面几个知识：

爬虫主要使用Python(字符串|urllib)+Selenium+PhantomJS+BeautifulSoup。

在介绍爬虫及Urllib下载网页或图片之前，先教大家如何使用pip安装第三方的库。

PIP

在介绍介绍它们之前，需要安装PIP软件。“作为Python爱好者，如果不知道easy_install或者pip中的任何一个的话，那么......”。

easy_insall的作用和perl中的cpan，ruby中的gem类似，都提供了在线一键安装模块的傻瓜方便方式，而pip是easy_install的改进版，提供更好的提示信息，删除package等功能。老版本的python中只有easy_install，没有pip。常见的具体用法如下：

***步：下载PIP软件

可以在官网http://pypi.python.org/pypi/pip#downloads下载，同时cd切换到PIP目录，在通过python setup.py install安装。而我采用的是下载pip-Win_1.7.exe进行安装

第二步：安装PIP软件

当提示"pip and virtualenv installed"表示安装成功，那怎么测试PIP安装成功呢？

第三步：配置环境变量

此时在cmd中输入pip指令会提示错误“不是内部或外部命令”。

注意：两种解决方法，一种是通过cd ..去到Srcipts环境进行安装，pip install...

方法二：另一种配置Path路径。

需要添加path环境变量。PIP安装完成后，会在Python安装目录下添加pythonScripts目录，即在python安装目录的Scripts目录下，将此目录加入环境变量中即可！过程如下：

第四步：使用PIP命令

下面在CMD中使用PIP命令，“pip list outdate”列举Python安装库的版本信息。

注意：安装成功后，会在Python环境中增加Scripts文件夹，包括easy_install和pip。

PIP安装过程中可能出现各种问题，一种解决方法是去到python路径，通过python set_up.py install安装；另一种是配置Path环境比例。

课堂重点知识：

***节课主要想让大家体会下Python网络爬虫的过程及示例。需要安装的第三方库主要包括三个：

 
 
 
   
  
  
  pip install httplib2    
  
  
  pip install urllib    
  
  
  pip install selenium

在安装过程中，如果pip install urllib报错，是因为httplib2包含了，可直接用。

注意：如果pip安装报错ascii编码问题，需要把计算机名称从中文修改为英文名。

四. Urllib下载网页及图片

在使用pip install urllib或pip install urllib2后，下面这段代码是下载网页。

首先我们调用的是urllib2库里面的urlopen方法，传入一个URL，这个网址是百度首页，协议是HTTP协议，当然你也可以把HTTP换做FTP、FILE、HTTPS 等等，只是代表了一种访问控制协议，urlopen一般接受三个参数，它的参数如下：

***个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。

第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT。

***个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。

response对象有一个read方法，可以返回获取到的网页内容。

获取的网页本地保存为"baidu.html"，通过浏览器打开如下图所示：

然后是需要下载图片，这里需要学会找到图片的URL，如下图百度的LOGO，可以通过浏览器右键"审查元素"或"检查"来进行定位。

定位URL后，再通过函数urlretrieve()进行下载。

重点知识：

urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。

urlretrieve方法直接将远程数据下载到本地。

如果需要显示进度条，则使用下面这段代码：

五. HTML网页基础知识及审查元素

HTML DOM是HTML Document Object Model（文档对象模型）的缩写，HTML DOM则是专门适用于HTML/XHTML的文档对象模型。熟悉软件开发的人员可以将HTML DOM理解为网页的API。它将网页中的各个元素都看作一个个对象，从而使网页中的元素也可以被计算机语言获取或者编辑。

DOM是以层次结构组织的节点或信息片断的集合。这个层次结构允许开发人员在树中导航寻找特定信息。分析该结构通常需要加载整个文档和构造层次结构，然后才能做任何工作。由于它是基于信息层次的，因而 DOM 被认为是基于树或基于对象的。

HTML DOM 定义了访问和操作HTML文档的标准方法。 HTML DOM 把 HTML 文档呈现为带有元素、属性和文本的树结构（节点树）。它们都是一个节点（Node），就像公司的组织结构图一样。我们现在从另一个角度来审视源代码，first.html的源码如下：

这个例子的***个元素就是元素，在这个元素的起始标签和终止标签之间，又有几个标签分别起始和闭合，包括、和<body>。<head>和<body>标签是直接被<html>元素包含的，而<title>标签则包含在<head>标签内。要描述一个HTML网页的这种多层结构，用树来进行类比是***的方式。树形结构如下图所示：</p><p><p>重点：</p><p>在网络爬虫中，通常需要结合浏览器来定位元素，浏览器右键通常包括两个重要的功能：查看源代码和审查或检查元素。</p><p><p>通过审查元素，可以定位到需要爬取图片或网页的HTML源文件，通常是table或div的布局，这些HTML标签通常是成对出现的，如<html></html>、<div></div>等；同时会包括一些属性id、name、class来指定该标签。如：</p><pre> <ol> <li><div id="content" name="n1" class="cc">....</div> </li> </ol></pre><p><p><strong>六. 安装Selenium及网页简单爬取</strong></p><p>Selenium用于Web应用程序测试的工具，模拟浏览器用户操作，通过Locating Elements 定位元素。安装过程如下图所示，通过pip install selenium安装。</p><p>注意：需要cd去到Scripts目录进行安装。</p><p><p><p>selenium结合浏览器定位的基本函数包括：</p><p><p>***个基于Selenium爬虫的代码，通过调用Firefox浏览器：</p><p><p>输出如下图所示：</p> <p> 分享文章：<a href="http://www.36103.cn/qtweb/news45/28345.html">一篇非常棒的安装Python及爬虫入门博文！</a> <br> 文章来源：<a href="http://www.36103.cn/qtweb/news45/28345.html">http://www.36103.cn/qtweb/news45/28345.html</a> </p> <p> 网站建设、网络推广公司-创新互联，是专注品牌与效果的网站制作，网络营销seo公司；服务项目有等 </p> <p class="adpic"> <a href="https://www.cdcxhl.com/service/ad.html" target="_blank" class="ad">广告</a> <a href="" target="_blank" class="adimg"><img src=""></a> </p> <p class="copy"> 声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源： <a href="https://www.cdcxhl.com/" target="_blank">创新互联</a> </p> </div> <div class="newsmorelb"> <p>猜你还喜欢下面的内容</p> <ul> <li> <a href="/qtweb/news44/28344.html">域名转入流程，是什么？(如何将域名转到阿里云)</a> </li><li> <a href="/qtweb/news43/28343.html">盈辉科技靠谱吗？（大连虚拟主机租用怎么选择配置）</a> </li><li> <a href="/qtweb/news42/28342.html">win7显示准备配置windows一直不动？（配置windows不动了）</a> </li><li> <a href="/qtweb/news41/28341.html">阿里云服务器涨价好凶，比阿里云便宜的服务器2022年年更新</a> </li><li> <a href="/qtweb/news40/28340.html">香港随身wifi怎么租赁？7香港服务器租用</a> </li><li> <a href="/qtweb/news39/28339.html">学前编程是什么工作内容</a> </li><li> <a href="/qtweb/news38/28338.html">快速掌握Redis设置的指南（redis设置教程）</a> </li><li> <a href="/qtweb/news37/28337.html">动态规划：关于多重背包，你该了解这些！</a> </li><li> <a href="/qtweb/news36/28336.html">云服务器配置怎么选择好</a> </li> </ul> </div> </div> <div class="col-lg-3 noneb"> <div class="bkright" style="margin-top: 0"> <p><a href="https://www.cdcxhl.com/news/ruanjiankaifa/">软件开发知识</a></p> <ul> <li> <a class="text_overflow" href="/qtweb/news12/32812.html">使用过期域名有哪些优势？网站域名到期不续费会自动注销吗</a> </li><li> <a class="text_overflow" href="/qtweb/news7/16357.html">利用Linux内核实现多核处理性能提升（linux内核多核）</a> </li><li> <a class="text_overflow" href="/qtweb/news27/31177.html">浅析Redis的五种存储类型（redis的五中存储类型）</a> </li><li> <a class="text_overflow" href="/qtweb/news34/3134.html">抖音关注了又取消对方知道吗他的手机会有提示吗</a> </li><li> <a class="text_overflow" href="/qtweb/news39/9839.html">Redis实现快速消息消费确认（redis消费确认）</a> </li><li> <a class="text_overflow" href="/qtweb/news38/238.html">使用命令行重启Windows服务器的方法</a> </li><li> <a class="text_overflow" href="/qtweb/news1/24651.html">引用有什么作用</a> </li><li> <a class="text_overflow" href="/qtweb/news18/4618.html">如何清空Linux中的ARP缓存？（linux清空arp）</a> </li><li> <a class="text_overflow" href="/qtweb/news1/35551.html">ps如何增加字体样式,ps怎样提取原图片字体样式</a> </li><li> <a class="text_overflow" href="/qtweb/news22/16572.html">WCF实现loading功能正确方法</a> </li><li> <a class="text_overflow" href="/qtweb/news47/1347.html">如何建立对SaaS数据保护的权责？</a> </li><li> <a class="text_overflow" href="/qtweb/news25/9075.html">AU3和Oracle数据库的完美结合 (au3 oralce数据库)</a> </li><li> <a class="text_overflow" href="/qtweb/news8/8658.html">Docker安装Redis如何配置</a> </li><li> <a class="text_overflow" href="/qtweb/news45/28645.html">html如何获取元素内容</a> </li><li> <a class="text_overflow" href="/qtweb/news1/21501.html">2021印度社交app？（印度服务器租用一个月的价钱）</a> </li> </ul> </div> <div class="bkright tag"> <p><a href="https://www.cdcxhl.com/hangye/" target="_blank">同城分类信息</a></p> <ul> <li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/tongdiaosu/" target="_blank">铜雕雕塑</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/jiaquan/" target="_blank">除甲醛</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/yupeng/" target="_blank">雨棚定制</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/hntjbc/" target="_blank">混凝土搅拌罐车</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/shipenji/" target="_blank">湿喷机</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/ruanzhuangsj/" target="_blank">软装设计</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/zhixiang/" target="_blank">纸箱</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/cantingsj/" target="_blank">餐厅设计</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/suliaodai/" target="_blank">塑料袋</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/hntjbz/" target="_blank">混凝土搅拌站</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/wsjgd/" target="_blank">卫生间隔断</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/baiwuyu/" target="_blank">白乌鱼</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/zkj/" target="_blank">公路钻孔机</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/banjia/" target="_blank">搬家公司</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/chunshuiji/" target="_blank">纯水机</a> </li><li class="col-lg-6 col-md-6 col-sm-6 col-xs-6"> <a href="https://www.cdcxhl.com/hangye/gaokongche/" target="_blank">高空作业车租赁</a> </li> </ul> </div> </div> </div> <div class="carousel-inner linkbg" style="background: #fff"> <div class="container"> <a href="http://www.xhgfhy.com/ " target="_blank">犀浦雨棚定制</a>　　　<a href="http://www.sczizhong.com/" target="_blank">资中网站建设</a>　　　<a href="http://www.lzwzjz.cn/" target="_blank">泸州网站建设</a>　　　<a href="http://www.cqfuwuqi.cn/" target="_blank">重庆服务器托管</a>　　　<a href="https://www.cdcxhl.com/douyin/" target="_blank">抖音短视频拍摄</a>　　　<a href="http://www.tjysf.cn/" target="_blank">郫都区消防器材</a>　　　<a href="https://www.cdxwcx.com/400/" target="_blank">成都400电话办理</a>　　　<a href="https://www.cdcxhl.com/xiaochengx.html" target="_blank">小程序开发</a>　　　<a href="https://www.cdxwcx.com/" target="_blank">网络营销推广</a>　　　<a href="http://www.cxjianzhan.com/" target="_blank">seo网络营销推广</a>　　　<a href="http://www.cdxwcx.cn/seo/" target="_blank">成都网络营销公司</a>　　　<a href="https://www.cdcxhl.com/shoulu/" target="_blank">网站免费收录</a>　　　<a href="http://chengdu.cdcxhl.com/dingzhi/" target="_blank">定制网站</a>　　　<a href="http://chengdu.cdweb.net/weixinkaifa/fuwuhao.html" target="_blank">微信服务号订阅号开发</a>　　　<a href="http://m.cdcxhl.cn/wechat/ " target="_blank">微信公众号开发</a>　　　<a href="https://www.cdcxhl.cn/ " target="_blank">香港虚拟主机腾讯云</a>　　　<a href="https://www.cdcxhl.com/zuo/chengdu.html" target="_blank">四川成都做网站</a>　　　<a href="https://www.djxuejia.com/" target="_blank">雪茄烟</a>　　　<a href="http://www.cqcxhl.com/service/app.html" target="_blank">重庆APP开发</a>　　　<a href="http://www.scfadianji.cn/" target="_blank">成都恒翔机电维修</a>　　　 </div> </div> <footer> <div class="carousel-inner footjz"> <div class="container"> <i class="icon iconfont zbw"></i> 高品质定制 <i class="icon iconfont"></i> 跨终端自动兼容 <i class="icon iconfont"></i> 节约开发成本 <i class="icon iconfont"></i> 开发周期短 <i class="icon iconfont"></i> 一体化服务 <button type="button" class="btn btn-default btn-lg" onClick="window.location.href='tencent://message/?uin=631063699&Site=&Menu=yes'"> 立即开始2800定制网站建设</button> <button type="button" class="btn btn-default btn-xs" onClick="window.location.href='tencent://message/?uin=631063699&Site=&Menu=yes'"> 2800定制网站建设</button> </div> </div> <div class="carousel-inner bqsy"> <div class="container"> <div class="lxfs"> <h4 class="yutelnone">028-86922220 13518219792</h4> <h4 class="yutelblock"><a href="tel:02886922220">028-86922220</a> <a href="tel:13518219792">13518219792</a></h4> <a class="btn btn-default" href="tencent://message/?uin=532337155&Site=&Menu=yes" role="button">网站建设<span>QQ</span>：532337155</a> <a class="btn btn-default" href="tencent://message/?uin=631063699&Site=&Menu=yes" role="button">营销推广<span>QQ</span>：631063699</a> <a class="btn btn1 btn-default" href="mqqwpa://im/chat?chat_type=wpa&uin=532337155&version=1&src_type=web&web_src=oicqzone.com" role="button">网站制作<span>QQ</span>：532337155</a> <a class="btn btn1 btn-default" href="mqqwpa://im/chat?chat_type=wpa&uin=631063699&version=1&src_type=web&web_src=oicqzone.com" role="button">营销推广<span>QQ</span>：631063699</a> <a class="btn btn-default nonea" href="tencent://message/?uin=1683211881&Site=&Menu=yes" role="button">售后QQ：1683211881</a> <div class="dz">快上网专业的成都网站建设公司： <a href="http://www.36103.cn/" target="_blank">成都网站设计</a> <a href="http://www.36103.cn/" target="_blank">成都网站制作</a> <a href="http://www.36103.cn/" target="_blank">成都做网站</a> <address>地址：成都太升南路288号锦天国际A幢10楼</address> </div> </div> <div class="bzdh dz"><img src="https://www.cdcxhl.com/imges/bottom_logo.png" alt="创新互联"> <p><a href="https://www.cdcxhl.com/menu.html" target="_blank">成都创新互联科技有限公司</a><br> Tel：400-028-6601（7x24h）</p></div> </div> </div> </footer> </body> </html> <script> $.getJSON ("../../qtwebpic.txt", function (data) { var jsonContent = { "featured":data } var random = jsonContent.featured[Math.floor(Math.random() * jsonContent.featured.length)]; $(".adpic .adimg").attr("href",random.link) $(".adpic img").attr("src",random.pic); }) </script>