Python

Python构建开源项目

2018-10-29 2 min read Python Python Python

Python构建开源软件 python的构建工具setup.py的应用场景一般在安装python模块的时候,我们会使用pip install 模块名进行在线安装,会安装依赖包,或者python setup.py install通过源码在本地安装,不会安装依赖包在做一个开源项目的时候遇到了一些问题: 我的程序需要用到python的Redis等模块,以及自己写的入口文件run.py,怎么实现可以在服务器上方便的发布,也就是说,可以让依赖和自己写的程序一起安装,同时将自己写的模块变成一个可执行文件 ###　setup.py 示例以及注释: from setuptools import setup, find_packages …

爬虫学习1-概念及urllib2

2018-10-22 2 min read 爬虫 Python 爬虫 Python

前记：爬虫：使用任何技术手段，批量获取网站信息的一种方式。关键在于批量。反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于批量。误伤：在反爬虫的过程中，错误的将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能用。拦截：成功地阻止爬虫访问。这里会有拦截率的概念。通常来说，拦截率越高的反爬虫策略，误伤的可能性就越高。因此需要做个权衡。资源：机器成本与人力成本的总和。 url 管理器：管理待抓取url集合和已抓取url集合个人：set(),python的set()可以自动去重大量带爬取url：关系数据库mysql 互联网公司：缓存数据库(高性能) 网页下载器： …

爬虫学习2-Requests库学习

2018-10-22 2 min read 爬虫 Python 爬虫 Python

请求方法： r=requests.get('http://httpbin.org/get')#get r = requests.post("http://httpbin.org/post")#post r = requests.put("http://httpbin.org/put")#put r = requests.delete("http://httpbin.org/delete")#delect r = requests.head("http://httpbin.org/get")#head r = …

爬虫学习3-网页解析器

2018-10-22 2 min read 爬虫 Python 爬虫 Python

BeautifulSoup解析器：解析器使用方法条件 bs4的html解析器 BeautifulSoup(html,‘html.parser’) 安装bs4 lxml的html解析器 BeautifulSoup(html,’lxml') pip install lxml lxml的xml解析器 BeautifulSoup(html,‘xml’) pip install lxml html5lib的解析器 BeautifulSoup(html,‘html5lib’) pip install html5lib 基本元素基本元素说明 tag 标 …