前记: 爬虫:使用任何技术手段,批量获取网站信息的一种方式。关键在于批量。 反爬虫:使用任何技术手段,阻止别人批量获取自己网站信息的一种方式。关键也在于批量。 误伤:在反爬虫的过程中,错误的将普通用户识别为爬虫。误伤率高的反爬虫策略,效果再好也不能用。 拦截:成功地阻止爬虫访问。这里会有拦截率的概念。通常来说,拦截率越高的反爬虫策略,误伤的可能性就越高。因此需要做个权衡。 资源:机器成本与人力成本的总和。 url 管理器:管理待抓取url集合和已抓取url集合 个人:set(),python的set()可以自动去重 大量带爬取url:关系数据库mysql 互联网公司:缓存数据库(高性能) 网页下载器: …
请求方法: r=requests.get('http://httpbin.org/get')#get r = requests.post("http://httpbin.org/post")#post r = requests.put("http://httpbin.org/put")#put r = requests.delete("http://httpbin.org/delete")#delect r = requests.head("http://httpbin.org/get")#head r = …
BeautifulSoup解析器: 解析器 使用方法 条件 bs4的html解析器 BeautifulSoup(html,‘html.parser’) 安装bs4 lxml的html解析器 BeautifulSoup(html,’lxml') pip install lxml lxml的xml解析器 BeautifulSoup(html,‘xml’) pip install lxml html5lib的解析器 BeautifulSoup(html,‘html5lib’) pip install html5lib 基本元素 基本元素 说明 tag 标 …
PyQuery 初始化 %%html <div id = "container"> <ul class="list"> <li class = "item-0">frist item</li> <li class = "item-1"><a href="link2.html">second item</a></li> <li class = "item-0 active"><a …
线性表(每个线性表上的数据最多只有前和后两个方向):数组,链表,队列,栈 非线性表(数据之间并不是简单的前后关系):二叉树,堆,图 数组的概念 数组( Array )是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。 数组的特点 连续的内存空间和相同类型的数据 数组的优点 随机访问:利用寻址公式对元素进行访问: a[i]_address = base_address + i * data_type_size 数组的查找操作时间复杂度不是O(1),即便是排好的数组,用二分查找,时间复杂度也是O(logn);正确的说法 数组支持随机访问,根据下标随机访问的时间复杂度为O(1) 数组的缺点 低效的插入和删除 插 …