遇到过得反爬虫策略以及解决方法?

1.通过headers反爬虫 2.基于用户行为的发爬虫:(同一IP短时间内访问的频率) 3.动态网页反爬虫(通过ajax请求数据,或者通过JavaScript生成) 4.对部分数据进行加密处理的(数据是乱码)

解决方法:

对于基本网页的抓取可以自定义headers,添加headers的数据 使用多个代理ip进行抓取或者设置抓取的频率降低一些, 动态网页的可以使用selenium + phantomjs 进行抓取 对部分数据进行加密的,可以使用selenium进行截图,使用python自带的pytesseract库进行识别,但是比较慢最直接的方法是找到加密的方法进行逆向推理。

1 urllib 和 urllib2 的区别?

2 列举网络爬虫所用到的网络数据包,解析包?

3 简述一下爬虫的步骤?

4 遇到反爬机制怎么处理?

5 常见的HTTP方法有哪些?

6 说一说redis-scrapy中redis的作用?

7 遇到的反爬虫策略以及解决方法?

8 如果让你来防范网站爬虫,你应该怎么来提高爬取的难度 ?

9 scrapy分为几个组成部分?分别有什么作用?

10 简述一下scrapy的基本流程?

11 python3.5语言中enumerate的意思是

12 你是否了解谷歌的无头浏览器?

13 scrapy和scrapy-redis的区别?

14 scrapy的优缺点?为什么要选择scrapy框架?

15 scrapy和requests的使用情况?

16 描述一下scrapy框架的运行机制?

17 写爬虫使用多进程好,还是用多线程好?

18 常见的反爬虫和应对方法?

19 分布式爬虫主要解决什么问题?

20 如何提高爬取效率?

21 说说什么是爬虫协议?

22 如果对方网站反爬取,封IP了怎么办?

23 有一个jsonline格式的文件file

24 补充缺失的代码

25 输入日期, 判断这一天是这一年的第几天?

26 打乱一个排好序的list对象alist?

27 现有字典 d= {‘a’:24,’g’:52,’i’:12,’k’:33}请按value值进行排序?

28 字典推导式

29 请反转字符串 “aStr”?

30 将字符串 “k:1 |k1:2|k2:3|k3:4″,处理成字典 {k:1,k1:2,

31 请按alist中元素的age由大到小排序

32 下面代码的输出结果将是什么?

33 写一个列表生成式,产生一个公差为11的等差数列

34 给定两个列表,怎么找出他们相同的元素和不同的元素?

35 请写出一段python代码实现删除list里面的重复元素?

36 给定两个list A,B ,请用找出A,B中相同与不同的元素

37 python新式类和经典类的区别?

38 python中内置的数据结构有几种?

39 python如何实现单例模式?请写出两种实现方式?

40 反转一个整数,例如-123 –> -321

41 设计实现遍历目录与子目录,抓取.pyc文件?

42 Python-遍历列表时删除元素的正确做法

43 字符串的操作题目

44 可变类型和不可变类型

45 is和==有什么区别?

46 求出列表所有奇数并构造新列表

47 用一行python代码写出1+2+3+10248

48 Python中变量的作用域?(变量查找顺序)

49 字符串"123"转换成123,不使用内置api,例如int()

50 Given an array of integers

51 python代码实现删除一个list里面的重复元素

52 统计一个文本中单词频次最高的10个单词?

53 请写出一个函数满足以下条件

54 使用单一的列表生成式来产生一个新的列表

55 用一行代码生成[1,4,9,16,25,36,49,64,81,100]

56 输入某年某月某日,判断这一天是这一年的第几天?

57 两个有序列表,l1,l2,对这两个列表进行合并不可使用extend

58 给定一个任意长度数组,实现一个函数

59 写一个函数找出一个整数数组中,第二大的数

60 阅读一下代码他们的输出结果是什么?

61 统计一段字符串中字符出现的次数

62 Python中类方法、类实例方法、静态方法有何区别?

63 遍历一个object的所有属性,并print每一个属性名?

64 写一个类,并让它尽可能多的支持操作符?

65 关于Python内存管理,下列说法错误的是 B

66 Python的内存管理机制及调优手段?

67 内存泄露是什么?如何避免?

68 python常见的列表推导式?

69 简述read、readline、readlines的区别?

70 什么是Hash(散列函数)?

71 python函数重载机制?

72 手写一个判断时间的装饰器

73 使用Python内置的filter()方法来过滤?

74 编写函数的4个原则

75 函数调用参数的传递方式是值传递还是引用传递?

76 如何在function里面设置一个全局变量

77 对缺省参数的理解 ?

78 带参数的装饰器?

79 为什么函数名字可以当做参数用?

80 Python中pass语句的作用是什么?

81 有这样一段代码,print c会输出什么,为什么?

82 交换两个变量的值?

83 map函数和reduce函数?

84 回调函数,如何通信的?

85 Python主要的内置数据类型都有哪些? print dir( ‘a ’) 的输出?

86 map(lambda x:xx,[y for y in range(3)])的输出?

87 hasattr() getattr() setattr() 函数使用详解?

88 一句话解决阶乘函数?

89 对设计模式的理解,简述你了解的设计模式?

90 请手写一个单例

91 单例模式的应用场景有那些?

92 用一行代码生成[1,4,9,16,25,36,49,64,81,100]

93 对装饰器的理解,并写出一个计时器记录方法执行性能的装饰器?

94 解释以下什么是闭包?

95 函数装饰器有什么作用?

96 生成器,迭代器的区别?

97 X是什么类型?

98 请用一行代码 实现将1-N 的整数列表以3为单位分组

99 Python中yield的用法?

小伙伴们想要以上答案的和更多相关学习资料请点赞收藏+评论转发+关注我之后私信我,注意回复【000】即可获取更多免费资料!