python学习爬虫,不会前端和全栈可以吗?为何?


我认为是需要学习的,做爬虫除了需要了解python自身的基础,还需要了解HTTP的基础知识,对全栈的了解是跑不了的。我们从静态页面的抓取到动态生成内容的抓取,web前端全家桶(尤其是DOM)也是需要的。此外需不需进一步控制浏览器呢,selenium,CDP(ChromeDevtoolsProtocol)各路神仙一招呼,这些更是web前端和HTTP和网络的深度结合。

如果你想深入学习爬虫,那你肯定绕不过前端的知识,html css javascript更是其中的基础知识了。不过话说回来,你如果仅仅是想学习爬虫拿来用,也不一定要系统地去学这些东西。有个名词叫“学以致用”,你可以直接通过搜索“python爬虫入门”,你就可以短时间学会简单的爬虫了。但是长远来说,你现在学会的这点小技巧,你是没有办法更灵活地使用爬虫来满足自己的需求的。爬虫爬虫爬的究竟是什么?通俗地说就是用编程的方式,让计算机代替我们收集数据,其中爬的便是我们想要得到的公开数据。一般来说,只要是通过浏览器看到的信息都是可爬的,但是这其中会涉及到一些技术和法律上的问题。比如技术上,你想爬虫,平台会有反爬手段,如果判定你频繁爬取信息,那你通过此IP将无法正常访问信息。其中的IP、浏览器头信息、referer等技术手段,用得好的话都可以让无虫可爬。法律上,如果你爬取非公开数据,或者你高频爬取导致平台服务出现问题的,你很可能要到某个地方呆上一段时间。这个其实也可以理解,人家辛苦呈现的数据,被你反手一爬就爬完了,平台不是很冤吗?所以爬虫有风险,下手需谨慎。前端前端是现在互联网内容服务中不可或缺的一员,它担当了直接与用户交互的所有内容。一般来说,IT开发主要分为两个端,一个是前端,另一个则是后端了。后端负责业务逻辑,前端负责页面交互。由于爬虫主要是爬取显示出来的东西,所以要学习的内容更多是前端这一块,比如页面是由什么组成?页面是怎么交互的?数据是从哪个接口取的?入门爬虫如果是选择用python爬虫,那么scrapy框架将非常适合。这个框架可以让你快速学会怎么爬虫,并且也很容易扩展功能来满足其它的需求。

python语言比较容易上手,有编程基础知识就可以了,要相信自己努力下是可以的加油

爬虫它本质就是利用程序模拟各种网络请求然后获取网页里面的信息。所以如果看不懂网页源码是无法做好一个爬虫的。建议学一点点前端,做到能看懂前端网页源码即可。不用深学前端。Python这块不要造轮子,可以用许多爬虫包。网上有很多博客,可以找一个博客然后实践。不动手肯定会觉得非常难,事实上动手做一个爬虫后就会知道并不难。