首页 陇县资讯 陇县教育 宝鸡资讯 陇县房产 陇县汽车 陇州社火 陇州人物

爬取清华大学新闻网中的最新动态,获取每条动态的题目、时间、链接等相关信息。

(来源:网站编辑 2024-09-05 12:10)
文章正文

这里数据是抓取到了,但是太乱了,并且还有很多不是我们想要的,下面就通过遍历来提炼出我们的有效信息。分析上图我们要抓取的信息再div中的a标签和img标签里,所以我们要想的就是怎么获取到这些信息。爬取到的数据目前只做展示,等我学完Python操作数据库以后会把爬取到的数据保存到数据库。这里就要用到我们导入的BeautifulSoup4库了,这里的关键代码。上面代码获取到的allList就是我们要获取的新闻列表,抓取到的如下。这就是Python3的爬虫简单入门,是不是很简单,建议大家多敲几遍。

首页
评论
分享
Top