# web_mining **Repository Path**: windy-feier/web_mining ## Basic Information - **Project Name**: web_mining - **Description**: 交作业所需的个人仓库,关于个人练习过程及代码 - **Primary Language**: 其他 - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2020-04-14 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # :raising_hand: 期末项目_涛哥聊Python微信公众号selenium自动化爬取 ### :peach: 数据加值宣言: 本项目按selenium自动化爬取挖掘的关于“涛哥聊Python”公众号的工作数据,以考察Python这一语言在近年来的火热程度及就业难度,解决了人们想要了解Python相关资讯的问题。(例子:蚂蚁金服科技公众号selenium自动化爬取) --- ### :strawberry: 数据最小可用产品 * 数据产品的数据类型 使用chromedrivver,通过Selenium自动化及datatime模块等模块,对公众号“涛哥聊Python”的所有文章进行搜索及爬取。遍历所有文章的公众号名字,如果不是“涛哥聊Python”则跳过,是则获取对应的标题名字、发布日期和链接,最后将爬取到的数据存储为xlsx格式。 * 内容如何构成最小可用产品MVP的核心价值(具体什么数据解决什么问题) 近年来,Python成为了热门的编程语言。Python是一种计算机程序设计语言。是一种面向对象的动态类型语言,越来越多被用于独立的、大型项目的开发。它天生丽质,易于读写,非常实用,从而赢得了广泛的群众基础,被誉为"宇宙最好的编程语言",被无数程序员热烈追捧。 * Python在AI中占主导地位 * Python易于新手学习 |数据 | 解决的问题 | |---|---| |文章标题 |通过看文章的标题,可以得知“涛哥聊Python”这一公众号发布的文章90%都是关于Python干货学习,有一些是涛哥的个人心得及经历,所以,公众号的垂直度很高 | |发表时间 |根据文章的更新时间,可以得知作者的发文频率 | --- ### :watermelon: 思路方法及具体执行 ***执行 1.方法选择*** :成功地使用适当的selenium方法进行自动化登录搜狗微信,并对网页的数据样态进行了具体描述。 ***执行 2.导入所需的库和实例化浏览器对象*** :使用chromedriver,自动化登录搜狗微信 ***执行 3.输入关键词*** :成功地实现打开搜狗微信搜索的操作,接下来需要往搜索框里输入“涛哥聊Python”,并且点击“搜文章”(不直接点搜公众号是因为已经取消通过公众号直接获取相应文章的功能)。接着先遍历前10页100个文章的公众号名字,如果不是“涛哥聊Python”则跳过,是则获取对应的标题名字、发布日期和链接。接着第10页遍历完成后自动点击登录,此时人为扫码确定登录接着代码检测登录是否完成(可以简化为识别“下一页”按钮是否出现),如果登录完成则继续从11页遍历到最后一页。 ***执行 4.系统设计思维*** :正确的选择了合适的网页数据抓取的方法(selenium),Selenium是一个用于web应用程序自动化测试的工具,直接运行在浏览器当中,可以通过代码控制与页面上元素进行交互,并获取对应的信息。 ***执行 5.数据导出*** :正确的选择数据文件类型(xlsx),并导出数据文件,该数据文件存储在指定路径。 ***执行 6.数据整理*** :成功地挖掘多**类**数据,按“标题”、“发表时间”、“文章链接”有系统地整合数据,每一笔数据有**类别正确**地数据量 --- ### :gift_heart: 心得总结及感谢 * 心得总结: Selenium是一个用于web应用程序自动化测试的工具,直接运行在浏览器当中,可以通过代码控制与页面上元素进行交互,并获取对应的信息。 Selenium很大的一个优点是:不需要复杂地构造请求,访问参数跟使用浏览器的正常用户一模一样,访问行为也相对更像正常用户,不容易被反爬虫策略命中。当然也有缺点:操作均需要等待页面加载完毕后才可以继续进行,所以速度要慢,因此效率不高。 通过Selenium,对网页实行了自动化,不需要鼠标操作,只需要运行代码,这在入行小白的眼里,是很神奇的。通过对页面的xpath运用,我们能获取到自己想要的信息。 * 感谢 感谢许智超老师和廖汉腾老师的淳淳教导,虽然有时候课程难度较高,但也要发挥啃硬骨头的精神,啃下这块知识。估计大三以后的课程方向偏向于传媒类,这些技术课程估计不再会有了,很感谢老师们,也感谢自己坚持下来了。