爬虫实战

admin 2025-08-23 14:55:32

欢迎来到Python爬虫实践系列，我是@马哥python说，今天要与大家分享的是如何使用Python爬取小红书上的评论数据。

首先，我们的目标是爬取与"巴勒斯坦"相关笔记下的所有评论，共计超过10000条，每条评论包含10个关键字段：笔记链接、页码、评论者昵称、评论者ID、主页链接、评论时间、评论IP属地、点赞数、评论级别以及评论内容。

我们的爬虫程序会分析小红书页面的HTML结构，找到请求数据的链接，然后通过模拟浏览器行为来获取这些评论数据。首先，我们需要导入一些必要的Python库，定义请求头以通过验证，尤其是设置User-Agent和Cookie。

Cookie的获取通常需要一些技巧，比如通过访问小红书的登录页面来获取，然后在每次请求时携带这个Cookie。接着，我们编写逻辑来翻页获取所有评论，直到没有更多数据为止。在实际操作中，我们发现"has_more"参数用于判断是否有更多评论页。

为了实现翻页功能，我们需要从返回数据中获取当前页的“cursor”，然后在下一次请求中作为参数传递，以获取下一页的数据。在爬取过程中，我们特别关注到了“sub_comment_count”和“root_comment_id”字段，以提取二级评论及二级展开评论。

最后，我们将获取的数据保存到CSV文件中，包括转换时间戳、随机等待时长、解析其他字段等关键步骤，以确保数据的准确性和完整性。

完整代码包含在后续步骤中，包括转换时间戳、随机等待时长、解析其他字段、保存Dataframe数据、多个笔记同时循环爬取等关键逻辑，您可以参考代码实现细节。如果您对Python爬虫感兴趣，欢迎关注@马哥python说的微信公众号"老男孩的平凡之路"，获取本次分析过程的完整Python源码及结果数据。

本文地址： http://www.hjuga.com/20241201/1/210521