欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 财经 > 产业 > 浅看小红书数据采集

浅看小红书数据采集

2024/10/24 4:31:49 来源:https://blog.csdn.net/xyydyyqf/article/details/140674852  浏览:    关键词:浅看小红书数据采集

有朋友问了下关于小红书的笔记采集,就看了下,小红书有网页版,采集可行性就有了,虽然需要登录,但目前来看一个帐号能采集的量级几百条笔记应该还是有的,具体要多次实测后才知道,这里不做延伸。

传统的采集方法,先看小红书怎么调用的接口,在网页版里随便搜索个关键词,例如“威士忌”,然后F12调试中可以看到很多请求,剥丝抽茧看到我们要的请求是这个,名为notes的接口:

https://edith.xiaohongshu.com/api/sns/web/v1/search/notes

非常标准的后端post请求,不是动态加载,不用费力解析,只需要用这个url再填入请求参数,即可得到非常标准的json返回。至于请求头的各种token,限制比较松的平台不需要加密的话,直接request请求就可以随便采了,有加密解密的太麻烦,也不需要js逆向,直接selnium一力破之,遇到selnium不好用的时候,还有selnium-wire,undetected_chromedriver等轮子可以用。

请求参数里有搜索关键词和页码,修改请求的page就可以了,每次返回20条笔记,一些限制不严格的平台就可以直接把pagesize改了返回大量数据,一般有点技术的公司都会做限制只能更改page,小红书没测试估计是不能改每页返回数的。

返回的标准json如下:

层层解析json,就可以得到每一条笔记的发布者信息、笔记标题、封面预览图、笔记内所有照片图

至此可以得到某个关键词的笔记情况,然后再深入这条笔记,可以获取这条笔记的文字内容、评价详情,这里根据观察是另一个接口,依旧是标准post请求的json返回,名为feed的接口

https://edith.xiaohongshu.com/api/sns/web/v1/feed

这些都是前后端分离的接口,实在太友好了,还是标准json,直接解析即用,比大众点评好采多了。

评价数据是以下这个接口,传入前面已经获取的该条笔记的id即可

https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id=6699e7480000000025015fd5&cursor=&top_comment_id=&image_formats=jpg,webp,avif  

至此,小红书笔记采集主要的三个接口:关键词搜索结果,笔记详情内容、笔记评价数据,都一览无余。

接各种数据采集、数据治理、业务自动化脚本。已有大众点评、高德poi等多种解决方案。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com