小红书再一次升级爬虫算法,舆情监测软件厂商该何去何从?
近期,小编接到了很多客户反馈,小红书这个月采集到的数据量跟上个月想比,差了十万八千里,上个月平均每天小红书监测到的数据量有1万多条每天,但是这个月他们公司监测的关键词,小红书数据量每天只有几千条一天,足足少了好几倍,他们都不好跟老板交差。这个是很多客户的抱怨,不仅仅是一个客户的抱怨。他们都有这样的心声,他们也很无奈,我们也很无奈,因为这个情况是大部分舆情监测客户都会遇到,而且各大舆情监测软件厂商都会遇到的情况。目前没有更好的解决方案,也没有更好的替代产品,大家都在承受小红书的反爬虫算法。如果这个问题需要彻底解决,必须要拿到小红书公司授权的API接口数据,据小编了解到的,目前小红书没有授权给任何一家公司API接口数据。
小红书最近一次升级的爬虫算法到底是怎么一回事呢?因为小红书知道,舆情监测软件厂商的爬虫大部分都是通过电脑虚拟机登录小红书网页版本账号的模式去爬他们的数据,因为这种模式是最高效,性价比最高的模式,而且小红书主要的用户群体都在用小红书APP,针对这种情况,小红书就彻底断了电脑虚拟机模式爬他们数据的想法,只要电脑登录小红书,搜索打开页面的次数达到一定的阈值,就要提示输入短信验证码,小红书手机APP扫码,正常一个人用电脑小红书都无法接受这样的提示,更何况是爬虫,他们要控制几百个小红书账号。根本没有办法实现这个功能。这就是为什么很长一段时间大家都没有攻破这次小红书的发爬虫。
目前小红书反爬虫技术,在国内还是遥遥领先其他网站,据小编了解,国内80%以上爬小红书数据的舆情监测软件厂商都放弃了这个网站。他们在采用外采API接口数据的方式来弥补自身小红书数据的不足。也就是所谓的行业抱团买小红书数据,一个舆情监测软件厂商发力去采集小红书的数据。