小红书舆情监测的新方法:人设机训练
人设机训练就是:因为小红书有千人千面的问题,不同手机搜索相同关键词看到的数据是不一样的,如果单纯一个账号常规方式去搜索一个品牌相关的信息是搜索不全的。小红书只会推送账号作者感兴趣的内容给账号作者,其它很多信息都不会推送,就拿“公司”这个关键词来说,一天小红书上面信息几十万条,你一个账号搜索公司,小红书最多给你推送几百条,其它的都不会推送。但是如果做了人设机训练,比如模拟一个喜欢品牌的账号,然后再通过这个帐号去搜索采集数据,就会推送很多跟这个品牌相关的内容,这样就可以尽可能采集更多的内容,漏掉相对较少的信息。用这种方法只能提高采集的概率,但是要做到100%采集还是非常非常难的。
目前小红书采集最大的困难点还是需要海量的小红书账号,而且是真号,而不是僵死号,因为小红书近期严打僵死号,水军号,封掉了海量的水军号,僵死号,而且还会定期清理僵死号,这个就是严重影响舆情监测软件爬虫抓小红书数据的主要原因。目前有很多供应商在做小红书账号的出售工作,但是他们出售的账号很不稳定,经常容易被封,这就是为什么目前爬虫爬到的数据非常不稳定,这个稳定性还跟小红书账号供应商有很大的关系。