多个数据采集组滥用Facebook链接预览功能,伪装成Facebook的内容爬虫,从互联网网站上获取数据。
这项技术包括使用Facebook开发人员帐户来调用Facebook或Facebook Messenger API服务器,请求一个组要抓取的页面的链接预览。
Facebook将获取数据,在链接预览中进行组装,并将其作为API响应返回给数据清理程序,随时可以被吸收到Scraper的数据库中。
这项技术是成功的,因为大多数网站运营商都允许Facebook服务器对其网站进行爬网,知道Facebook从他们的页面收集的数据通常用于合法目的,作为社交网络、Facebook Messenger、WhatsApp的链接预览的一部分,或Instagram。
DataDome表示,它发现多个团体在多个网站上滥用该技术,但最初的检测还是开始了它的一个客户网络,一个分类广告门户。
“我们的启发式分析发现,某些不太可能被人类使用的参数,在Facebook请求的url中所占比例过高,DataDome解释道。
这包括机密网站上用户通常不会经常在Facebook上共享的页面的URL,比如搜索结果页面——这是一个绝妙的赠品,有人在为最近的条目从分类广告网站上获取信息。
DataDome团队进行的测试证实了该技术的有效性发现数据采集组可能会滥用这一功能,从一个Facebook开发者帐户中以高达10000个URL/h的速度检索链接预览。
这家法国安全公司表示,它在今年早些时候将攻击通知了Facebook。
“Facebook现在已经改进了Messenger预览API的速率限制。正如我们的测试(以及某些黑客论坛的讨论)所证实的那样,这有效地防止了预览功能继续被用于抓取目的,”安全公司说。
Facebook发言人确认了抓取操作和API修复,但该公司并没有在DataDome的报告中添加任何内容。