察言观社｜向恶意爬虫说“不”

摘要

一些内容聚合类网站、微信公众号，本身并不生产内容，却借由爬虫技术从其他媒体抓取大量内容产品，风头盖过不少原创媒体

在近日于上海举行的长三角数据合规论坛（第三期）暨数据爬虫的法律规制研讨会上，爬虫技术应用的合法性引起讨论。

今天，人们对爬虫技术的应用并不陌生。通过搜索引擎搜到的结果，就是搜索引擎通过爬虫技术从其他网站获取的；一些内容聚合类网站、微信公众号，本身并不生产内容，却借由爬虫技术从其他媒体抓取大量内容产品，风头盖过不少原创媒体；很多媒体人都有稿子被悄无声息地“爬”走的经历，以致会在一个自己都没想到的地方碰到自己的作品。

前述研讨会聚焦的爬虫技术应用中出现的一些问题，确实到了非治不可的程度。比如，一些网站通过爬虫协议，明确警示搜索引擎哪些页面可以爬取，哪些页面不能爬取，但恶意爬虫在爬取时不遵守这一协议，爬取到了不该爬的数据；有的网站出于自身运营安全考虑而拒绝爬虫访问，但非正规爬虫却能自动持续且高频地访问这些网站，造成服务器负载飙升，网站打不开、网页加载缓慢甚至直接瘫痪。

作为一个内容生产者，如笔者，无疑会关注爬虫技术应用的合法性。因为很多爬虫“爬取”的范围已经超出了《著作权法》规定的可以不经著作权人许可而使用的一般时事新闻，而是不当延伸到了一些媒体人劳心费神甚至苦心孤诣写出来的作品，视著作权以及这种权利背后的辛苦劳动于无物。对内容生产者来说，规制非法爬取数据行为的讨论和立法都很有价值。

对内容生产者来说，向恶意爬虫说“不”，先得有底气。这种底气，不单指依靠法律救济被侵犯的著作权的决心，更是指对优质内容产品能够产生价值的自信。近年来，已有内容生产者明确提出转载其作品必须付费，还有媒体就有的网站未经允许私自转载其作品而提起诉讼。但这么做的内容生产主体还不多，其中原因比较复杂，但有一点是对自身内容产品的价值缺乏自信。

如果内容产品质量本身不高，内容生产者即便对恶意爬虫说“不”，也只可能一次性获得赔偿，还可能会因此少了很多转载渠道，难免底气不足。只有具备持续生产优质内容产品的能力，凭优质内容实现引流、变现，才有充足底气向恶意爬虫说“不”。对个人或媒体来说，道理都是一样。

（原标题《向恶意爬虫说“不”》）