雅虎宣布开源了自家的网页爬虫工具 —— Anthelion。Anthelion 是雅虎用来爬取 HTML 中的语法结构数据的网络爬虫。然而对于雅虎来说,网络爬虫其实一直是处于非常核心的位置。其地位甚至高于雅虎的许多其他的核心应用,比如 Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr, 和 Tumblr 等。 毫无疑问,Anthelion 的开源对雅虎在 web 搜索领域的竞争力提升意义重大。
去年在上海的一次会议中,雅虎就公布了 Anthelion 的很多细节,会议中提到,Anthelion最初致力于爬取嵌入HTML网页中的语义数据。例如:microdata 、microformats 和 RDFa 等。在这次会议上同时还提到了很多关于 Anthelion 爬虫实现的技术。
暂无信息
地址:广东省惠州市惠城区东平半岛惠州大道20号赛格大厦1608号
电话:0752-2072178 传真:0752-2072168-0 邮箱:gdoudi@chungsuk.com广东欧迪科技有限公司 版权所有
Copyright ©2020 Guangdong Oudi Technology Corporation All Rights Reserved.
粤ICP备16018732号-1