服务热线:400-0033-166
万商云集 - 企业数字化选用平台

企业首选的

数字选用平台

百度针对特定索引页类型采取的特定手段

2020-12-23 17:13:04 阅读(159 评论(0)

一、背景  Spider位于搜索引擎数据流的最上游,负责将互联网上的资源收集到当地,并提供给后续的搜索,是搜索引擎的主要数据来源之一。spider系统的目标是在互联网上找到和掌握所有有价值的网页。为了实现这一目标,首先是找到有价值的网页链接。目前,spider有多种链接发现机制,以尽快找到资源链接。本文主要描述了特定索引页面的链接补充机制之一,并对这种特定类型的索引页面提出了建议和处理规范,以优化包含效果。一些事  目前,大多数互联网网站以索引页面和翻页的形式组织网站资源。当新资源增加时,旧资源将转移到翻页系列。   如下图所示:yixieshi  图2是18小时后网页翻页系列第四页的内容,在此期间增加了三页以上的资源。图1中红色矩阵圈到的资源在18小时后有序地转移到第四页的红色方块。  图表218小时后的第四页    对于spider来说,这种特定类型的索引页面是发现资源链接的有效渠道。然而,由于spider定期检查这些页面以获得新的资源链接,检查周期不可避免地与资源链接发布周期不同(spider将尝试探索页面的发布周期,以合理的频率检查页面)。当周期不同时,资源链接很可能被推入翻页序列,因此spider需要对这种特殊类型的翻页系列进行翻页补充,以确保资源的完整性。  二、主要思路  本文主要讨论了该资源根据发布时间有序排列的网页,即新发布的资源排列在页面的第一页(或页面的最后一页),以及旧资源有序推移的索引页面的补充机制。主要思路是将整个翻页系列的网页视为一个整体,全面判断它们的捕获状态,记录每个捕获页面发现的资源链接,然后将发现的资源链接与历史上发现的资源链接进行比较。如果有交叉点,则意味着所有新的资源都是在这次捕获中发现的;否则,这意味着在这次捕获中没有发现所有新的资源。我们需要继续捕获下一页甚至下一页,以找到所有新的资源。  2.1资源链接是否按时间排序  判断资源是否按发布时间排列是此类页面的必要条件,那么如何判断资源是否按发布时间排列呢?如上图1所示,一些页面中的每个资源链接都遵循相应的发布时间。通过资源链接对应的时间集合,判断时间集合是否按大到小或小到大排序。如果是这样,则表明网页中的资源按发布时间有序排列,反之亦然。如上图1所示,一些页面中的每个资源链接都遵循相应的发布时间。通过资源链接对应的时间集合,判断时间集合是否按大到小或小到大排序。如果是这样,则表明网页中的资源按发布时间有序排列,反之亦然。图1中资源从上到下对应的时间越来越小,即资源按发布时间有序排列。yixieshi  还有一种网页,如下图3所示,网页内容中有多种排序方式,如销量、价格、评论数、上架时间等。通过识别和提取当前的排序模式,然后判断当前的排序模式是否按时间排序。如果是,则表明网页中的资源按发布时间有序排列,反之亦然。图3中的排序模式是按上架时间排序,属于时间排序模式,因此网页发布的资源是按发布时间有序排序的。  此外,还将根据资源链接收回后提取的发布时间进行综合判断。  图3索引页yixieshiies多种排序方式。  2.2补全机制  索引页系列的资源链接如何保证新发布的资源按发布时间有序排列?正如上面提到的,18小时后,图1中的资源链接已经有序地转移到页面的第四页。这样,在此期间,第二页、第三页和第四页索引的资源链接将被添加,因此spider需要完全包含这些新资源;  首先,当spider在18小时后抓取第一页时,收集新发现的资源链接,与上次18小时前第一页索引页调度记录的资源链接集合作相比,会发现两次调度发现的资源链接没有交集,可能会出现漏链。然后我们需要继续启动第二页的调度。第二页发现的资源链接集仍然没有交叉点,因此可能存在漏链。继续启动第三页和第四页的调度。最后,如图2所示,红色框中的链接与上次索引页调度记录的资源链接相交。因此,可以得出结论,在此期间,新资源已经完成,从而结束了翻页系列的调度,并确保了翻页系列的所有链接。从而提高搜索产品的收录效果。互联网上的一些事情  2.3翻页条的识别与翻页条对应的链接序列块的识别  为了达到上述效果,除了识别页面系列的排序方法是否按时间排序外,还需要识别索引页面中的页面条及其相应的链接块。  由于没有页面识别,spider系统不可能绑定页面序列的所有链接,整体考虑其状态,因此调度捕获结果是随机的,不能保证完成效果,目前通过页面的一系列特征,通过机器学习方法识别页面块和页面深度,以及上一页、下一页的链接,为上述完成机制提供基本数据。  另一方面,即使有页面识别,没有相应的链接块识别,上述完成机制仍然不能工作,因为上述机制需要比较发现的链接集来确定终止条件,因此也需要识别页面条对应的链接块,以提供页面终止条件。  另一方面,即使有页面识别,没有相应的链接块识别,上述完成机制仍然不能工作,因为上述机制需要比较发现的链接集来确定终止条件,因此也需要识别页面条对应的链接块,以提供页面终止条件。  在特殊情况下,一个网页可能包含多个翻页条,这需要翻页条与链接块对应。  三、建议的方法和标准  目前百度spider系统会根据实际情况对网页的类型、网页中翻页条的位置、翻页条对应的索引列表、列表是否按时间排序做出相应的判断和处理,但机器的自动判断方法毕竟不能达到100%的识别精度。因此,如果网站管理员能够在页面上添加一些百度推荐的标签来标记相应的功能区域,它可以大大提高我们识别的准确性,从而提高网站资源搜索系统的即时性,从而提高网站的包含效果。互联网上的一些事情  Spider链接补充了目前最关心的是网页的搜索链接列表中与搜索链接列表对应的块,因此可以通过块元素(如div,ul)class属性为百度spider识别标记相应的特征,建议使用以下属性来标记:互联网上的一些事情  表1支持CLASS扩展属性互联网的一些事情  例如,百度新闻页面可以这样设置:互联网上的一些事情  可以设置class属性Baidu_对应于翻页条的区块元素ppaging_indicator,div对应于该页面对应的主链接的区块元素,设置Baidu___________________paging_content_indicatorOrderby_posttime,这样,翻页条与相应的链接块相对应,并通知百度根据发布时间进行排序,以优化spider系统的捕获行为,提高网站的收集效果。一些事  四、总结  除了上述链接发现方法外,百度抓取系统还有许多其他手段来确保有价值网站的包含覆盖率。上述方法只是针对特定索引页面类型的特定手段,互联网站长可以参考使用。站长也可以通过spider站长平台了解如何获得更快更好的网站收录效果,比如通过sitemap协议直接推送链接。

内容来源:百度,以上内容来源于网络,不代表本站观点,如有侵权,请联系删除。

推荐阅读

5款热门手机监控软件盘点,照看老人监控超方便!

目前国内的人口老龄化问题不断加剧,而年轻群体不断向大城市涌入,对于很多人来说家里的老人可能都是在老家生活,而子女又不能在身边陪伴,如果出现一些紧急情况又无法及时处理怎么办?很多年轻人选择通过手机监控的方式来时刻查看家里老人的动态,避免一些危…查看详情

看泰剧用什么软件呢?这些软件为大家推荐

在闲暇的时候,很多人都比较喜欢看泰剧,但是如果没有选对软件的话,可能也会受到限制。其实大家不妨选择,针对于看泰剧所使用的软件,这样能够让大家轻松的找到自己喜欢的泰剧,那么看泰剧用什么软件呢?这这些软件为大家推荐,一起来了解吧。 …查看详情

误删微信好友怎么恢复?

苹果手机微信删除了的好友怎么恢复?登入微信。在微信主界面底部点击“微信”。所有的聊天记录都在,里面包含了与好友的聊天记录列表。 点击一个好友,打开对应的备份文件夹,正常都是一堆数字和字母组成文件名的文件夹。进入后,找到“voice”文件夹…查看详情

域名停放是什么意思

  域名停放是指将未使用或暂时没有使用的域名(即没有网站或网站不可访问)指向一个有广告或推广信息的网站,以便通过这些广告或推广信息来获得收益。这种方式被称为“域名停放”或“域名占用”。  通常,域名停放是由域名注册商或域名交易平台提供的一项…查看详情

出纳用什么财务软件比较好?

每个公司在招聘职位的时候都是有出纳这个职位的,出纳主要管的是公司的一些财务问题,包括员工的工资或者是员工的罚款问题,都是管的,那么出纳用什么财务软件比较好呢,这个大家是需要提前了解到的。 1、柠檬云财税 是一款功能完善的免费…查看详情

微信电商小程序开发 | 它的配套组成部分以及价格

微信电商小程序开发怎么做?有哪些组成部分?各价格是多少?想必这是大多有微信电商小程序开发需求的企业都尤为关注的问题。图片来源于网络 微信电商小程序开发配套组成部分及价格:◤ 1. 域名我们在小程序中看到的商品图片,都需要通过在后台操作进行…查看详情

plm系统功能介绍,国内知名plm厂商对比

信息化时代,信息化企业管理越来越受到企业决策者的重视,PLM系统的实施和部署在整个信息化管理流程中占非常重要的地位,本文总结了一些plm系统功能介绍和部分国内知名plm厂商对比分析干货,有需求的朋友可收藏。 什么是plm系统? PLM的英文…查看详情

桂林十大特产是什么

  桂林是中国的旅游胜地,在这里不仅有美丽的山水风景,还有丰富的文化底蕴和美味的当地特色美食。桂林的特产不仅种类繁多,而且口味独特,深受游客和当地人的喜爱。以下是桂林十大特产的详细描述,希望能为大家带来一些帮助。  1.桂林米粉  桂林米粉…查看详情

电商网络推广怎么做?电商维持蓄客的最佳手段

网络是伴随着信息技术的发展而发展的。网络技术的发展和应用改变了经济体系中信息的分配和接受方式,改变了人生活、工作、学习、合作和交流的环境。然而络营销作为新的营销方式和营销手段实现企业营销目标。所以电商网络推广是非常重要的,电商网络推广怎么做…查看详情

tm和r商标的区别是什么?tm和r商标有什么区别?

在注册商标的时候会出现两种,一种是tm,一种是r商标。不懂的人可能就不知道这两者之间的区别。如果想要更好的注册商标,那么这两者之间的区别是一定要知道的,那么tm和r商标的区别是什么呢?下面就来详细的了解一下这个问题。1、含义不一样tm的商标…查看详情

免费派单系统大全,派单系统平台怎么选?

全球经济在疫情的笼罩下受阻,线上需求与日俱增,不难看出其不小的潜力。随着后疫情时代的到来,线下传统行业逐步升温,消费需求迅速释放,派单系统的需求量逐渐递增,派单系统平台怎么选?这份免费派单系统大全一定能对你有所帮助。 1. 销售易免费派单系…查看详情

图片编辑软件哪些比较好用?好用的图片编辑软件推荐

很多人都特别喜欢拍照或者是收藏一些比较好看的图片,但是有些图片可能清晰度不够或者是图片的上面会有水印,这个时候就需要进行图片编辑。其实想要打造出更理想的图片效果,可以选择到比较好用的图片编辑软件,但是图片编辑软件比较多,很多人都…查看详情

笔记本软件如何选?推荐这几款

现在的人们,已经慢慢的放弃使用纸质的笔记本了,更多的开始选择一些笔记本软件,来记录事情,或者是写各种学习的笔记和工作的笔记等等,但是在选择笔记本软件的时候,一定要注意根据自己的需求,那么笔记本软件如何选择呢?推荐这几款,一起来了…查看详情

无货源网店真的能赚钱吗

  无货源网店指的是在不需要购买和存储自己的产品的前提下,通过自建网店进行产品销售的模式。这种模式的出现,在一定程度上解决了传统实体店经营所面临的资金压力和库存管理等难题,大大降低了创业门槛,吸引了越来越多的创业者。但是,在无货源网店中真的…查看详情

哪儿可以注册商标?这些知识你要了解

哪儿可以注册商标?近期,商标时不时爆出大新闻,许多之前不曾了解商标的企业、个人都开始关注起来商标了,也开始明白了对企业而言,商标十分重要。它是企业打造品牌的基础,也是企业产品的一个保障。许多企业、个人也会开始好奇道,商标如何注册呢?商标在哪…查看详情

最新文章