百度搜索引擎网页质量白皮书

作者:鼎极网络发布日期:2019-11-12浏览次数:9

  网页质量是一个网页满足用户需求能力的衡量,是搜索引擎确定结果排序的重要依据。在网页资源内容与用户需求有相关性的基础上,内容是否完整、页面是否美观、对用户是否友好、来源是否权威专业等因素,共同决定着网页质量的高低。

  对于搜索引擎来说,给用户呈现的网页质量直接影响了终的搜索效果和用户的需求满足;而对于广大的站长来说,整体网页质量的提高有助于在搜索引擎中获得良好的排序和展现,从而吸引更多用户,获得更多流量。

  百度搜索综合用户对不同网页的实际感受,制定了一套评判网页质量的标准,基于这个标准,在百度搜索的收录、排序、展现环境进行调整,给高质量的网页更多的收录、展现机会,同时对一些影响用户体验、欺骗搜索引擎的恶劣低质网页进行打压。

  目前互联网上的网页,仅有7%可以达到高质量标准,百度作为大的中文搜索引擎,希望从互联网生态角度出发,跟站长们一起努力建立良好的互联网生态圈,地为网民服务,也让内容优质的网站得到的发展。

  此外,搜索引擎之前相对封闭,一直以来,站长需要通过不断的摸索发现搜索引擎对网页的判断标准,指导站点内容的建设。此次推出《网页质量白皮书》,目的是开放百度在网页质量方面的判断标准,给站长提供参考,希望有更多、质的内容产生,满足搜索引擎用户的需求,同时为站长带来流量,实现共赢。

  衡量网页质量的维度

  百度搜索引擎在衡量网页质量时,会从以下三个维度综合考虑给出一个质量打分。下面会一一介绍这些影响网页质量判断的维度特征:

  • 内容质量

  • 浏览体验

  • 可访问性

  一个访问流畅,内容质量高且浏览体验好的网页具有较高的质量;反之,任何一个维度出现问题,都会影响网页的整体质量。下面我们具体介绍下这三个维度。

  衡量网页质量的维度——内容质量

  网页主体内容是网页的价值所在,是满足用户需求的前提基础。百度搜索引擎评价网页内容质量主要看其主体内容的好坏,以及主体内容是否可以让用户满意。 不同类型网页的主体内容不同,百度搜索引擎判断不同网页的内容价值时,需要关注的点也有区别,如:

  • 首页:导航链接和内容是否清晰、有效。

  • 文章页:能否提供清晰完整的内容,图文并茂。

  • 商品页:是否提供了完整真实的商品信息和有效的购买入口。

  • 问答页:是否提供了有参考价值的答案。

  • 下载页:是否提供下载入口,是否有权限限制,资源是否有效。

  • 文档页:是否可供用户阅读,是否有权限限制。

  • 搜索结果页:搜索出来的结果是否与标题相关。

  百度搜索引擎考量网页内容质量的维度非常多,为重要的是:成本;内容完整;信息真实有效以及安全。下面我们通过举例来感受一下百度搜索引擎是如何对网页的内容质量进行分类的,请站长对比自己站点的页面,站在搜索引擎和用户的角度为自己打分:

  1、内容质量好:

  百度搜索引擎认为内容质量好的网页,花费了较多时间和精力编辑,倾注了编者的经验和专业知识;内容清晰、完整且丰富;资源有效且优质;信息真实有效;安全无毒;不含任何作弊行为和意图,对用户有较强的正收益。对这部分网页,百度搜索引擎会提高其展现在用户面前的机率。例如:

  • 专业医疗机构发布的内容丰富的医疗专题页面;

  • 工程师发布的完整解决某个技术问题的专业文章;

  • 专业视频网站上,播放清晰流畅的正版电影或影视全集页面;

  • 知名B2C网站上,一个完整有效的商品购买页;

  • 权威新闻站原创或经过编辑整理的热点新闻报道;

  • 经过网友认真编辑,内容丰富的词条;

  • 问答网站内,回答的内容可以完美解决提问者的问题。

  实例参考:

示例内容质量说明
case 3.1.1-1专业医疗网站发布的丰富医疗专题页面
case 3.1.1-2工程师发布的完整解决某个技术问题的专业文章
case 3.1.1-3专业视频网站上,播放清晰流畅的正版影视全集页面
case 3.1.1-4京东的一个完整有效的商品购买页
case 3.1.1-5权威新闻站原创的热点新闻的报道
case 3.1.1-6经过网友认真编辑,内容丰富的百科词条
case3.1.1-7百度知道上,完美解决用户问题的问答页

  2、内容质量中:

  内容质量中等的网页往往能满足用户需求,但未花费较多时间和精力进行制作编辑,不能体现出编者的经验和专业知识;内容完整但并不丰富;资源有效但质量欠佳;信息虽真实有效但属采集得来;安全无毒;不含作弊行为和意图。在互联网中,中等质量网页其实是一个比较大的数量集合,种类面貌也繁杂多样,百度搜索引擎在评价这类网页时往往还要考虑其它非常多因素。在这里,我们仅部分举例来让各位感受一下:

  • 论坛类网站里一个普通的帖子;

  • 一个普通的问答网页;

  • 没有进行任何编辑,直接转载其它网站的新闻;

  • 无版权信息的普通电影播放页

  • 采集知名小说网站的盗版小说页。

  实例参考:

示例内容质量说明
case 3.1.2-1网易直接转载了中国新闻网的一篇新闻。
case 3.1.2-2文库上网友上传的“国庆放假安排”新闻
case 3.1.2-3采集起点小说网的盗版小说站
case 3.1.2-4百度贴吧里一个普通的帖子

  3、内容质量差:

  百度搜索引擎认为主体内容信息量较少,或无有效信息、信息失效过期的都属于内容质量差网页,对用户没有什么实质性的帮助,应该减少其展现的机会。同时,如果一个网站内该类网页的占比过大,也会影响百度搜索引擎对站点的评级,尤其是UGC网站、电商网站、黄页网站要尤其重视对过期、失效网页的管理。例如:

  • 已下架的商品页,或已过期的团购页;

  • 已过有效期的招聘、交易页面;

  • 资源已失效,如视频已删除、软件下载后无法使用等。

  4、没有内容质量可言:

  没有内容质量可言的网页指那些制作成本很低,粗制滥造;从别处采集来的内容未经起码的编辑整理即放置线上;挂木马等病毒;含有作弊行为或意图;完全不能满足用户需求,甚至含有欺骗内容的网页。例如:

  • 内容空短,有很少量的内容,却不能支撑页面的主要意图;

  • 问答页有问无答,或回答完全不能解决问题;

  • 站内搜索结果页,但没有给出相关信息

  除上述网页外,欺骗用户和搜索引擎的网页在无内容质量可言集合里占很高比例。百度搜索引擎对作弊网页的定义是:不以满足用户需求为目的,通过不正当手段欺骗用户和搜索引擎从而获利的网页。目前互联网上这部分网页还属少数,但作弊网页的价值是负向的,对用户的伤害非常大,对这类网页,搜索引擎持坚决打击态度。

  衡量网页质量的维度——浏览体验

  不同质量的网页带给用户的浏览体验会有很大差距,一个优质的网页给用户的浏览体验应该是正向的。用户希望看到干净、易阅读的网页,排版混乱、广告过多会影响用户对网页主体内容的获取。在百度搜索引擎网页质量体系中,用户对网页主体内容的获取成本与浏览体验呈反比,即获取成本越高,浏览体验越低。面对内容质量相近的网页,浏览体验佳者更容易获得的排位,而对于浏览体验差的网页,百度搜索引擎会视情况降低其展现的机率甚至拒绝收录。

  影响用户浏览体验好坏的因素很多,目前百度搜索引擎主要从内容排版、广告影响两方面对网页进行考量:

  内容排版:用户进入网页眼看到的就是内容排版,排版决定了用户对网页的印象,也决定了用户对内容获取的成本。

  广告影响:百度搜索引擎理解网站的生存发展需要资金支持,对网页上放置正当广告持支持态度。网页应该以满足用户需求为主旨,佳状态即“主体内容与广告一起满足用户需求,内容为主,广告为辅”,而不应让广告成为网页主体。

  下面我们通过举例来感受一下百度搜索引擎是如何对网页的浏览体验进行分类的,站长可以据此对比检验自己站点的浏览体验如何:

  1、浏览体验好:

  页面布局合理,用户获取主体内容成本低,一般具有以下特征:

  • 排版合理,版式美观,易于阅读和浏览;

  • 用户需要的内容占据网页重要位置;

  • 能够通过页面标签或页面布局十分清楚地区分出哪些是广告;

  • 广告不抢占主体内容位置,不阻碍用户对主要内容的获取;

  实例参考:

示例浏览体验说明
case 3.2.1-1招聘、房产等网站首页也有很多广告,但都是招聘相关的,浏览体验是ok的。
case 3.2.1-2文章页,页面布局合理,无广告,排版好,结构合理
case 3.2.1-3游戏首页,排版美观,布局合理,无广告,浏览体验优

  2、浏览体验差:

  页面布局和广告放置影响了用户对主体内容的获取,提高了用户获取信息的成本,令用户反感。包括但不仅限于以下情况:

  • 正文内容不换行或不分段,用户阅读困难;

  • 字体和背景颜色相近,内容辨别困难;

  • 页面布局不合理,网页首屏看不到任何有价值的主体内容;

  • 广告遮挡主体内容;或者在通用分辨率下,首屏都是广告,看不到主体内容;

  • 弹窗广告过多;

  • 影响阅读的浮动广告过多

  • 点击链接时,出现预期之外的弹窗;

  • 广告与内容混淆,不易区分;

  衡量网页质量的维度——可访问性

  用户希望快速地从搜索引擎获取到需要的信息,百度搜索引擎尽可能为用户提供能一次性直接获取所有信息的网页结果。百度搜索引擎认为不能直接获取到主体内容的网页对用户是不友好的,会视情况调整其展现机率。

  百度搜索引擎会从正常打开、权限限制、有效性三方面判断网页的可访问性,对于可以正常访问的网页,可以参与正常排序;对于有权限限制的网页,再通过其它维度对其进行观察;对于失效网页,会降权其展现机制甚至从数据库中删除。

  1、可正常访问的网页

  无权限限制,能直接访问所有主体内容的网页。

  2、有权限限制的网页

  此类网页分为两种:打开权限和资源获取权限

  1)打开权限:指打开网页都需要登录权限,没有权限完全无法看到具体内容,普通用户无法获取或获取成本很高,百度搜索引擎会降低其展现机率。不包括以登录为主要功能的网页。

  2)资源获取权限:指获取网页主要内容,如文档、软件、视频等,需要权限或者需要安装插件才能获得完整内容。此时会分三种情况:

  • 提供优质、正版内容的网站,由于内容建设成本很高,尽管查看全文或下载时需要权限或安装插件,但属于用户预期之内,百度搜索引擎也不认为权限行为对用户造成伤害,给予与正常可访问页面相同的对待。

  • 对于一些非优质、非正版的资源,来自于用户转载甚至机器采集,本身成本较低,内容也不独特,用户获取资源还有权限限制——需要用户注册登录或者付费查看,百度搜索引擎会根据具体情况决定是否调整其展现。

  • 还有一些视频、下载资源页,也许自身资源质量并不差,但需要安装非常冷门的插件才能正常访问,比如要求安装“xx大片播放器”,百度搜索引擎会怀疑其有恶意倾向。

  实例参考:

示例可访问性说明
case 3.2-1CNKI上的一篇论文,收费才能下载,但有版权,浏览体验好
case 3.2-2优酷上一部新电影,需要付费才能观看,浏览体验好。
case 3.2-3内容是copy来,但是需要登录才能看更多
case 3.2-4入党申请书,本身就是转载的,网上到处都是,但这个页面仍然要求收费才能下载。

  3、失效网页

  往往指死链和主体资源失效的网页。百度搜索引擎认为这部分网页无法提供有价值信息,如果站点中此类网页过多,也会影响百度搜索引擎对其的收录和评级。建议站长对此类网页进行相应设置,并及时登录百度站长平台,使用死链提交工具告知百度搜索引擎。

  失效网页包括但不仅限于:

  • 404、403、503等网页;

  • 程序代码报错网页;

  • 打开后提示内容被删除,或因内容已不存在跳转到首页的网页;

  • 被删除内容的论坛帖子,被删除的视频页面(多出现在UGC站点)

  互联网网页资源现状

  CNNIC2014年年初发布的《中国互联网络发展状况统计报告》中称:截至2013年12月,中国网页数据为1500亿,相比2012年同期增长了22.2%。2013年中国单个网站的平均网页数和单个网页的平均字节数均维持增长,显示出中国互联网上的内容更为丰富:平均网站的网页数达到4.69万个,较去年同期增长2.3%。

  为了搜索质量、提高用户使用满意度,百度搜索引擎每周都会进行网页质量抽样评估。然而从近一年的评估数据中我们发现,优质网页的数量非常少,且几乎没有增长;普通网页的占比在下降,相应的,质差网页的比例却有明显上涨。截至2014年5月,统计数据显示,在百度网页搜索发现的海量网页中,优质网页仅占7.4%,质差网页高达21%,其余普通网页为71.6%。

  百度网页搜索通过一系列筛选、识别、分析、赋权等工作,努力将更多优质网页呈现在用户面前,每天约打击上万质量差网站,涉及网页达百万量级,尽可能减少质量差网页给用户带来的干扰。从下图2014年5月的网页展现分析数据显示,目前展现在用户面前的网页质量分布中,优质网页占比为40%,质量差网页降为11%——虽然这个变化已经非常明显,但百度网页搜索还是希望能和广大站长一起努力,将质量差占比降到。  




互联网全部网页


在百度搜索得到展现的网页

优质网页


7.40%


41%

普通网页


关键词:

  1) B2B:Business to Business.

  2) B2C:Business to Consumer

  3) C2C:Consumer to Consumer

  4) back link 即反向链接.常规链接在源文档内部进行声明和显示,而反向链接则在目的文档内部进行声明.如果B网站指向 A 网站,那么B网站就是都属于A 网站的反向链接.

  5) black hat:黑帽,简单的讲就是 SEO作弊

  6) bounce rate 就是一个跳出率,当一个用户进入一个网页,接着在一个会话时间内没有看过该站其他的页面就分开了该网站,就被称作Bounce。请注 意这里有两个参数,一个是是否点击浏览其他的页面,第二个就是哪个会话时间段。 这个Bounce Rate越低越好,说明用户访问了更多的页面。而且这个Bounce Rate已经是网站流量统计的一个通用标准,一般及格的流量统计都有。

  7) bread crumbs “面包屑型”架构让用户对他们所访问的此页与彼页在层次结构上的关系一目了然。这种网站结构的其中一个明显的特性体现莫过于返回导览功能。

  8) Canonical Issues (内容重复的一种) 所谓 Canonical Issues,主要指网站的主访问路径,如果网站存在多种访问方式,搜索引擎会取舍一种其认为佳的方式确定为“权威地址”,比如说,对大多数网站而言,其主页可以用以下三种 URL访问:

  9) click fraud 欺骗点击是发布者或者他的同伴对PPC广告进行恶意点击,因而来得到相关广告费用.欺骗点击降低了客户对广告商的信任.

  10) cloak 隐藏作弊 为了让你的网页被索引而采用一些专门针对搜索引擎的伎俩而不是着眼你的用户。比如隐藏一些不相关的关键词在你的页面,虽然访问者看不见但搜索引擎可以发现。Cloak 实际上是这么一个程序或者脚本:它查看 HTTP 头的内容,比如 IP 地址,User-Agent,URL 来决定显示不同内容给访问者。

  11) CMS Content Management System 内容管理系统,主要用于文章发布的系统.

  12) CPC Cost Per Click 即 以每点击一次计费。这样的办法加上点击率限制可以〖WX)〗加强EMU 的难度,而且是宣传网站站点的优方式。

  13) CPM Cost Per Thousand impressions (每千人成本)广告显示 1000次所应付的费用。

  14) crawler (同bot, spider) "蜘蛛"是通过链接结构在互联网中爬行来收集数据.

  15) duplicate content "重复内容"是一个页面的内容和互联网中另一个页面相同或非常相似.

  16) Feed 本意是“饲料、饲养、(新闻的)广播等”,RSS 订阅的过程中会用到的“Feed”,便是在这个意义上进行引申,表示这是用来接收该信息来源更新的接口.可以理解为,你的Blog页面是给人读的,而Feed 是给程序读的。

  17) frames "框架" 当我 们在浏览一个应用 Frames设计的网页,我们其实是在浏览至少三个文件。这些文件被编译到一 起,使它们看起来是一个文件。

  18) HTML 超文本标记语言(Hyper Text Markup Language)很简单,它就是编写网页的语言之一.

  19) in bound link (inlink, incoming link) 可直译为“来自外部网站的链接”,也就是我们通常所说的一个网站“被其他网站链接的数量”,

  20) indexed Pages "索引页"就是被搜索引擎索引的页面.

  21) inlink (incoming link, inbound link) 导入链接 指其他网站连到本网站的链接。

  22) keyword 关键字 是指您要作搜索引擎排名的词.

  23) keyword cannibalization 关键字拆解 就是在一个站点许多页面过度应用同一关键字,导致用户和搜索引擎难以分辩那个是这个关键字相关的页面.

  24) keyword spam (keyword stuffing) 关键字堆砌 为了晋升,目的关键字排名增加关键字的密度.

  25) keyword stuffing (keyword spam) 关键字堆砌 为了提升,目的关键字排名增加关键字的密度

  26) landing page 登陆页面 是指用户在搜索引擎结果页里点击进入的页面.

  27) latent semantic indexing (LSI) 潜在语义索引 是指搜索引擎排除一些匹配的搜索引擎字符,依据语义来把网页列出在搜索引擎结果中,

  28) link 链接 是网页的一个元素,点击它能在浏览器中跳转到另一个网页.

  29) link bait 链接诱饵 是指一个网页通过特殊定位和布局来吸引反向链接.

  30) link exchange 交换链接 是指互惠链接的树立,通常把它说为"友情链接".

  31) link spam (Comment Spam) 链接垃圾 通常的博客评论就是典型的例子.

  32) link text (Anchor text) 链接文本,瞄文本 是指用户能看见的一个链接.搜索引擎通过链接文本来判断被链接的站点是什么内容.一般都将关键字设为瞄文本.

  33) META tags meta标签是指在html和head 的一个陈述,它反映整个页面的信息.它在搜索引擎结果中可见,但是在它呈现给客户的页面是不可见的.主要的有 keyword和description两个功能.作SEO.meta标签的不可缺少的.

  34) nofollow 是一个属性,它能使搜索引擎蜘蛛忽略这些页面的一部分链接,很像链接避孕套,一般博客评论下都有个Nofollow属性.

  35) noindex 禁止索引是指在一个网页的head部分有一个禁止索引的命令,它能告诉搜索引擎不要索引当前这个页面.

  36) pagerank (PR) 网页级别是 Google 衡量网页重要性的工具,测量值范围为从1至 10 分别表示某网页的重要性.新网站的pr为0.一般 pr3个月更新一次

  37) PPA (Pay Per Action )按行为付费是指广告是只有当用户点击了特定的广告,进入指定的网站完成指定的动作后,广告商才须要付费。

  38) PPC (Pay Per Click) 是依据点击广告或者电子邮件信息的用户数量来付费的一种网络广告定价模式.常见的有google广告

  39)reciprocal link (link exchange, link partner) 同上,就是友情链接

  41) redirect 重定向是指当你打开一个页面,它自动跳转到另外一个域名或地址.

  42) robots.txt 机器人文件是指在网站根目录下的一个文件,通过书写的一些代码,能控制搜索引擎蜘蛛的抓取行为.通过它我们能让搜索引擎禁止或者疾速抓取我们的网站.

  43) sandbox 沙盒是指google会把所有的新站放入沙盒,并且不给于好的排名,直到这个网站通过google的考察期.

  44) search engine (SE) 搜索引擎,常见的有百度和google

  45) SEM (search engine marketing) 搜索引擎营销只要包括两点,一个是SEO 搜索引擎优化服务,另一个是付费SEM 搜索引擎营销,比如 PPC,竞价等

  46) SEO (search engine optimization) 搜索引擎优化就是通过对网站的结构,标签,排版等各方面的优化,使搜索引擎更容易搜索网站的内容,并且让网站的各个网页在GOOGLE等搜索引擎中获得较高的评分,从而获得较好的排名。

  47) SERP (Search Engine Results Page) 搜索引擎结果页是指用户在搜索引擎上搜索某一关键字而出现的结果页面.

  48) sitemap 网站地图是一个拥有网站所有或部分重要链接的页面,xml 类型的网站地图是提交给 google的.它能帮助网站更快的被搜索引擎收录.

  49) spider (bot, crawler) 搜索引擎蜘蛛是搜索引擎用来增加网页数据库的一个特殊机器人

  50) spider trap 蜘蛛程序陷阱是阻止蜘蛛程序爬行网站的妨碍物,通常源于那些网页显示的技术方法,这些手段能很好地配合浏览器,但对蜘蛛程序就构

  了妨碍。蜘蛛陷阱包括 JavaScript下拉菜单以及有些种类的重定向。

  51) static page 静态页面是指在网址URL 中没有任何变量和参数,静态页面往往对搜索引擎蜘蛛是友好的.

  52) stickiness 黏度是指网站通过对内容的不断更新和功能的增强,让用户一直浏览这个网站,就好像把他黏住一样.

  53) text link 文字链接是指以文本形式的连接,它不包括图片或 java script等

  54) time on page 页面停留时间是指用户在一个网页上停留的时间,直至他点击分开.

  55) trust rank 信任级别是用来区别有价值的页面和spam 页面,页面的价值越高,它的信任价值也就越高.

  56) URL 简单的讲就是网址103) user generated content (UGC) 是指“用户生产内容”,即网友将自己 DIY的内容通过互联网平台进行展示或者提供给其他用户。

  57) web2.0 是指具有用户互动的网站.

  58) white hat 白帽是SEO的正规技术,它于黑帽正好相反.