URL规范化

作者:鼎极网络发布日期:2019-11-13浏览次数:13

  网址规范化指的是搜索引擎挑选合适的URL作为真正(规范化的)网址的过程。

  一、首先,为什么会出现不规范网址?

  如图所示:

  http://maxseo.cn

  http://www.maxseo.cn

  http://www.maxseo.cn/index.html

  http://maxseo.cn/index.html

  上面这几个URL指的是同一个文件:首页

  从技术上来说,这几个URL都是不同的网址,搜索引擎也确实把他当作不同的网址,虽然这些网址返回的都是相同的文件,也就是首页。但从技术上来说:主机完全可以对这几个网址返回不同的内容。那么,除了图上带与不带www造成的,以及结尾是否带有index.html后缀造成的不规范网址外,其实还有以下几种原因会造成。例如:

  ①:网站程序的原因,不少CMS系统经常出现一篇文章可以通过几种不同的URL去访问。

  ②:URL静态化设置存在错误,同一篇文章中有多个静态化URL可以访问。如图(截图URL和访问的标题):

  

1.png

  

2.png

  

3.png

  ③:URL静态化后,静态和动态URL共存,都有链接,也都可以访问。

  ④:网站的目录后带与不带斜杠。如图:

  下图为不同的网址,但其实是一个页面。

  http://www.baidu.com

  http://www.baidu.com/

  ⑤:加密网址。如图:

  下图的URL同时存在,但都可以访问。

  http://www.baidu.com

  https://www.baidu.com

  ⑥:URL中有端口号。如图:

  http://www.baidu.com80/

  http://www.baidu.com/

  ⑦:跟踪代码。有喜欢做网络推广的人,习惯在URL后面加跟踪代码。如图:

  http://www.baidu.com/?*100

  二:其次,出现网址不规范会给网站带来什么问题?

  网站出现多个不规范网址会给搜索引擎收录和排名带来很多的麻烦,为什么不规范的URL会给搜索引擎和排名带来很多麻烦?为了让站长彻底的明白,我们举个例子,比如:网站首页是固定的且只有一个,但很多站长在链接回首页的时候所使用的URL并不是的,而是一会连到http://www.esobao.cn,一会连到http://www.esobao.cn/index.html。

  一般来说,虽然不会给用户造成什么麻烦,但因为这些网址都是同一个文件,会间接性的给搜索引擎造成困惑,搜索引擎会认为:到底哪一个网址才是真正的首页?哪一个网址应该被当作首页返回?那么,这里有个重点:如果网站上不同版本的网址同时出现,就会很可能被搜索引擎收录。被收录之后,后果就可想而知了。而此时,搜索引擎在计算排名的时候必须要找到所谓规范化的网址,也就是搜索引擎认为的合适的URL版本。

  不规范化会造成的问题,笔者简单的来说下:

  ①: 网站上有多个URL,这样会分散页面权重,不利于排名。

  ②:搜索引擎判断的规范化网址并不是站长想要的那个网址。如图(站长想要的是不带后缀的,搜索引擎去把带后缀的给收录了):

  

4.png

  ③:如果网址规范化问题太严重,也可能影响收录。因为:一个权重不是很高的域名,能收录的总页面数和蜘蛛总爬行时间是有限的,而搜索引擎把资源花在收录不规范的网址上,留给独特内容的资源就变得越来越少了。

  ④:重复页面过多,搜索引擎可能认为有作弊嫌疑。

  ⑤:对于搜索引擎来说,浪费资源、浪费宽带。

  三、后,如何解决网址规范化的问题

  关于如何解决网址规范化问题,可能这个对于站长而言是重点也是核心内容了。那么,可以解决URL规范化问题的方法有很多,比如接下来我们要说的这些:

  ①:现在企业、个人站长用的程序多的就是CMS,那么此时你就要确定你使用的这个CMS系统是否只能产生规范化网址,无论是否有静态化,比如DEDE、帝国CMS等。

  ②:所有内链要保持统一,都指向规范化网址。比如:以带与不带www为例子,确定一个版本为规范化网址后,网站的内部链接都要统一使用这个版本,这样搜索引擎就会明白哪一个是站长希望的网站规范化网址。而从用户体验的角度去看:用户通常选择就是带www的版本为规范化网址。

  ③:301转向。这个常用也是普遍的一个方法,站长可以通过301转向把不规范化URL全部转向到规范化URL。

  ④:canonical标签。目前也是站长使用比较多的一种了,而且百度也是全面支持这个标签了。

  ⑤:制作XML地图,地图中全部使用规范化网址,然后提交给搜索引擎。

  虽然方法很多,但很多方法都有局限性,比如:有的网站因为技术的缺失或不成熟,导致301无法实现。再比如:很多CMS系统经常无法受自己控制等等。那么,笔者这里主要针对301和canonical做下具体的说明,因为这两种规范化方式是站长常用的手段,而且也是百度认同的。

关键词:

什么是静态网页,什么是动态网页

 

想知道什么是伪静态,那么我们必须知道什么是静态和动态的,之前没有接触网站的时候,认为静态的就是没有flash多的页面,动态的就是有flash的页面,发现这真是一个片面的理解,现在才知道这并不是区别静态和动态的原理,而是通过代码来区别的

 

静态网站是指全部由HTML代码格式页面组成的网站,所有的内容包含在网页文件中。网页上也可以出现各种视觉动态效果,如GIF动就变画、FLASH动画、滚动字幕等。

 

动态页面是通过执行asp,php,jsp,.net等程序生成客户端网页代码的网页。可以通过网站后台管理系统对网站的内容进行更新管理。发布新闻,发布公司产品,交流互动,博客,网上调查等,这都是企业站的一些功能。

 

纯静态网页:

 

纯静态的网页一般以.html或者htm结尾,地址对应的是一个文件,这个文件实实在在的存在于网站服务器的某个目录中。

 

纯静态网页优势

 

1.当访问者访问网页的时,不读取数据库,直接访问网站空间对应的文件。(直接读取文件

2.纯静态的网页对搜索引擎友好,是容易被搜索引擎所收录的。(易收录

3.由于访问网页的时,不需要服务器做过多的处理,对服务器的压力小,更容易应对高访问量。(节省服务器压力

4.一些面对数据库的攻击比如SQL注入攻击,在面对静态网页的时候常常难以从地址入手。(安全性高

 

纯静态网页劣势

 

1.由于静态网页需要生成文件,所以当网站内容更新频率高,更新数据量大的时候,对服务器磁盘的写入也会很频繁;(服务器的负担

2.在不采用其他技术的时候,如果更改了模板,所有相关的html网页都要重新生成,量大模板修改、对应变化

 

动态网页:

 

访问网页的时候,需要服务器读取数据库,数据库做出相应的处理把数据返回给服务器,再由服务器发送给浏览器,这样的一个过程,需要消耗一定的服务器资源,在访问量大的时候,会加重服务器的负担。在过去搜索引擎技术不发达的时候,动态的网页一般都不太好收录,随着搜索引擎技术的提高,现在的动态页已经难不倒蜘蛛了,但是和纯静态的网页比起来,还是不如静态的网页容易被收录。

 

动态页优势

 

1.动态页由于不用生成html文件,所以可以节省服务器空间,这样我们可以把更多的资金放在数据库上,节省出来的服务器空间用来放更多的图片附件等文件;(节省服务器空间

 

动态页劣势

 

1.不如静态的网页容易被收录(收录难

2.一些面对数据库的攻击比如SQL注入攻击,在面对动态网页的时候常常容易从地址入手(安全性低

 

伪静态网页:

 

伪静态实质上还是动态的,在数据的处理过程上和动态的一样。

 

伪静态页优势

 

1.在网址的形式上看,伪静态的地址和静态的可以一摸一样,普通的访问者不容易分出是真静态还是伪静态,同时蜘蛛一般也会把这种形式的网页当做是静态的来处理。(易收录

2.

伪静态页劣势

 

1.伪静态相对动态来说,更加消耗服务器资源,因为网页地址需要按事先设定好的伪静态规则来进行正则匹配,这一个过程是消耗资源的。(消耗服务器资源

这种形式,比动态的网址多了一个匹配筛选的过程。网页地址需要按事先设定好的伪静态规则来进行正则匹配,这一个过程是消耗资源的。这种形式,比动态的网址多了一个匹配筛选的过程。

 

总结

 

对搜索引擎的友好度:纯静态好于伪静态好于动态;

对服务器CPU资源的消耗:纯静态小于动态小于伪静态;

对服务器空间的占用:纯静态大于伪静态,伪静态和动态相同。

具体选择那种形式,可以根据自己的实际情况。