搜索引擎工作原理

作者:鼎极网络发布日期:2019-11-13浏览次数:24

什么是seo ?

  SEO(Search Engine Optimization),汉译为搜索引擎优化。搜索引擎优化是一种利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排名的方式。

  SEO就是在了解搜索引擎排名算法的基础上,对网站进行站内和站外的优化,对网站存在的弊端加以更正,提高网站关键词在搜索引擎中的排名,获得更多流量与转化率,从而获得盈利。

SEO可分为站外SEO和站内SEO两种。

了解搜索引擎工作原理

站内SEO

站外SEO

排名算法

站长工具

案例分析

搜索引擎工作原理

爬行

抓取

预处理(索引)

排名

搜索引擎自动信息搜集功能分两种。

      1、定期搜索,即每隔一段时间,搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。

      2、提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。

步:爬行

    搜索引擎是通过一种特定规律的软件跟踪网页的链接,从一个链接爬到另外一个链接,像蜘蛛在蜘蛛网上爬行一样,所以被称为“蜘蛛”也被称为“机器人”。搜索引擎蜘蛛的爬行是被输入了一定的规则的,它需要遵从一些命令或文件的内容。

第二步:抓取

  搜索引擎是通过蜘蛛跟踪链接爬行到网页,并将爬行的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或者复制的内容,很可能就不再爬行

爬行方式

               广度优先                                          深度优先

 1.png                                    2.png

 

 

影响蜘蛛爬行的因素

网站、页面权重高。

网站更新度:蜘蛛每次爬行都会把页面数据储存起来,第二次来的时候发现页面没有变化,就不再抓取。如果页面经常更新,蜘蛛来的也频繁。

导入链接

与首页的点击距离。

是否导出链接过多

是否有网站地图

是否设置404页面

第三步:预处理(索引)

 

 3.png

 搜索引擎将蜘蛛抓取回来的页面,进行各种步骤的预处理。

      1.提取文字(去除格式代码,留文字部分)

      2.中文分词

      基于词典匹配,词典匹配相对降低,准确性取决于词典的完整性与更新度

      基于统计,分析大量的文字样本,统计出字与字相邻出现的概率,几个相邻出现次数越多越可能形成一个词

      两种各有优缺点,一般混合使用

      3.去停止词

      停止词就是那些页面中出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词被称为停止词,因为它们对页面的主要意思没什么影响。搜索引擎在索引页面之前会去掉这些停止词,使索引数据主题更为突出,减少无谓的计算量。

      4.消除噪声

      绝大部分页面上的一部分内容对页面主题也没什么贡献,比如版权声明文字、导航条、广告等。所以搜索引擎在预处理的过程会把这些无关内容进行消噪处理。

      5.去重

      同一篇文章重复出现在不同的网站或同网站不同的网址上,搜索引擎不喜欢重复性的内容。

      索引前进行识别和删除重复内容;去重方法:选取一部分特征关键词(一般是出现频率高的词),十个左右,计算这些词的数字指纹(MD5算法);特征关键词有任何微小的变化,计算出来的数字指纹都有很大的差距。   

      6.正向索引

      经过以上步骤之后,搜索引擎得到的就是独特的、能反映页面主体内容的、以词为单位的内容。接下来搜索引擎索引过程就是可以提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、出现次数、格式、位置。这样,每一个页面都可以记录为一串关键词集合,其中每个关键词的词频、格式、位置等权重信息也都会记录在案了。


文件ID

内容

文件1

关键词1,关键词2,关键词7,关键词10,…… 关键词L

文件2

关键词1,关键词7,关键词30, ……,关键词M

文件3

关键词2,关键词70,关键词305,……,关键词N

……


文件6

关键词2,关键词7,关键词10,……,关键词X

……


文件x

关键词7,关键词50,关键词90,关键词Y

 

      7.倒排索引

      正向索引还不能直接用于排名,因为在搜索某个关键词的时候,排名程序需要扫描所有索引库中的文件,计算相关性,这样的计算量无法满足实时返回排名结果的要求,所以搜索引擎会将正向索引数据库重新构造为倒排索引,把文件对应到关键词的映射转换为关键词到文件的映射,在倒排索引中关键词是主键,每个关键词对应着一系列文件,这些文件中都出现了这个关键词。这样当用户搜索某个关键词是,排序程序在倒排索引中定位到这个关键词,就可以马上找出所有包含这个关键词的文件。

 

关键词

文件

关键词1

文件1,文件2,文件7,文件58,……,文件

关键词2

文件l,文件7,文件30,……,文件M

关键词3

文件2,文件70,文件305,……,文件n

……

……

关键词:

鼎极seo是主要从事企业网站建设与网络推广服务以及移动互联网客户端,相关产品开发;
业务范围包括:企业网站策划、网页设计、网站建设、手机/微信站、APP、网络推广、企业邮箱、域名主机,及其它互联网相关产品服务。

联系我们
江苏省徐州市

内容图片优化

1.png 

1,图片的尺寸和大小

图文并茂是百度和用户喜欢的形式,但运用图片的时候应注意图片的大小和尺寸。百度在搜索结果页展示图片的时候,实际上不是所有页面有图就给出显示,展示图片的一个规则就是图片大小接近121:75,站长可以根据此规则调节好图片尺寸。一是给网站服务器减压,第二是不拖累网站的网速,利用用户的点击快速浏览,一般来讲,3秒钟网站页面打不开,你的用户就会离开。

2.png

出图原则

①目前站长只需要将图片放在页面主体内容中,百度会进行相应的图片识别及场景识别,后续会提供协议规范;

②图片大小尽量接近121:75

③图片必须与页面内容紧密相关,如果出现作弊或恶劣低质图片,将有相应的处理机制:

A、屏蔽出图;B 降低站内url排序;C、严重者整站将受到影响

 

2,图片清晰度

有时一篇文章的精华就是图片啦,假如一篇xx结构图”的文章,用户就是想看清楚结构细节,文字再好内容再丰富,如果配图不清晰的话对用户的价值大大打折。

 

3,图片的alt标签

图片优化alt标签是基础的东西了,基础的也就越重要,在图片上传好之后千万不要忘了alt标签。蜘蛛判断图片内容就是靠alt,但同时也不建议在alt标签里堆砌关键词,用文章标题是个不错的选择。

 

4,图片的title标签

对比alt标签,title被大多数seo遗忘了,实际上笔者认为这个与alt标签相比同样重要。如下图所示,当用户鼠标停留在图片上时会显示文字,这对用户体验有很大的帮助,同时也会多出现一次关键词。

 

5,图片周围文字

看上图,这张图片下面有个类似版权申明的文字,百度除了参考alt标签同时也参考周围文字来猜测图片是关于什么的。

 

6,图片的原创度

百度对原创内容越来越喜欢,大量抄袭对网站有百害而无一益。但大多数seo可能只停留在内容的原创上,实际上图片也是页面的一部分,原创图片无疑是蜘蛛喜欢的。进一步想,如果站长花大量时间制作一张满意的图片,百度也会认为这篇文章的原创度和价值很高。

 

7,图片本地化或本地储存

虽然原创图片对排名和用户有很大的好处,但花费的时间很多,有时候借用别人的图片也是不错的选择。但我建议在盗用图片的时候好下载到本地再上传到自己的网站。如果直接以链接的方式调用的话等于给别人做了一个外链啦,自己网站权重就分散了。

 

8图片文字

图片文字指的是图片上面的文字,这有什么可优化的呢?

图片文字同样有很多值得细心注意的地方,给自己做的图片添加自己网站的水印,防止别人盗用。另外可以在图片上面添加自己公司的名称或者是微信、微博账号增强企业品牌传播。

如同网站SEO优化一样,品牌传播都是一点一点积累过来的,做SEO有自己的品牌很关键。

 

9图片的位置

图片出现的位置同等重要,图片信息往往能够让用户及读者直观清晰的映入脑海,因此映入眼帘、充分的展现图片信息必须合理掌握。目前图片的应用率也逐渐加大,以页面内容中展现时,往往布局在主题之前,让用户时间对主题段落有充分的认识,通过图片信息更能够加深印象。其实图片的使用不仅仅展现在内容中,常常使用文章时也会加以利用进行展现,让用户更加直观感受主题含义。

 

10,图片的压缩

SEO优化过程中往往对图片优化无法做到十全十美,为了进一步对其完善,提高网页加载速率,可以适当考虑采压缩图片。http://jingyan.baidu.com/article/48b558e35605c17f38c09a33.html,减少图片大小,像素不变

百度搜索页走进图文

近两个月大家在百度搜索时会发现一些搜索结果前增加了图片,显然在某些场景下这种展现形式明显提升了用户的检索体验:图片的直观性明显优于文字,用户通过读图可以在短时间内就判断出页面主旨,进而快速进入内容详情页面。

3.png

4.png

在另一方面也提升了图文结果的点击率给站长带来了的收益。因此,有很多站长通过各种方式进行测试或在“Lee on line”活动中进行提问,细心 的朋友会发现在活动中对此也进行了回答。在这里跟大家明确的介绍一下,需要强调的一点是:希望站长不要为了出图文而刻意去做图配图,一定要根据自己的内容 以及用户的阅读及使用场景,在适合的情况下进行优化。

1、目前站长只需要将图片放在页面主体内容中,百度会进行相应的图片识别及场景识别,后续会提供协议规范;

2、图片大小尽量接近121:75;

3、图片必须与页面内容紧密相关,如果出现作弊或恶劣低质图片,将有相应的处理机制:

  A、屏蔽出图;B、 降低站内url排序;C、严重者整站将受到影响