SEO其他名词解释

作者:鼎极网络发布日期:2019-11-12浏览次数:23

  1) B2B:Business to Business.

  2) B2C:Business to Consumer

  3) C2C:Consumer to Consumer

  4) back link 即反向链接.常规链接在源文档内部进行声明和显示,而反向链接则在目的文档内部进行声明.如果B网站指向 A 网站,那么B网站就是都属于A 网站的反向链接.

  5) black hat:黑帽,简单的讲就是 SEO作弊

  6) bounce rate 就是一个跳出率,当一个用户进入一个网页,接着在一个会话时间内没有看过该站其他的页面就分开了该网站,就被称作Bounce。请注 意这里有两个参数,一个是是否点击浏览其他的页面,第二个就是哪个会话时间段。 这个Bounce Rate越低越好,说明用户访问了更多的页面。而且这个Bounce Rate已经是网站流量统计的一个通用标准,一般及格的流量统计都有。

  7) bread crumbs “面包屑型”架构让用户对他们所访问的此页与彼页在层次结构上的关系一目了然。这种网站结构的其中一个明显的特性体现莫过于返回导览功能。

  8) Canonical Issues (内容重复的一种) 所谓 Canonical Issues,主要指网站的主访问路径,如果网站存在多种访问方式,搜索引擎会取舍一种其认为佳的方式确定为“权威地址”,比如说,对大多数网站而言,其主页可以用以下三种 URL访问:

  9) click fraud 欺骗点击是发布者或者他的同伴对PPC广告进行恶意点击,因而来得到相关广告费用.欺骗点击降低了客户对广告商的信任.

  10) cloak 隐藏作弊 为了让你的网页被索引而采用一些专门针对搜索引擎的伎俩而不是着眼你的用户。比如隐藏一些不相关的关键词在你的页面,虽然访问者看不见但搜索引擎可以发现。Cloak 实际上是这么一个程序或者脚本:它查看 HTTP 头的内容,比如 IP 地址,User-Agent,URL 来决定显示不同内容给访问者。

  11) CMS Content Management System 内容管理系统,主要用于文章发布的系统.

  12) CPC Cost Per Click 即 以每点击一次计费。这样的办法加上点击率限制可以〖WX)〗加强EMU 的难度,而且是宣传网站站点的优方式。

  13) CPM Cost Per Thousand impressions (每千人成本)广告显示 1000次所应付的费用。

  14) crawler (同bot, spider) "蜘蛛"是通过链接结构在互联网中爬行来收集数据.

  15) duplicate content "重复内容"是一个页面的内容和互联网中另一个页面相同或非常相似.

  16) Feed 本意是“饲料、饲养、(新闻的)广播等”,RSS 订阅的过程中会用到的“Feed”,便是在这个意义上进行引申,表示这是用来接收该信息来源更新的接口.可以理解为,你的Blog页面是给人读的,而Feed 是给程序读的。

  17) frames "框架" 当我 们在浏览一个应用 Frames设计的网页,我们其实是在浏览至少三个文件。这些文件被编译到一 起,使它们看起来是一个文件。

  18) HTML 超文本标记语言(Hyper Text Markup Language)很简单,它就是编写网页的语言之一.

  19) in bound link (inlink, incoming link) 可直译为“来自外部网站的链接”,也就是我们通常所说的一个网站“被其他网站链接的数量”,

  20) indexed Pages "索引页"就是被搜索引擎索引的页面.

  21) inlink (incoming link, inbound link) 导入链接 指其他网站连到本网站的链接。

  22) keyword 关键字 是指您要作搜索引擎排名的词.

  23) keyword cannibalization 关键字拆解 就是在一个站点许多页面过度应用同一关键字,导致用户和搜索引擎难以分辩那个是这个关键字相关的页面.

  24) keyword spam (keyword stuffing) 关键字堆砌 为了晋升,目的关键字排名增加关键字的密度.

  25) keyword stuffing (keyword spam) 关键字堆砌 为了提升,目的关键字排名增加关键字的密度

  26) landing page 登陆页面 是指用户在搜索引擎结果页里点击进入的页面.

  27) latent semantic indexing (LSI) 潜在语义索引 是指搜索引擎排除一些匹配的搜索引擎字符,依据语义来把网页列出在搜索引擎结果中,

  28) link 链接 是网页的一个元素,点击它能在浏览器中跳转到另一个网页.

  29) link bait 链接诱饵 是指一个网页通过特殊定位和布局来吸引反向链接.

  30) link exchange 交换链接 是指互惠链接的树立,通常把它说为"友情链接".

  31) link spam (Comment Spam) 链接垃圾 通常的博客评论就是典型的例子.

  32) link text (Anchor text) 链接文本,瞄文本 是指用户能看见的一个链接.搜索引擎通过链接文本来判断被链接的站点是什么内容.一般都将关键字设为瞄文本.

  33) META tags meta标签是指在html和head 的一个陈述,它反映整个页面的信息.它在搜索引擎结果中可见,但是在它呈现给客户的页面是不可见的.主要的有 keyword和description两个功能.作SEO.meta标签的不可缺少的.

  34) nofollow 是一个属性,它能使搜索引擎蜘蛛忽略这些页面的一部分链接,很像链接避孕套,一般博客评论下都有个Nofollow属性.

  35) noindex 禁止索引是指在一个网页的head部分有一个禁止索引的命令,它能告诉搜索引擎不要索引当前这个页面.

  36) pagerank (PR) 网页级别是 Google 衡量网页重要性的工具,测量值范围为从1至 10 分别表示某网页的重要性.新网站的pr为0.一般 pr3个月更新一次

  37) PPA (Pay Per Action )按行为付费是指广告是只有当用户点击了特定的广告,进入指定的网站完成指定的动作后,广告商才须要付费。

  38) PPC (Pay Per Click) 是依据点击广告或者电子邮件信息的用户数量来付费的一种网络广告定价模式.常见的有google广告

  39)reciprocal link (link exchange, link partner) 同上,就是友情链接

  41) redirect 重定向是指当你打开一个页面,它自动跳转到另外一个域名或地址.

  42) robots.txt 机器人文件是指在网站根目录下的一个文件,通过书写的一些代码,能控制搜索引擎蜘蛛的抓取行为.通过它我们能让搜索引擎禁止或者疾速抓取我们的网站.

  43) sandbox 沙盒是指google会把所有的新站放入沙盒,并且不给于好的排名,直到这个网站通过google的考察期.

  44) search engine (SE) 搜索引擎,常见的有百度和google

  45) SEM (search engine marketing) 搜索引擎营销只要包括两点,一个是SEO 搜索引擎优化服务,另一个是付费SEM 搜索引擎营销,比如 PPC,竞价等

  46) SEO (search engine optimization) 搜索引擎优化就是通过对网站的结构,标签,排版等各方面的优化,使搜索引擎更容易搜索网站的内容,并且让网站的各个网页在GOOGLE等搜索引擎中获得较高的评分,从而获得较好的排名。

  47) SERP (Search Engine Results Page) 搜索引擎结果页是指用户在搜索引擎上搜索某一关键字而出现的结果页面.

  48) sitemap 网站地图是一个拥有网站所有或部分重要链接的页面,xml 类型的网站地图是提交给 google的.它能帮助网站更快的被搜索引擎收录.

  49) spider (bot, crawler) 搜索引擎蜘蛛是搜索引擎用来增加网页数据库的一个特殊机器人

  50) spider trap 蜘蛛程序陷阱是阻止蜘蛛程序爬行网站的妨碍物,通常源于那些网页显示的技术方法,这些手段能很好地配合浏览器,但对蜘蛛程序就构

  了妨碍。蜘蛛陷阱包括 JavaScript下拉菜单以及有些种类的重定向。

  51) static page 静态页面是指在网址URL 中没有任何变量和参数,静态页面往往对搜索引擎蜘蛛是友好的.

  52) stickiness 黏度是指网站通过对内容的不断更新和功能的增强,让用户一直浏览这个网站,就好像把他黏住一样.

  53) text link 文字链接是指以文本形式的连接,它不包括图片或 java script等

  54) time on page 页面停留时间是指用户在一个网页上停留的时间,直至他点击分开.

  55) trust rank 信任级别是用来区别有价值的页面和spam 页面,页面的价值越高,它的信任价值也就越高.

  56) URL 简单的讲就是网址103) user generated content (UGC) 是指“用户生产内容”,即网友将自己 DIY的内容通过互联网平台进行展示或者提供给其他用户。

  57) web2.0 是指具有用户互动的网站.

  58) white hat 白帽是SEO的正规技术,它于黑帽正好相反.


关键词:

日志分析

 

1.什么是网站日志,从网站日志里面外面能得到什么?

 网站日志:服务器记录了用户在网站上面的一些行为信息

 内容包括:访客的IP地址 访问的时间  访问的方式  访问的协议  访问的状态码  访问的页面  访问了页面的大小  访客的操作系统以及使用的浏览器版本及内核

2.如何获取网站日志

  登陆FTP     Weblog文件夹  下载

3.常见返回状态码:

    200  返回成功 可以正常访问

301  重定向   集中权重     

302  临时重定向

    304状态码 如果客户端发送了一个带条件的GET 请求且该请求已被允许,而文档的内容(自上次访问以来或者根据请求的条件)并没有改变,则服务器应当返回这个304状态码。简单的表达就是:客户端已经执行了GET,但文件未变化。

    403  forbidden 服务器拒绝访问  权限问题    服务器不支持这个脚本运行

404  访问的页面不存在 not found (404错误页面)

500  并发数超了()在某个时段内所允许的大访问数量(15s

    503  服务器宕机(由于超载或进行停机维护)

 

4.IIS日志各字段讲解#Fields: date time s-sitename s-computername s-ip cs-method cs-uri-stem cs-uri-query s-port cs-username c-ip cs-version cs(User-Agent) cs(Referer) cs-host sc-status sc-substatus sc-win32-status sc-bytes cs-bytes time-takendate:发出请求时候的日期。
time:发出请求时候的时间。注意:默认情况下这个时间是格林威治时间,比我们的北京时间晚8个小时,下面有说明。

s-sitename:服务名,记录当记录事件运行于客户端上的Internet服务的名称和实例的编号。
s-computername:服务器的名称。

s-ip:服务器的IP地址。

cs-method:请求中使用的HTTP方法,GET/POST

cs-uri-stemURI资源,记录做为操作目标的统一资源标识符(URI),即访问的页面文件。

cs-uri-queryURI查询,记录客户尝试执行的查询,只有动态页面需要URI查询,如果有则记录,没有则以连接符-表示。即访问网址的附带参数。

s-port:为服务配置的服务器端口号。
cs-username:用户名,访问服务器的已经过验证用户的名称,匿名用户用连接符-表示。
c-ip:客户端IP地址。

cs-version:记录客户端使用的协议版本,HTTP或者FTP

cs(User-Agent):用户代理,客户端浏览器、操作系统等情况。

cs(Referer):引用站点,即访问来源。
cs-host:记录主机头名称,没有的话以连接符-表示。注意:为网站配置的主机名可能会以不同的方式出现在日志文件中,原因是HTTP.sys使用Punycode编码格式来记录主机名。

sc-status:协议状态,记录HTTP状态代码,200表示成功,403表示没有权限,404示找不到该页面,具体说明在下面。
sc-substatus:协议子状态,记录HTTP子状态代码。
sc-win32-statusWin32状态,记录Windows状态代码。
sc-bytes:服务器发送的字节数。
cs-bytes:服务器接受的字节数。
time-taken:记录操作所花费的时间,单位是毫秒。

 

5.分析工具

 5.1 光年日志分析工具

 5.2 excel表格

 5.3爱站工具包日志分析

  日志的简单分析

  1)注意那些被频繁访问的资源

  2)注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等:

3)观察搜索引擎蜘蛛的来访情况(看网站的抓取情况)

问题

  1、新站刚上线,看看搜索引擎有没有来你网站抓取了;

  2、网站收录异常,或者被k,通过日志可以了解搜索引擎是否还有来光顾你的网站;

3、对于网站的问题进行解决,必须要读懂日志;

  、基础信息

  我们从日志中能够获取哪里基础信息呢?总抓取量、停留时间(h)及访问次数这三个基础信息,可以从光年日志分析工具中统计出来。然后,通过这三个基础信息算出:平均每次抓取页数、单页抓取停留时间。然后用我们的MSSQL提取蜘蛛抓取量,根据以上的数据算出爬虫重复抓取率。

  查看搜索引擎蜘蛛爬行总次数

  一个网站的收录首先要搜索引擎蜘蛛来到网站爬去才能够实现。通过查看日志能够清楚的看到每天蜘蛛访问网站的总次数有多少,从而大致的判断网站的权重如何。一个高权重的网站,蜘蛛来访的次数相对是较多的,相反,一个低权重的网站,即使有非常庞大规模的内容,蜘蛛来访的次数依旧有限。爬行次数有限,分配的时间和深度也就有限,所以收录也就受到了限制。所以我们的重点就是多提供百度来访我们网站的入口,只有入口多了,访问次数才能得到提升。

  平均每次抓取页数=总抓取量/访问次数 单页抓取停留时间=停留时间*3600/总抓取量 爬虫重复抓取率=100%—抓取量/总抓取量

  查看爬行榜前十名的页面情况

  除了查看蜘蛛总访问次数以及爬行目录的整体情况,剩下一个非常重要的就是查看爬行总页面的情况。我平时分析网站的时候,时常会看到,被蜘蛛爬行前几名的页面都是一些无关紧要的页面,比如B2C购物车链接页面、比如联系我们页面、一些主题中CSS文件,这些页面和文件对排名和收录本来没有实际的帮助,但现实情况是蜘蛛爬行的多,所以就会造成浪费,毕竟蜘蛛来访一个网站的总时间和总爬行次数是一定的,总抓取深度也是一定的,如果时间都浪费在了这些页面上,那么对于重点的内页收录就会受到影响。因此通过日志发现之后,就需要在robots.txt中屏蔽掉,或者在页面meta中屏蔽掉。

  查看平均爬行一次的抓取深度

  通过日志查看平均一次的抓取深度能有效的了解到网站内部结构的不足。比如百度蜘蛛在某天访问网站总共818次,抓取量是978,那么平均每次抓取的页面数就为1.2页。其实这个数据也是普遍存在的现象,很多网站都存在这样的现象。这充分说明了网站的内部链接做的不足,或者网站结构存在问题,或者是内容出现了高度重复现象,导致蜘蛛来到网站,要么没有什么新发现,要么被结构所阻止,爬行不到新的页面。毕竟,蜘蛛平均在我们网站存在的整体时间是有限的,在这个有限的时间内,如果我们自己设置了障碍,那么蜘蛛就会走掉,是非常可惜的事情。

  目录抓取情况

  用MSSQL提取出爬虫抓取的目录,分析每日目录抓取量。可以很清晰的看到每个目录的抓取情况

  通过日志查看所有被爬行目录的整体情况,能让我们知道搜索引擎爬行多的目录是哪些,是否是我们想要提供给用户的目录。一般可以非常清楚的看到排名前十位的目录,如果这些目录并不是我们重点提供给用户内容的目录,那么就需要做出调整,说明当前的一些目录被多度爬行了,而真正有价值的目录没有被搜索引擎过度重视,要及时发现并找到原因。

  第二、时间段抓取

  重在分析每日的抓取情况,找到相应的抓取量较为密集的时间段,可以针对性的进行更新内容。同时,还可以看出,抓取不正常情况。服务器是否稳定,是否被攻击

  第三,IP段的抓取

  每日每个IP的抓取量,同样我们需要看整体,如果IP段没有明显的变化的话,网站升降权是没有多大问题的。因为在网站升权或者降权的时候,爬虫的IP段会更换的。

  第四,状态码的统计

  在这个之前你需要了解下,HTTP状态码返回值代表是什么。

  如果你的网站出现太多的304,那么一定会降低搜索引擎的抓取频率以及次数

  4)观察访客行为应敌之策:

  1、封杀某个IP

  2、封杀某个浏览器类型(Agent)

  3、封杀某个来源(Referer)4、防盗链

  5)文件重命名作用:

  1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。

  2.IP进行统计,可以得到用户的分布情况。

  3.对请求URL的统计,可以得到网站页面关注情况。

4.对错误请求的统计,可以更正有问题的页面。


6.日志分析思路

图片.png 

 

  代码 说明

  100 (继续) 请求者应当继续提出请求。 服务器返回此代码表示已收到请求的部分,正在等待其余部分。

  101 (切换协议) 请求者已要求服务器切换协议,服务器已确认并准备切换。

  2xx (成功)

  表示成功处理了请求的状态代码。

  代码 说明

  200 (成功