标签归档:网站策划

基于内容采集抓取处理机制的优化

关注我博客的朋友知道我之前写过一篇图库的内容采集建设方法,另外还有一个就是问答的建设方案,其中也是基于采集内容的再处理建设(未来将分享给大家),这里说到的采集,就牵扯到了内容的来源构建上。

我原本的计划是将各种不同的页面采集过来,然后进行处理,简单的流程是:

采集规则设定——标签库设定——采集内容标题——比对数据库——无数据则采集此问题——采集同页面某回答——搜索此问题——各页面随机抽取回答——归纳为一个问答页——审核或删除某回答——根据问题与答案词组匹配标签库自动生成标签——审核显示

这里有几个实现难题:

1)流程过于复杂,基于现有的采集程序,无法实现需求;

2)程序开发周期强大,复杂流程与数据库的处理,开发工作量和难度都不小;

3)基于长期优化维护的成本;

其实上面那个是我一个比较理想化的seo内容采集的流程,相对而言,任何采集程序都无法如此智能的进行采集,除非是开发出强大的诸如搜索引擎的索引机制,这是一个高专业的领域。

1440398234476

百度抓取原理和采集程序部分雷同

另外,其实我在当初的筹划中,有一个很理想化的状态,那就是采集大量的内容页面,生成大量的标签页面,来进行seo长尾词的排名实现与用户导航,但其实这里也很不现实(未来几天将和大家分享就标签页面这块建设的领悟,当然,有兴趣的朋友也可以看看我之前分享的:小说内容建设方法之标签聚合页面玩法),因为标签的排名作用已经弱化了,我们在搜索引擎中很少看到标签存在的影子。而且我们之前计划的是,建设150万左右的页面,标签页面占比10%,也就是需要采集130万左右的数据,这些数据需要配备大量的词汇,标签多达15万个,但我通过托词发现,15万个标签词的拓展,其实并没那么容易,大量工具产生的词汇,其实很多内容,并不适合拿来做标签,人工筛选又将带来大量的工作量。这是基于工作流程与实现逻辑而产生的问题。

那么问题来了,如此复杂的流程,既然不能实现,那应该怎么办?

这里要说下,当下有很多的采集程序,有实力的企业都会定制自己的内容采集与处理方案,但最流行的无疑就是利用火车头等常规采集工具了(将在后期和大家分享“数据采集工具的原理与现有采集工具的功能分析,敬请期待),大部分的采集工具都是基于目标源的采集,比如我采集某个页面的内容,自动去除某些无效元素,提取文本目标内容,大部分为文字和图片板块的采集,需要去除内外链。

火车头的采集也是基于此基础的升华,它也是基于目标网址的采集与筛选机制。

那么,基于此,我将上面的流程优化为:

采集规则设定——标签库设定——采集目标网址内容——比对数据库——已采集网址去除——确定采集——写入数据库——再次采集——同标题页面内容写入同数据库表——多问答形成——审核或删除某回答——根据问题与答案词组匹配自动生成标签——审核显示

这个流程还不算是最终版本,但相对程序来说已经简单不少,甚至火车头都能直接使用,无需二次开发,不过,具体还需我对火车头功能更熟悉后才能敲定,很多东西还是需要不断学习,最近感悟很深的是,在深圳的互联网环境下,以前错过了很多学习的机会,以至于现在要重新去拾起以前错过的成长机会,是幸运也是不幸。哆嗦完毕,只是希望将自己的这段成长经历分享给朋友们,未来大家一起见证奇迹的发生~!~。

小说内容建设方法之标签聚合页面玩法

我们总是在纠结内容建设,但是我们也发现很多的开源程序包含织梦/wordprss等程序都是自带标签功能,基本上只要好点的源码,在分类和标签板块都会比较成熟,我们往往把它当做聚合页面的一种玩法,但对于标签页面而言,其实并不是像我这个深圳seo顾问博客单纯的这么简单的导航作用(现有标签聚合页面获得排名的几率很小),下面我们看看标签页面的常规作用。

24233009

标签聚合页面的作用:

1)方便搜索引擎索引

我们知道以前的美丽说就是典型的例子,它在seo网站布局做了很多的改变,典型的是将标签聚合页面对于全站的索引作用放大了。

我们知道搜索引擎是顺着链接爬行的,聚合页面越多,搜索引擎索引具体页面的机会就越大。另外,聚合页面的使用,也是加强了内链的建设,利于整体seo的效果提升。

2)用户导航

由于导航位置的面积有限,所以很多时候一些相对不重要的栏目就无法展示,而更重要的是整个网站的结构不能太臃肿,总体的栏目也很有限,这种情况下,tag的出现就很好的弥补了这一情况。如我博客,现有的分类再多,可能也无法满足用户的筛选需求,因此,我特意加了一些标签,虽然是随意而加,但对用户的引导还是能起到一定作用的。其实标签的作用对于很多大平台而言,是一种互补。

3)长尾词排名

每一个小的tag标签其实都可以是一个小的栏目,或者小的专题。而且标签聚合页面比起文章详情页来说,更容易获得排名。

但是这里要说明的是,2014年,百度经过一定的算法调整后,特别弱化了标签的部分作用,标签想获得排名已经没有那么容易,但我们同时发现,百度对于标签页面的索引并不拒绝,因此,标签还是依旧可以用的一个功能。

基于以上的几点作用,我分析下标签聚合页面的几种类型:

1)导航型:

天极网、中关村在线、太平洋电脑很多都是在使用这种标签,他们的标签很简单,比如苹果手机、iphone6s,都是一些比较常见的简短词汇,而热门度也高,用户关注度不错,这类词能很好的弥补不足,又能调用做好用户导航。

当然,这类标签对于搜索引擎的友好度依旧存在,只是排名作用已经相当弱化。

2)长尾型:

还是有不少的网站在使用标签做长尾词的流量,并不是说在当下,标签页面就没有效果了。我们排除一些热门的词汇,做一些冷门的词时会发现,标签依然能获得不错的排名,因此,长尾类标签在当下依旧是很多站点在使用的标签类型。

其它其实就是这两种的集合,不分析了。

标签聚合页面的几种玩法:

1)后台层级管理

为了方便我们做好归类,我们会将标签如一二级分类一样最好归纳与管理,也便于前台的调用导航,在这里其实标签的作用基本等同于分类,玩法也一样。

比较有趣的是,标签是可以用户自主添加的,而分类一般都是写死的,这可能是最大的区别。

当然,标签的分类还利于标签的组合,比如我一级标签为手机,二级为苹果、小米,三级分类为价格、参数,利用系统,我能更方便的生成多种标签,如苹果手机价格、苹果手机参数类的具体标签(此标签隶属于一级手机,二级苹果下)。

这种一般可以通过文章内容进行自动标签的匹配,同时用户也可以自主编辑或选择标签内容,比较精准。

2)后台搜索生成

假如我内容多,而人力有限,那搜索生成是一个很快捷的方法,我可以直接在后头导入标签云数据,然后系统自动搜索并生成伪静态或者静态页面。这种匹配模式唯一的一点是,因为是通过关键词筛选匹配,所以不一定准确,而且直接作为分类导航,难以实现相关的层级关系。

3)前台搜索

很多网站直接将前台搜索页面做好伪静态,作为一个表情页面来显示,这也是很好的玩法,特别是用户搜索比较多的网站,可以直接将用户搜索的内容列表静态化,从而自动生成很多页面。唯一的缺点是,用户可能搜索的内容在网站上并没有,而假如这种词汇过多,反而会起到反作用。

关于优秀的聚合页面的一些建议:

1,通过人工标签聚合内容。

通过搜索聚合内容的方式虽然在生成速度上有一定优势,但是通常限于技术实力会出现很多缺点。而换成通过人工给文章进行加指定标签后将能很大程度上解决这一系列问题。也就是编辑在写文章的时候给这篇文章新建一个标签(或者通过搜索旧标签进行选择)。然后聚合页面全部调用经过人工加标签的内容页面。

2,相似标签进行合并。

例如有三个非常相似的长尾关键词需要做排名,那么其实我们并不需要同时建立三个标签,而只需要建立一个核心的标签。并通过修改标签的标题来同时覆盖多个关键词。另外编辑在给文章加标签的时候也建议可以

优先直接使用旧的标签,如果没有相关标签才新建。

3,标签内容按时间进行排序。

通过之前两步后聚合页面的内容相关性与页面重复问题将能得到有效解决,而我们要解决的第三个问题是聚合页面的更新问题。很多网站生成的聚合页面长年不会更新,这样百度快照通常会相对较慢,也不利于获得长久排名,因此可以直接在调用内容规则时按最新时间调用。这样编辑在一篇新文章上加了这个关键词标签,那么这个聚合页面会自动更新。

4,标签管理后台。

大多数网站为了省事都是直接将标签关键词导入数据库,这样做的好处是方便简单,但问题是无法进行管理与优化。因此可以针对标签关键词建立一个管理后台,这样可以及时对标签关键词进行修改,合并,删除等管理与优化。

5,聚合页面URL优化

解决了聚合页面内容问题后,我们需要进一步优化聚合页面的URL,很多网站的聚合页面都是直接使用动态URL,并且带有大量参数,这样的聚合页面不利于搜索引擎收录与获得排名,更好的方式是将这些URL地址进行伪静态处理。

在聚合页面URL优化方面很多分类信息网站做得比较好。例如58同城,在信息分类聚合页面URL优化上非常规范。

聚合页面的本质与网站栏目,分类,网站专题是相同的。目的是聚合某一话题或知识点的相关内容,让有兴趣的用户能够更方便的进行阅读。因此我们在进行聚合内容或专题制作的时候,切不可为了聚合而聚合,为了SEO而聚合。而是要从用户本身出发,在有利于用户体验的基础上进行聚合,这才是网站内容聚合之道!

当然,聚合页面的玩法很多,标签页面只是其中的一个玩法,其它包含具体内容页面以外的所有页面,我们都可以理解为聚合页,因此,还有分类、专题等多种页面都可以使用聚合的玩法进行,未来讲和大家分享这一块的进一步理解。

某社区图库栏目建设方案

图库的作用:图库的作用很明显,用于百度等图片搜索引擎的索引收录,并带来流量。曾经有个朋友的小设计师类型站点用几百张图片就来引来每日几百的ip,就是这个道理。当然,打了水印,无疑也是能用来做品牌建设的。同时,如花瓣类,则典型的还可以依靠图库的存在做本站的seo网站优化流量,本策划主要讲的就是基于seo而存在。
图库图片要求:
1)图片清晰
2)添加水印
3)每个图片具备alt属性和title属性,且尽量不重复
4)图片像素为大于200像素宽度为宜
图库建设方法:
1) 从官网和社区等全部站点中调用已有图片,假如图片没有alt,则将其所在内容页面的标题作为alt。
2) 图片做标签大集合,既自动根据图片alt属性赋予图片某个或某几个标签,同样标签的页面进行聚合。管理后台可对此图片标签进行再编辑。
3. 图片标签集合在某个标签云页面下,此页面集合所有图片标签。
4.图库的管理中,编辑人员可批量审核采集内容。
 图片的调用和上传方法:
1) 调用全站(官网与所有二级域名)的图片,图片alt属性为详情页相关文章标题
2) 后台批量上传机制,并可批量添加图片标题(显示在图片下方的文件名中,非图片title属性)和alt(参考qq空间相册)。
3) 图片标签
3.1  可根据图片alt直接生成相关标签,标签从已有标签云中匹配调用
3.2  后台管理员可批量管理图片标签,并进行添加或删除。
3.3  批量导入时,除alt与标题外,用户可给一张图片打上多个标签。
 标签云管理:
1)后台拥有标签管理功能,为一级管理模式 ,同支持批量导入。
2)假如在用户/管理员添加时,没有存在此标签,则自动添加到标签库中。
图库内容方向:
1)手机类,所有手机品牌logo,手机外观照片,手机测评照片,手机包装照片,手机参数照片等等;
2)应有类:所有手机应用或者游戏类app图片图标
3)平板类:所有平板品牌logo,平板外观照片,平板包装照片,平板参数照片等等;
4)电脑类:
5)智能家电类:
6)数码周边配件:
 图库评论系统:
根据图片alt搜索相关内容采集,后台自动累计该评价到评价系统,编辑审核则发布。采集网站内容参考:百度知道等;
图片采集规则:
(图片采集目标网站待整理,以后见图片采集表格)
1)自动采集所有图片内容,并保存到服务器图片库;
2)图片内容包含图片alt属性;(假如该图片无alt属性,则调用对应的文章标题为默认alt属性)。
 图片发布规则:图片默认打上社区水印图片默认添加标签图片需审核才可前台显示,可批量审核
评论采集系统:
(评论采集目标网站待整理,以后见评论采集表格)假如图片发布,则根据图片的标签去百度知道与各大手机论坛抓取评论,然后统一审核显示;
前台设计建议(以产品王萌旸方案为最终方案)
1)入口可在首页有个文字导航或者直接有个小区域展示图片,点击进入相关图片浏览。
2)页面构成(统一头部底部不在陈述范围)
2.1)标签汇总页面 (频道页)Url建议为:http://ler.com/tuku
2.1.1搜索框  提供相关搜索的推荐匹配;百度一下可以为:搜索图片
2.1.2 社区热帖推荐 推荐社区热门帖子,直接自动调用社区内容。
2.1.3 标签云
说明:标签汇总页面为以上内容,可点击更多,直接在此基础上再显示一屏幕。点击此标签,进入同标签聚合页面;
 2.2 标签列表页
Url建议为Url建议为:http://alr.com/tuku/标签id
 标签列表页为点击某个标签的内容列表,为上图下文结构。
添加面包屑:面包屑为:LER社区首页》图库》标签名
同时,假如图片过多,可进行分页显示。建议每一页图片显示3*8或4*6张显示。同时在分页下方添加:
热门推荐 与随机推荐 热门推荐:推荐热门帖子*5(需看后台热烈设置属性以及数目》?5)随机推荐:随机推荐社区帖子*5
2.3 图片内容页:
Url建议为:http://ler.com/xx/图片名 xx为随意内容(考虑图库文件夹路径,可再定)
2.3.1 图片显示图片标题显示在图片下方,并给与h1标签,图片同步alt属性。
 2.3.2 上一张 下一张既使用箭头开始上一张图片和下一张图片,点击箭头,url改变。
2.3.3 相似图片推荐
2.3.4 评论系统 (非js)参考社区或官网内容评价系统
 2.3.5 显示图片标签,并可点击进入相关标签内容列表
2.3.6 社区随机内容推荐*8 社区热帖推荐 *8
2.3.7 热门测评视频推荐
2.3.8 标签推荐随机调用标签云中部分标签进行标签推荐。