|
2008年07月24日 星期四 [集日] [旧版首页]
|
|
面向搜索引擎的网站设计
作者:
发布时间:2005-12-01 >> -收藏本页-
目前中文网站在整个互联网中的影响还比较小,这主要是由于中文网站总体的水平(技术上,内容上)都还相对落后造成的,最主要的表现有: 大部分搜索引擎都认为静态链接的网页是优质网页 能够进入Google索引的页面数量越多越好。用脚本可以统计自己的网站被搜索引擎索引的情况。 网站目录结构要扁平,因为每深一级目录,PAGERANK降低1-2个档次。假设首页是3,其子可能目录就是1了,更深可能就无法列入评级范围了。 表现和内容的分离:网页中的javascript和css尽可能和网页分离,一方面提高代码重用度(也方便页面缓存),另外一方面,由于有效内容占网页长度的百分比高,也能提高相关关键词在页面中的比重也增加了。 让所有的页面都有能够快速入口:站点地图,方便网页爬虫(spider)快速遍历网站所有需要发布的内容。如果首页就是用Flash或图片进入的话,无异于将搜索引擎拒之门外,除了UI设计的用户友好外,spider friendly也是非常重要的。 保持网站自身的健康:经常利用坏链检查工具检查网站中是否有死链。 保持网页内容/链接的稳定性和持久性,对自身站点error.log的分析也是非常必要的。 文件类型因素:Google有对PDF, Word(Power Point, Excel), PS文档的索引能力,重要文档建议使用。 知己知彼——站点访问统计/日志分析挖掘的重要性 网站设计不仅仅只是被动的迎合搜索引擎的索引,更重要是充分利用搜索引擎带来的流量进行更深层次的用户行为分析。 虽然Google 新闻的内部算法至今没有公开,但是人们猜测这种完全由机器所搜集的头条新闻应当不是Google搜索引擎中惯用的鸽子算法,很可能与这种“突发”判断算法有关。如此说来,Google收购Blog工具供应商的举动确实还有更深层次的远见了。 附:Google官方的站点设计指南 Make a site with a clear hierarchy and text links. Every page should be reachable from at least one static text link. 让网站有着清晰的结构和文本链接,所有的页面至少要有一个静态文本链接入口 批注:尽量不要用图片和JAVASCRIPT Offer a site map to your users with links that point to the important parts of your site. If the site map is larger than 100 or so links, you may want to break the site map into separate pages. 为用户提供一个站点地图:转向网站的重要部分。如果站点地图页面超过100个链接,则需要将页面分成多个页面。 批注:索引页不要超过100个链接:SPIDER只考虑页面中头100个链接 Create a useful, information-rich site and write pages that clearly and accurately describe your content. 用一些有用的,信息量丰富的站点,清晰并正确的描述你的信息。 Think about the words users would type to find your pages, and make sure that your site actually includes those words within it. 想像用户可能用来找到你的关键词,并保证这些关键词在网站中出现。 批注:少用“最大”,“最好”之类的形容词,用用户最关心的词,比如:下载,歌星名字,而不是一些抽象名词。 Try to use text instead of images to display important names, content, or links. The Google crawler doesn't recognize text contained in images. 尽可能使用文本,而不是图片显示重要的名称,内容和链接。GOOGLE的机器人不认识图片中的文字。 Make sure that your TITLE and ALT tags are descriptive and accurate. 保证:页面的TITLE和ALT标记正确的精确描述 Check for broken links and correct HTML. 检查坏链并修正这些HTML错误。 If you decide to use dynamic pages (i.e., the URL contains a '?' character), be aware that not every search engine spider crawls dynamic pages as well as static pages. It helps to keep the parameters short and the number of them small. 如果你打算使用动态页面:链接中包含"?",必须了解:并非所有的搜索引擎的机器人能想对待静态页面一样对待动态页面,保持动态页面的参数尽可能的少也会很有帮助。 Keep the links on a given page to a reasonable number (fewer than 100). 让一个页面中的链接少于100个。 批注:用lynx -dump http://www.chedong.com 可以模拟从robot角度看到的页面。其最后有链接统计 搜索引擎的宗旨在于提取互联网中质量最好的内容提供给用户,任何有利于帮助用户获得相对公正,优质内容的策略都是搜索引擎追求目标。PageRank是一个非常好的策略,但是并非所有策略都是基于非常复杂的算法。 从搜索引擎看来什么是互联网中“好”的内容呢? 首先:互联网大约是8G个网页,而且以每天2M的速度增长的。其中80%以上是动态网页,而占总量20%的静态网页就是一个相对比较简单的过滤规则。
|
|