获取自己感兴趣的信息。来自CNNIC的第十七次中国互联网发展状况统计报告的数据:截止2005年12月31日国内上网用户总人数为1.11亿人;在网民经常使用的网络服务、功能调查中,搜索引擎的使用率为65.7%,位居第2。由以上数据我们不难确定搜索引擎服务在信息社会中的重要地位。从1990年,TimBerners—Lee正式开始运行基于P协议的万维网至今,互联网页面的数量始终以跳跃式的发展速度激增。根据搜索引擎ASKJeeves公司高级产品经理AntonioGuli和爱荷华大学教授AlessioSignorini在2005年5月共同作出的一项研究表明,主流搜索引擎已经可以索引到全球互联网“可见网页”中85%的网页数量,即超过ll5亿页文件。虽然尚不能覆盖到整个互联网,可是这些索引页面反馈回来的结果量已经很大了,人们不可能对结果一一浏览,对搜索引擎来说收录页面数量的多少已不再是关键,关键是在于怎样能把最有价值的信息优先输出到命中结果页面。这方面的研究贯穿于网页获取到建立索引的整个搜索引擎工作过程,我们在这里主要对结果的改进提出些建设性意见。 搜索引擎原理的分析和改进目前各个搜索引擎对机器人抓取网页、网页内容解析、建立索引文档等均有自己复杂的技术,但是其中最能体现搜索引擎设计思想的就是对搜索结果的排序。面对成千上万的命中结果,用户不可能都去点击浏览每个页面,他所关注的也就是前几十条记录,那么能否把最合乎用户需求的结果排在前列直接影响着用户对该搜索引擎的满意程度。目前google和baidu两大搜索引擎均采用的是类似超链分析的排序技术,在这里我们以google的专利PageRank来进一步了解超链分析技术。
超链分析技术的原理
PageRank是Google用来确定一个页面相关性或者重要性的技术,通过其对互联网上每个页面计算出来的PR值来衡量网页的重要性并最终影响网页在结果中的排序。引用Google论文的原文,PageRank值是这样定义的:“我们假定页面A有T1Tn这些页面指向它(即T1Tn引用页面A)。参数d是一个设置于0与1之间的阻尼系数,我们通常设置d为0.85。另外,C(Tn)定义为网页Tn的出站链接数量。则页面A的PageRank值由下面的公式得出:PR(A)=(1-d)+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn))图书馆学研究2006.7由以上公式可以看出三点:
(1)链接指向A的网页越多,A的PR值越高。即A的PR值和指向A的网页个数成正比,在公式中表示,n越大,A的PR值越高;
链接指向A的网页,其来源网页PR值越高,A的PR值也越高。即A的PR值和指向A的网页自己的网页PR值成正比,在公式中表示,网页Tn的PR值越高,A的PR值也越高;
链接指向A的网页,其链出的个数越多,A的PR值越低。即A的PR值和指向A的网页自己的网页链出个数成反比,在公式中表示,网页Tn链出个数越多,A的PR值越低。这种“从许多优质的页面连接过来的页面还是优质的页面”的设计思路是符合网站发展的规律的,同时也摆脱了人为因素对结果的干扰。任何一个页面的重要性均由互联网上其它页面“投票”所决定,如果要提升在google结果中排序地位,只能更加注重自身网页内容的建设,以期望被PR值高的站点收录来提高自己的PR值,即使在众多网页中互相链接,也会因这些页面本来的PR值都很低而对最终PR值影响很小。从1998年的PageRank算法发明至今,google的排序算法一直以PageRank为主并未有太大的改进,只是在2003年11月的“FloridaUpdate”和2004年初的“AustinUpdate”中我们看到很多网站的排名突然下降,有的主要关键字排名甚至会消失。这两次比较大的更新业界统称为“sandbox”现象。虽然google并没有解释是否启用了新的排序算法,可是在2001年google就拥有的HillTop算法专利渐渐浮现在大家眼前。HillTop算法指出:在利用页面等级“来寻找”权威“网页时,不应单纯依赖于PR值的大小来定夺,而应将重点放在它与查询主题的相关性上:即不但需要考虑网页的页面等级,还要考虑该网页的页面主题内容与查询主题的相关性是否相称。若一个网页只与查询主题沾点边,那么即使其页面等级非常之高,对用户来说也是没有意义的。如此一来,于网页而言,具有相同主题的相关文档链接对于搜索者的价值会更大。在最初的PageRank算法中,指向一个网页的外部链接页的页面等级越高,则该链接页面传递给该网页的页面等级值也就越高。如果该页面只是在内容中出现了关键词,可主题内容与该关键词相差很大,也会因其存在的页面PR值大而获得一个比较高的排名。HillTop算法关于相同主题的相关文档的链接对于搜索者价值会更大的描述很好的弥补了PageRank算法的不足。目前PageRank算法结合HillTop算法的排序技术是google决定网页排名的重要手段。
算法的不足与改进建议历次google算法的改进其重点都是旨在使对网页相关性的评测更为精确,而网络信息资源的另一大特性时效性对网页重要性的影响却一直没有考虑到。我们假设同一网站内对相同主题A在2005年的报道页面为B,2006年的报道页面为C,n是链入B页面的数量,C(Tn)是网页Tn的出站链接数量,m是链入C页面的数量,K(Sm)是网页Sm的出站链接数量,d为阻尼系数0<1则nB页面存留互联网时间长于C页面存留互联网时间,链接指向B的网页也应多于链接指向C的网页,推断出(S3)-(S3)/KPR(T1)(T3)/C(S2),PR(S2)/K(T2)(T2)/C(S1),PR(S1)/K(T1)/C即由于页面B和C均来自同一母网站,我们可以推断,链入B和C的网页的pr值和出站链接数量近似相同,
在google中输入检索式“春运”,对前30条结果的年代分布进行统计。由图1可见,前30条结果中2005年春运信息页面占47%,而2006年春运信息页面占7%,明显少于过往年份的页面量。以上两个实例充分证明了我们推断的正确性。同时也说明了google在对结果的排序中,对那些陈旧的、存在历史长的网页有利,而比较新的页面因为存在时间短不能显示在结果的前列。那么这些比较新的页面和比较陈旧的页面哪个对用户来说更有价值呢同样来自第十六次中国互联网发展状况统计报告的调查:用户在互联网上查询信息时遇到的最大问题是信息太陈旧,更新慢以27.5%的比率位居第2。由此我们知道用户对信息的时效性非常重视,面对每天大量新信息的涌现,陈旧页面的价值变得越来越低。而目前搜索引擎的排序算法尚不能结合页面实效性对结果进行合理的排序,这也将成为用户对搜索引擎不满意的一个方面,如何结合信息时效性更合乎用户的需求,对结果排序已经是下一次算法更新必须要考虑的了。
对过度优化网站行为的约束目前网络营销中的一个分支搜索引擎营销受到了越来越多的关注,搜索引擎营销专注于研究怎样利用搜索引擎的搜索规则来提高目的网站在有关搜索引擎内的排序位置,其关键就是采用搜索引擎优化(SEO:SearchEngineOptimization)技术。合理的利用SEO技术会使自己网站的设计更为规范,更容易被搜索引擎收录,可现在很多商业网站将网站的推广全部寄托在搜索引擎优化上,却不重视自身内容的建设,这样的行为严重干扰了搜索引擎排序的公正性,属于网站作弊的行为。虽然历次搜索引擎技术的更新中删除了很多这样的网站,可是还有些作弊方式没能及时屏蔽,在这里让我们来关注一下常用的作弊手段。
网页重定向使用刷新标记(MetaRefresh)、CGI程序、Java、JavaScript或其他技术,当用户进入该页时,迅速自动跳转到另一个网页,重定向使用户访问的网页与搜索引擎结果页面不同。由于很多博客站点和留言板支持htmI语言,所以在留言信息中插入一段类似的代码就可以实现重定向到用户不想去的页面,我们在google中搜索“彩信”,命中的第八个页面就插入了这样一段重定向代码,点开最初的链接后,页面会很快自动跳转到网站,从而欺骗了用户。
滥用Meta堆砌关键字Meta标签是内嵌在网页中的特殊htmI标签,目前大部分的搜索引擎机器人都通过自动查找Meta值来给网页分类,是籍此判断网页内容的基础。Meta标签包括很多种,但最重要的是description(网站描述)标签和keywords(网站关键词)标签,如果在description标签和keywords标签字段内严重堆砌关键字或者热门词汇,则会干扰搜索引擎结果的准确性。
隐形文本/链接为了增加关键词的出现频次,故意在网页中放一段与背景颜色相同的、包含密集关键字的文本。访客看不到,但搜索引擎是直接读取网页的html源码,所以能收录到。类似方法还包括超小号文字、隐藏文字层等手段。
垃圾链接加入“链接工厂”(亦称“大量链接机制”)指由大量网页交叉链接而构成的一个网络系统。一个站点加入“链接工厂”后,一方面它可得到来自该系统中所有网页的链接,同时作为交换它需要“奉献”自己的链接。籍此方法来提升链接得分,从而达到干预链接得分的目的。
偷换网页是在一个网页成功注册并获得较好排名后,用另一个内容无关的网页来替换它的行为。种种的作弊行为干扰了用户使用搜索引擎并获得公平结果的权利,也严重影响到了搜索引擎的质量和声誉,各大搜索引擎厂商也都深恶痛绝,一旦发现作弊网站,轻则降低排序,重则取消收录资格。面对各路形形色色的作弊方式,搜索引擎厂商也应该及时观察互联网的变化,尽早将这些行为扼杀在萌芽阶段。
结果输出的优化根据着名搜索引擎营销公司iProspect在2004年4月公布的“SearchEngineUserAttitudes”(搜索引擎用户调查)报告,有以下三组值得我们关注的数字:22.6%的搜索引擎用户只浏览返回结果的前几项结果,另有18.6%的用户了解完第一页后就停止搜索活动(这部分总计41.2%);超过25.8%的用户只完成前两页的结果浏览后就结束搜索活动:l4.7%的用户(总计81.7%)能够耐心浏览完前三页。以上信息告诉我们,有超过4/5的用户只关心搜索引擎结果的前三页。可每次搜索命中的结果量少则数千多则数十万,怎么能把用户最感兴趣的结果放在前列呢除了通过算法来确定排序外,我们还应该考虑到输出结果版式的改进,尽量把更多的结果信息放到前几页当中去。现在一个比较成熟的方法就是对重复信息的链接进行合并,即将页面信息重复的链接不一一呈现在结果页面中,用一外部链接来单独显示这些重复的链接地址。实际上互联网上的信息很多都是重复的,这些重复的信息用户只需要看一遍即可,如果打开多个链接看到的都是一样的信息,对于用户获取信息是没有成倍价值的,反而浪费了更多的时间。在google推出的学术搜索引擎(htp://scholar.google.com/)中已经有这样的优化实现了,它会将同一文献的不同链接地址放在一条结果信息中,这样用户就可以在前三页中看到更多的页面链接,从而提高了工作效率。
在很多互联网信息服务满意度调查中,我们欣慰地看到搜索引擎的满意度一直高居首位,但我们面对着每天数千万新网页的涌现;面对网页制作技术的不断发展以及用户对信息准确性需求的更高,使我们对搜索引擎的优化工作不能有丝毫倦怠。只有紧随网络的发展不断改进搜索引擎技术,方可使用户更加满意。本文主要对PageRank算法下一步更新中基于网页时效性改进的必要性进行了论证;对常用网站作弊技术予以揭示,同时提到了对重复信息结果输出的一点改进,还有很多具体层面的技术需要定量分析,这也留给了我们更多研究的空间。
|