在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势网站是企业进行信息发布的平台,是企业对外的形象和窗口针对网站目前的访问信息,对网站的设计进行优化,建设一个更合理、更易用、注重个性化和相关性的网站,以此提高用户满意度,提升网站知名度,带来切实的经济和社会效益网站优化后不仅使得用户易于使用,并获得个性化服务;而且对于网站运营者而言,能为用户提供更加合理的网站结构、美观安全的页面、优秀的内容和良好的运行环境。
现阶段,智能化网站优化的主要途径为:利用数据挖掘方法进行网站优化(即Web挖掘)Web挖掘是数据挖掘在Web上的应用,它利用数据挖掘技术从与WWW相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息,涉及Web技术、数据挖掘、计算机语言学、信息学等多个领域,是一项综合技术,许多软件公司和研究机构在此方面已投入了许多研究和开发工作具有影响力的Web使用挖掘系由于这些系统主要数据源是web日志,用途是为网站的设计者和管理者提供网站的使用情况分析,从而为网站优化提供帮助,对商业决策的帮助很少Btichner等人实现了一个面向客户关系管理的web日志挖掘系统此系统的功能是客户关系管理,但是只管理注册用户其它面向电子商务的Web数据分析工具有IBM公司的SurfAid,BlueMartini,ECOM-MINER等现有的此类Web数据分析工具的功能主要注重信息统计,而不是数据挖掘功能本文利用web挖掘技术设计一个网站优化系统,并给出频繁项集发现算法用以挖掘网站中被浏览者频繁访问的网页集合以及序列模式挖掘算法用以挖掘网站中频繁访问的页面序列,这两种结果用于改进网站设计,提高网站运营效益。
Web挖掘Web挖掘是应用数据挖掘技术自动从Web文档和服务中发现和抽取感兴趣的、潜在的、有用模式和隐藏的信息Web挖掘可在很多方面发挥作用,如对搜索引擎的结构进行挖掘、确定权威页面、Web文档分类、Web日志挖掘、智能查询等Web挖掘可分解为以下几个子任务:
资源发现:从Web上检索期望的Web文档和服务。
信息抽取和预处理:从已检索的Web资源中自动抽取和预处理指定信息。
一般化:在Web站点自动发现通用模式。
分析:已挖掘模式的确认与解释根据使用的Web数据种类的不同,Web挖掘可分为三类研究:Web内容挖掘(webContentMing),web结构挖掘(WebStructureMing)和web使用挖掘(WebUsageMining)。
Web内容挖掘Web内容挖掘是从文档内容或其描述中抽取知识的过程Web内容挖掘揭示网页的主题,但并不关心谁会真正阅读它包括两种策略:Web文档挖掘和搜索结果挖掘采用第一种策略的方法是直接挖掘文档的内容;采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和更为有用的信息常见的Web内容挖掘技术主要有对Web上大量文档集合的内容或搜索结果的文本摘要、分类、聚类、关联分析,以及利用web文档进行趋势预测等。
Web结构挖掘Web内容挖掘仅将Web看作是一个平面文档的集合,而忽略了其中的结构信息,然而,Web不仅由页面组成,而且链接页面的超链接组成,超链接环境的网络结构具有非常丰富的信息,包含了大量的潜在的人工注释Web结构挖掘是从Web的组织结构和链接关系中推导知识,揭示了哪些页面通过当前页面可以两步内到达,但并不关心多少人会实际用到这条通路通过挖掘Web结构可以发现页面的结构和的结构,在此基础上对页面进行分类和聚类从而找到权威页面这方面工作的代表有。PageRank和CLEVER
Web使用挖掘Web使用挖掘是通过分析和探究Web访问记录中的规律,从中抽取感兴趣的模式主要包括两个方面:一般的访问模式追踪和个性化的使用记录追踪一般的访问模式追踪通过分析使用记录来了解用户的访问模式和倾向,以改进站点的组织结构而个性化的使用记录追踪则倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点web使用挖掘的整个过程可以分为:数据预处理,模式发现和模式分析等任务数据预处理阶段根据数据挖掘要求把原始数据转换成挖掘算法可用的数据,必要时把它加载到数据库中模式发现阶段使用各种数据挖掘方法分析可用的数据,这些方法从简单的统计分析,到计算量很大的关联规则、序列模式、分类、聚类等模式分析阶段是由于模式发现的结果往往包含许多无用的模式,需要采用各种方法(如兴趣度、模式可视化)分析和过滤出需要的模式。
网站优化系统基本框架网站优化系统~共包括三个主要模块:日志预处理、结构抽取和结构优化日志预处理属于数据预处理阶段,该模块包括将日志导人数据库表中,数据库表中的字段根据日志格式中的字段进行选择定义;数据清理从web日志文件中过滤无关的页面请求以及不成功的页i面请求;识别用户采用IP+Agent机制实现;路径修补将由于缓冲而造成日志文件中丢失用户访问链接记录根据站点结;陶补充完整以便后续结构优化模块提供准确的用户访问记录。
结构抽取模块是指抽取网站链接结构,输出网站结构拓扑图,可用于辅助结构优化、日志解析中,如路径修补等。
结构优化是模式发现和模式分析阶段,该模块包括频繁访问模式分析和序列模式分析两部分频繁访问模式分析给出频繁访问的页面集合,展示页面的重要程度,展示访客来源分类;页面的访问情况,访客百分比,停留时间,离开百分比,以图表形式展现序列模式分析任务是找到方便用户易于使用的搜索合理的页面链接组合。
|