1.海量数据容量毫秒级搜索:大中型网站数据量基本已突破百万级,达到千万甚至亿级,专业站内搜索引擎可达到千万级搜索结果返回时间控制在1秒内,同时可支持每秒100人的并发访问,保证大数据量和大访问量的搜索的正常运行。 字串7
2.可控性搜索范围:确保搜索海量化的同时,还必须要实现搜索范围的可控制性,把搜索限定于有效的范围内,如下载软件搜索,应只限制搜索软件下载库的软件名称、分类、介绍等,资讯类或新闻类等关联性小的范畴应该过滤掉,避免大量垃圾信息对用户满意度的冲击。 字串1
3.智能化及人性化的实现:提高语言习惯的搜索,使得搜索结果的更加准确,可对同音字、同义词、简称等进行分析,对搜索结果关键词加亮,密集度、相关度智能排序,节省用户搜索时间。
4.支持中文分词功能:在站内搜索中可对输入的词组、短语或句子进行智能拆分,支持智能搜索语义,获得更多相关的结果,减少多次搜索的次数。 字串8
5.系统负载小:在搜索之前首先对数据库进行预扫描,通过分析、转换生成中间结果并保存起来;在搜索时,首先对搜索条件进行分析及转换,再找到相应的中间结果并对这些中间结果进行合并便可以得到符合要求的搜索结果,减轻数据库负担,避免系统负载过高的崩溃现象。 字串7
6.可升级扩展性:提供接口供网站调用,显示界面客户可在程序中随意定制,搜索系统定制灵活,便于实现不同网站的植入,同时满足未来网站功能扩展的需要。
探讨:网页式搜索不可替代的站内搜索引擎
虽然站内搜索的重要性已逐渐被各网站所重视,但由于受WEB搜索技术的优越性的影响,站内搜索的解决方案被导入误区,很多人甚至不少IT人士都把站内搜索混同于互联网的搜索。 字串8
WEB网页式搜索多采用生成静态页的方式,采用这种方式的网站有一个共同的特点,页面数量庞大,静态页可以降低数据库服务器负担,降低直接成本,可以大幅度提高网站的性能。但预转成静态网页等于放弃对数据的结构性管理的功能,将产生极大的危机成本和管理成本,因为生成静态页之后,它便失去了数据库的可操作性,增加了管理难度,要求数据初始录入准确性非常高。而且随着时间的推移,静态页面越来越多,这要求有一个非常好的文件管理系统,否则出现问题,几乎无法修复。再则,网页式搜索无法让用户对搜索范围、内容和体现的结果精确控制,准确度低,垃圾信息多。这只是真正的站内搜索技术得到应用前的过渡产品。
以国内一较著名软件网站为例,此网站为用户提供的站内资源搜索,实质是利用对Google搜索设定搜索网域“site:xxxxx.com”,使其搜索范围限制于该网站内。可以说是利用现有技术在一定程度上对站内资源的搜索。选择当前热门的软件暴风影音进行搜索比较:由于暴风影音有中英文两个名称,“暴风影音”、“Media Player Classic”,所以分别搜索:暴风影音、Media Player Classic、暴风影音Media Player Classic(如果是传统数据库搜索,只能搜索暴风影音,其他两种搜索结果极可能为空),第一种搜索结果为1370个,第二种搜索结果为617项,第三种搜索结果为87项。从结果可以看出,三种搜索的结果远大于网站实质软件的数量,采用外部搜索引擎搜索虽然可以实现模糊搜索,但由于网站本身还有大量信息,导致结果非常众多,同样让用户无法接受。
与网页式搜索不同是,懒汉懒汉搜索引擎直接搜索数据库,无需对站内数据进行转换或增加辅助数据库,在搜索之前首先对数据库进行预扫描,通过分析、转换生成中间结果并保存起来;在搜索时,首先对搜索条件进行分析及转换,再找到相应的中间结果并对这些中间结果进行合并便可以得到符合要求的搜索结果。这种搜索引擎在不影响数据库功能情况下,实现了WEB网页式搜索的智能化,更重要的是懒汉搜索让用户对搜索的内容范围和体现的结果进行精确的控制,这是网页式搜索无法达到的高度。
|