试述搜索引擎的“瓶颈”。

试述搜索引擎的“瓶颈”。

1、搜索引擎的索引能力搜索引擎的索引量或称覆盖率对搜索结果的相关性、时效性和查全率等都具有深远的影响,Google的数据库成为公认的全球最庞大的网络资源索引。 搜索引擎数据库的规模不能说明搜索结果相关度的高低,搜索引擎拥有庞大的索引库并不意味着用户能够在优先看到的搜索结果中得到最恰当的网页。2、迎战“深网” “深网”又称暗网。主要指那些通过搜索引擎难以发现、索引、检索到信息内容的网页。产生“深网”的原因有很多:(1)一些网站出于对版权和隐私权的保护,不愿意其某些网页被搜索引擎抓取,而采取技术措施屏蔽搜索引擎;(2)互联网本身缺少统一规则,很多网站在数据结构、内容组织等方面自成一体,导致搜索引擎的蜘蛛程序无法识别这些网站内容并抓取;(3)很多站点的全部或部分内容是需要登录才能阅读的,也就是说需要先输入账号和密码,但蜘蛛程序不可能在每个网站都注册账号,所以它也没办法访问这些网页。(4)存在大量的动态网页。即在网站服务器中并不存在这个页面,只有当用户输入某个变量以后它们才会生成。3、搜索结果的排序与输出 能否把与用户检索需求最相关的高质量文档纳入结果排序的前列是衡量搜索引擎性能的关键指标之一。目前,不同的搜索引擎使用了不同的相关度排序方法,比较常见的有:(1)链接分析法,即基于超链分析的排序算法,其出发点是认为,一个网页被链接的次数越多说明此网页的质量越高,并且从更重要、更权威的页面发出的链接有更大的权重。(2)词频统计法,即以索引项的词频和位置作为相关度的判定标准,采用词频加权方法来计算相关度。

Top