试述“主题爬虫”技术与垂直搜索引擎的特征,并分析仅利用“主体爬虫”技术是否可以达到其搜索目标。
“主题爬虫”是根据一定的网页分析算法过滤与主题无关的链接,保留主题相关的链接并将其放入待抓取的网页URL,并重复上述过程,直到达到某一条件才停止。
垂直搜索引擎的特征主要有3项:
1)信息采集:在信息采集上,垂直搜索引擎采用主动采集和被动采集相结合的方式。垂直搜索引擎提供的是更为专业的行业检索服务,因此对信息采集的深度要求要高于信息采集的广度要求;垂直搜索引擎对动态网页的采集优先级较高。
2)信息加工:与其他搜索引擎的最大区别:对网页信息进行了结构化信息提取加工,将网页的非结构化数据提取成为特定的结构化信息数据。通用搜索引擎进行检索的最小单位是网页:垂直搜索引擎的最小单位是结构化的数据。两种数据:网页元数据:内容中的结构化实体信息,二者不同。
3)信息检索:垂直搜索引擎可以提供结构化与非结构化相结合的方式进行检索,并具有更加多样的结果排序方式。
从上述垂直引擎的特征可以看到,“主题爬虫”技术仅能抓取链接,难以分析结构化的信息,因此,垂直引攀还必须具有Web信息提取技术,即通过“包装”现有Html信息数据源,将网页中的信息数据提取并以更为结构化、语义更加清晰的方式发布出来,为应用程序利用Web中的数据提供了可能。
上述回答若意思匹配,但语句不尽相同,酌情给全部或部分分数。适当阐述再给2分。