1.nutch建立索引成功,通过lucene直接搜索索引文件可以搜索到相关结果,但是通过nutch搜索不到结果
解决方案:
<property>
<name>searcher.dir</name>
<value>crawl</value>
</property>
在nutch-default.xml中配置searcher.dir的默认路径为crawl,nutch会到crawl这个路径里面搜索,而你的索引文件跟本不在这个目录下面,所有搜索不到结果.
你可以在nutch-site.xml中加入searcher.dir这个属性的配置,value为nutch的索引文件的上一级目录.
比如: 你的索引文件为f:/temp/index,你应该配置为f :/temp
<property>
<name>searcher.dir</name>
<value>f:/temp</value>
</property>
搜索不到的另一个原因:
nutch是通过BooleanQuery来搜索的,当你搜索相关内容的时候,默认会搜索所有的FIELD.
你必须保证所搜索Field之间的相关关系为BooleanClause.Occur.SHOULD
2.怎么高亮显示搜索结果
Hits hits = bean.search(query, 10);
HitDetails detail=bean.getDetails(hits.getHit(i));
Summary summaries = bean.getSummary(detail, query);
String content=summaries.toHtml(true); //这样得到高亮显示的HTML
3.nutch在控制台跑不来的原因
nutch-default.xml文件里面配置了nutch的相关配置文件.
而nutch在读取这些文件的时候,是通过Configuration.class.getResource("")(读取当前类路径)来读取相关配置文件的.
所以跑不起来,须先看看你的相应配置文件,在不在你的类路径下..
类路径必须包含的文件有:
mime-types.xml
common-terms.utf8
parse-plugins.xml
nutch-site.xml
nutch-default.xml
regex-urlfilter.txt
crawl-urlfilter.txt
4. 网页快照如何实现
nutch通过相关词进行搜索网页的时候,会查询出这个关键词对应的相关信息..
比如:title,url,content等等.
通过URL我们可以链接到相关真实的URL.
而网页快照其实是nutch在索引时,索引以前网页的内容.
所有当点击网页快照时,我们根据索引文档的ID,去索引出原网页内容.
Hit hit = new Hit(getIndexNo,getIndexDocNo);
HitDetails details = bean.getDetails(hit);
String content = new String(bean.getContent(details));
先写到这里,后面会继续补充..............................
分享到:
相关推荐
nutch常见问题归总,对初学nutch的一些问题做出的整理
解决Nutch摘要问题,跟nutch摘要相关的一些问题
nutch部分网页乱码BUG修正,有代码和详细修改说明
nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据
Nutch 解析器parse部分代码笔记
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
学习nutch 源码解读 轻松入门 搭建自己的nutch搜索引擎
eclipse配置nutch,eclipse配置nutch
nutch配置文件的备注 解决代理问题
6. nutch分析方法和工具........33 6.1 Crawldb......33 6.2 Linkdb........35 6.3 Segments....35 6.4 Index..39 7. nutch分布式文件系统........41 2007-8-26 北京邮电大学-李阳 Nutch入门学习 7.1 概述...41 7.2...
nutch使用&Nutch;入门教程 pdf
我自己对nutch安装开发环境的一些理解,以及遇到问题的解决方法
1.1 Nutch 基本原理 1.1.1 Nutch 基本组成 1.1.2 Nutch 工作流程 1.2 Nutch 流程详解 1.2.1 Nutch 数据流程 1.2.2 Nutch 流程分析
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对...
Nutch搜索引擎·Nutch简单应用(第3期) 1.1 Nutch 命令详解 1.2 Nutch 简单应用
nutch1.2测试文档
nutch插件,安装nutch插件,mysql与nutch
Nutch开发入门 Nutch安装和使用 Nutch二次开发 很不错
nutch配置nutch-default.xml
NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.NUTCH安装步骤.