在 eclipse 中,运行 Nutch2.3.1

教程 Imba ⋅ 于 2017-03-14 20:48:15 ⋅ 1292 阅读

导入之前的准备工作

  • 首先得配置一下nutch,详见 http://verimake.com/topics/28
  • 在conf/gora.properties文件中,找到关于mongodb的设定,默认是被注释掉的,只需要解除注释即可
  • 创建urls文件夹,存放要爬取的网址

导入Nutch到eclipse

  • 1.在eclipse中,单击“File”->“Import...”
  • 2.选择“Existing Projects into Workspace”

file

  • 3.点击Select root directory对应的Browse..,选择nutch。单击Finish。

file

  • 4.右击nutch工程,选中 “Build Path” -> “Configure Build Path”

file

  • 5.在 “Order and Export” 选项卡中, 找到 “nutch/conf”,点击 “Top” 按钮,点击OK。

file

  • 6.打开src/java/org.apache.nutch.crawl.InjectorJob进行如下改动,注释行260-263,将行275的args[0]改成urls的目录

file

点击右键,“Run As”->“Java Application ”,若看到如下图所示,则为成功。

file

  • 7.打开src/java/org.apache.nutch.crawl.InjectorJob进行如下改动

file
同上,点击右键,“Run As”->“Java Application ”
依次打开FetcherJob,ParserJob,DbUpdateJob进行赋值跟注释即可运行。

本帖已被设为精华帖!
本帖由 YX 于 3年前 加精
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,使用方法请见 Emoji 自动补全来咯,可用的 Emoji 请见 :metal: :point_right: Emoji 列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter