首先在Heritrix工程中创建类包my.processor.
接着创建类FrontierScheduleHangD。
详细代码:
package my.processor;
import java.util.logging.Logger;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler;
public class FrontierScheduleHangD extends FrontierScheduler{
final static Logger logger=Logger.getLogger(FrontierScheduleHangD.class.getName());
public FrontierScheduleHangD(String name)
{
super(name);
}
protected void schedule(CandidateURI caUri)
{
String url=caUri.toString();
if(url.endsWith(".jpg")
||url.endsWith(".gif")
||url.endsWith(".doc")
||url.endsWith(".html"))
{
return;
}
getController().getFrontier().schedule(caUri);
}
}
接下来就是把自己的类加入到mudules选项中,如下如所示:
最后Add自己的Frontier。
责任编辑:小草