你在这里

drupal 基于老葛亚艾元采集器自定义 网站信息采集

主标签

https://www.drupal.org/project/feeds        Feeds dev版

https://www.drupal.org/project/feeds_crawler     Feeds Crawler dev版

 

https://www.drupal.org/project/feeds_tamper             Feeds Tamper

 

https://www.drupal.org/project/feeds_xpathparser              Feeds XPath Parser

 

https://www.drupal.org/project/feeds_selfnode_processor        Feeds Self Node Processor dev

 

https://www.drupal.org/project/job_scheduler  Job Scheduler dev

 

https://www.drupal.org/project/feeds_smartparser   Feeds Smart Parser

 

// https://www.drupal.org/project/feeds_spider     Feeds Spider

 

https://www.drupal.org/project/views_data_export   Views Data Export

 

simplePie安装:

 

1) Download http://simplepie.org/downloads/simplepie_1.3.1.compiled.php

2) Upload simplepie_1.3.1.compiled.php to /sites/all/modules/feeds/libraries

3) Rename file from simplepie_1.3.1.compiled.php to simplepie.compiled.php

And go!!!

 

Feed Smart Parser对于SEO内容、TABLE丢失了样式,需要修改其内部的Readability.php文件第566行处增加$newNode->setAttribute('style',$node->getAttribute('style'));以隐藏SEO内容;修改882处注释掉删除样式功能。然后在FeedsSmartParser.inc文件中45行增加$content = preg_replace("/\n/","",$content);剔除换行符号。

 

以上模块都开启,Feeds Tamper Admin UI,Feeds Admin UI开启 共十个模块

 

还需配置Tamper,先上班了,有机会再详细一点点的说配置,希望对大家有用!

 

 

 

标签: 
Drupal 版本: 

猜你喜欢

谢谢分享

晴空

很详细呐  赞   深感drupal就是一个动手操作的活

扫一扫关注Drupal社区公众号LoveDrupal

qrcode_for_gh_037d374f7de5_258.jpg

照着老葛采集器的安装手册操作(我理解的手册上xpath表达的意思是把li下所有的都取得),测试了下,换了个网站,只是替换了context的class,但导入报错,啥都没有。虽然我只是想获得对应关键词的url及内容,但既然是照葫芦画瓢,好歹一个内容至少可以导入吧。请教这是咋回事?