大家好,今天在用drupal进行信息采集的时候遇到了一个重大很难搞得问题,具体如下:
我用Feed相关的模组对目标网页进行抓取,其中在抓取这个URL的时候Xpath规则提取到了正确的内容,但是解析的时候出了问题:
<a href="index.php?item/14">Hsu Fu Chi candies</a>这个<a>标签中的"href"属性就是我要提取的内容,我用的Xpath规则书写时这样的:concat('http://classifieds.chineseculture.biz/index.php?item/',substring(td[2]/a/@href,16)),懂XPATH的人一看就知道我写的是什么,开始导入的时候显示内容中采集是正确的:http://classifieds.chineseculture.biz/index.php?item/14,但是在采集完之后,相应的Link解析出来就访问不了了,看了一下链接地址,发现解析完之后是这个:http://classifieds.chineseculture.biz/index.php?item%2F14,就是在Xpath解析的时候出了问题。于是我又查找了相关资料,发现了Feed Temper可以进行相应的解析替换,于是在Temper 中的LinkURL中"ADD"了一个"Plugin"选择了“Find Replace”,在Find Text里面输入了:“http://classifieds.chineseculture.biz/index.php?item%2F”,在Replace Text中输入了“http://classifieds.chineseculture.biz/index.php?item/”,但是还是没起作用。清理缓存也是一样都不起作用,然后我又换了,换成了只替换“%2F”,也不行。所以想问在座的信息采集大神有什么办法可以解决呢?