高铁采集器/火车头采集器PHP插件开发排除某个标签的重复值

 

如上图,在采集过程中,可能遇到需要排除重复数据的情况,但是火车头本身自带的功能又满足不了我们,以上情况就可以采集开发PHP插件的方法来排除拼音字段的重复值。

有点PHP基本的应该一看就会,废话不多说,上代码。

$PinYinArray = explode(',', $LabelArray['拼音']);
$UniquePinYinArray = array_unique($PinYinArray);
$UniquePinYin = implode(',', $UniquePinYinArray);
$LabelArray['拼音'] = $UniquePinYin;

解释一下:

先将拼音字符串按逗号分割成数组,再使用 array_unique() 函数去除数组中的重复值,然后将唯一的拼音数组合并成一个字符串,使用逗号作为分隔符,最后将唯一的拼音值存回原始数组中。

在火车头的Plugins文件夹下新建一个PHP文件,文件名随意,把以上代码写入到此php文件中,最后在采集器中的第四步,其他设置中的插件里选择刚才新建的插件文件即可。

 

已下是经过PHP插件处理后的结果。

 

以上教程放给有需要的小伙伴。