这是我这几天用火车头采集器之后的个人理解。
【火车头采集规则】
采集规则从目标网站采集内容,并保存在火车头的任务数据库。
【火车头发布模块】
WEB发布模块和数据库发布模块,可以在【火车头->工具->WEB发布配置管理】和【火车头->工具->数据库发布配置管理】进行新建或者导入。
WEB发布模块将火车头采集的内容发送到你的网站。
一般情况下,火车头把采集内容处理好以后,可以直接把采集内容发送到你网站的发布内容页面。
对于网站已经存在的内容火车头发布模块是无法判断的,所以你把采集内容通过火车头发布两次,可能你的网站会有两篇相同的内容,这个时候你就要用相应的火车头发布接口去处理。
【火车头发布接口】
火车头发布接口需要和火车头发布模块配合
火车头发布接口实际上就是一个程序,它是放在你的网站上的。
它接收从火车头发布模块发送过来的采集内容,对采集内容进行处理以后,比如下载图片,过滤链接,伪原创替换,对已存在内容只进行更新,生成内容页面等等,然后保存到你网站的数据库。
有些采集内容内容数据火车头无法处理,或者需要火车头商业版才能处理的,这时候可以通过接口处理,所以发布接口更灵活。
发表评论: