Z-BlogPHP插件:简单采集器 1.3.5

Time:

Author:漠漠睡

插件说明:

没有前端、没有UI、没有设计,页面确实不怎么好看


仅支持MySQL

插件只提供功能,不保证所有网址均可正常采集,请根据实际情况选择是否购买插件

本采集插件使用非框架采集,因此功能上会比采集框架少

仅130K达到绝大多数采集框架功能

运行速度更快

负载更低


1.采集方式

1.1.本采集插件使用非框架采集,因此功能上会比采集框架少

1.2.采集方式目前只有正则采集

1.2.1.截取方式支持“<div id='content'>[内容]</div>”写法

1.3.支持采集间隔设置(未避免高频访问拉黑或服务器中断)

1.4.自定义字段必须使用ZBP的发布字段才能正常使用

2.其他说明

2.1.腾讯新闻和新浪新闻已测试可以正常采集

2.2.采集教程:《简单采集器》基础采集教程

2.3.已知绝大部分JS内容无法采集

2.4.已知绝大部分需要二次拼接的链接无法获取

3.其他说明

3.2.现在依旧不能正确在除了数据处理->内容替换以外的地方使用HTML转义字符

3.2.1.可以保存一次,但是二次保持将会使内容被转义,需要重新设置

3.3.现在依旧不能在开启PHP安全模式的空间下正常运行

更多详情请查看下方更新说明


更多有趣的,实用的SEO工具,请前往ZBlogSEO工具包


1.3.5.更新说明(2020-08-01)

1.优化

1.1.优化一个自动采集任务结束时的处理方式,避免自动采集占用独立进程


1.3.4.更新说明(2020-07-31)

1.优化

1.1.优化内容处理,获取的最终内容将自动补全url地址(a标签href地址 和img标签src地址)

1.1.1.采集规则设置时,使用的是未补全地址的html内容


1.3.3.更新说明(2020-07-30)

1.优化

1.1.优化数据处理的顺序,将工具箱调整为最后一步执行,避免某些情况下无法获取”定位“的问题

1.2.优化数据处理-内容替换的显示效果,避免某些情况下,使用特殊字符,如引号、斜杠等

1.3.优化数据处理-内容替换,当被替换的内容为空时不能自动删除的问题


1.3.2.更新说明(2020-07-25)

1.修复

1.1.修复一个问题,该问题曾导致某些特定情况下的UA、COOKIES、REFERER设置不生效


1.3.1.更新说明(2020-07-21)

1.修复

1.1.修复当前站点开启SSL后并使用HTTPS登录后,部分站点不能正常自动运行的问题

1.2.修复部分情况两次运行间隔实际比预设过长的问题

1.3.修复任务编辑界面->基本设置->内容发布设置遗忘未设置导致的不能正常发布,但是记录已发布的问题

1.3.1.只是调整为赋予一个默认变量而已


1.3.0.更新说明(2020-07-20)

1.新增

1.1.新增自动采集

1.1.1.任务添加后,可选开启自动采集功能

1.1.1.1.在任务管理页面点击自动采集(是|否)可开启或关闭自动采集功能

1.1.2.自动采集功能依赖网站前台的用户访问,暂不支持纯静态网站或开启纯静态插件的网站,暂不支持开启部分文件缓存插件的网站

1.1.3.自动采集默认访问任意以index.php页面为入库的请求开始进行自动采集计划任务

1.1.4.自动采集每次仅产生一个线程,有插件目录下指定文件进行开关控制,安装插件请确认网站插件文件夹为可读写,切所有权为www或其他正常权限用户

1.1.5.若任务配置不齐全,将自动关闭该任务的自动采集功能

1.1.6.为避免不必要的售后问题,每次自动采集任务间隔最低5分钟

1.1.7.支持查看当前执行的任务或最后一个任务的执行结果,且自动刷新30秒

1.2.数据处理中的替换字段,现在可以正确的删除,而非一直保留

1.3.数据处理中的替换字段,现在可以正确的使用HTML转义字符了,但还是请不要使用一些JS中的特殊字符,

1.4.现在可以正确的避免重复采集相同的链接了。

1.5.现在可以正确的获取一些gbk、gb2312的页面了,但是需要在基本设置中进行设置或指定选择

1.5.1.可选自动获取,但是不保证一定能够获取到正确的内容,虽然可以适配绝大多数

2.优化

2.1.优化编辑任务中基本设置的放置样式

2.1.1.将之前的竖向展示调整为横向展示,现在可以更好的查看是否设置完全了

3.其他

3.1.这里是为了重复强调一些事情

3.2.现在依旧不能正确在除了数据处理->内容替换以外的地方使用HTML转义字符

3.2.1.可以保存一次,但是二次保持将会使内容被转义,需要重新设置


1.2.

1.新增

1.1.调整字段

1.1.1.将标题和内容设为固定必须有的值

1.1.2.将新增字段添加变为选项,可以选择既有的内容,或自定义

1.1.3.自定义仅可输入大小写字母和数字(因为我相信没有人会在PHP里使用中文自定义变量)

1.2.将简单采集器快捷入口添加至后台顶部右侧栏

1.3.新增一个按钮,点击该按钮可以解决在采集报错后无法再次执行采集的问题

2.新增ZBlogPHP本地发布方式

2.1.取消内容发布必须经由火车采集器发布插件才能发布的问题

2.2.现在可以直接在插件内容发布配置页面选择发布的形式

2.3.可选禁止重复标题

2.3.1.开启禁止重复标题后,重复标题的链接将不会写入数据库(也就是说下次采集依旧会访问该页面),处理方法已有头绪,将会在后续更新时调整

2.优化

2.1.调整任务管理页面显示的样式,使其变得稍微好看那么一丢丢

2.2.调整测试页面的显示样式,使其变得稍微那么好看一丢丢

2.3.大区域中的小区域也可以点击小标题进行隐藏了


1.1.

1.新增

1.1.新增通配符(*)和[内容]现在可以直接点击写入规则中

1.2.新增动态加载的内容可以同时删除而非之前的需要刷新后才能删除

1.3.将主体模块分为四块,每次只会显示一块的内容,现在看起来更简洁了

1.3.1.虽然依旧是没有WEB前端和UI的锅,看起来依旧不那么好看,至少我觉得过得去了

2.修复

2.1.修复一个问题,该问题曾导致开始采集后,任务会重复执行,现在可以正确的只执行一次,直至当前任务执行结束后才会继续执行

3.优化

3.1.为避免误操作,将“重建数据库”按钮调整至新建任务的最右侧浮动,虽然可能对移动端不太友好,但是至少可以在一定程度上放置误操作了





下为演示,每当主要内容被修改后,会同步更新演示图片(2020-03-29更新)


image.png


image.png


image.png

image.png

image.png