运行在计算机上的网络精神收集工具;用户成功安装软件后,点击快捷方式进入软件主界面,设置相关采集信息,点击开始按钮,完成任务采集;软件下载网页的数据,大家免费使用。智能采集功能为您节省大量时间,二次开发的功能注册采用分布式部署。感兴趣的朋友不要错过!
软件功能
源文件查看器
在设置采集任务时,需要对网页的源文件进行分析,以确定如何提取里面的信息。源文件查看器是软件附带的工具,文件名为htmlview.exe。
常规测试仪
软件附带的正则表达式测试工具。
网站编码器
用于用中文字符对URL进行编码或对编码后的URL进行解码。
任务升级设备
您可以将任务文件的较低版本升级到新版本。
在线出版商
当地数据可以在线发布到网站上。
HTML标签
在收集时,软件会自动从内容中删除HTML标签,但是,用户可以选择保留一些标签。在这里维护一个标签库,供你在编辑任务时选择。
正则表达式
这里维护预置的正则表达式,用于“采集结果替换”。
插入“增量变量”
在起始地址中,除了“页码变量”之外还可以使用增量,例如http://www.aaa.com/search.asp?关键字=Beijing start={0,1000,20},表示起始参数会从0变化到1000,每次增加20。
插入“反转页码变量”
适合反向收集,即先收集排名靠后的页面。例如:http://www.aaa.com/search.asp?关键字=京页={100,1,-1},这意味着页面参数会从100变为1,每次减1。
插入POST参数的开头和结尾
假设这是一个信息查询的页面:http://www.aaa.com/query.asp.在这个网站上查询后,URL中没有显示任何参数,因为它们是通过邮件提交的。在软件中,如果参数包含在{POST}和{/post}之间,则表示模拟提交帖子。例如:http://www.aaa.com/query.asp? { POST } keyword=Beijing page={ 1,100}{/post},表示通过POST提交关键字和页面参数。page参数就是上面说的页码参数,这里指的是收集1到100页。
插入年、月、日和日期变量。
假设这是一个带有“日期变量”的起始地址:http://www.aaa.com/news/{time:yyyy-MM-dd}/news_list.asp,及其“日期变量”将在收集时被替换为当前日期,例如http://www.aaa.com/news/2007-05-24/news_list.asp.
对所选部分进行编码/解码
起始地址文本框的选定部分是URL编码或解码的。注意:如果起始地址中有汉字,一般情况下,URL必须进行编码。
捕获URL
访问某些网站时,URL中不显示任何参数,因为这些参数是通过POST提交的。如果无法获取这些岗位参数,就无法通过软件进行访问和查询。在这里,您可以捕获文章的URL,包括隐藏的文章参数。捕获后,URL将自动填充到起始地址文本框中。
软件特色
发布结果
默认情况下,软件会将收集结果保存到结果文件中,发布结果意味着将结果文件中的收集结果发布到现有数据库中。
结果导出为
将结果文件中的收集结果导出为ACCESS、EXCEL和文本文件。
检查结果
在结果文件中查看收集结果。
空结果
清除结果文件中的收集结果。
发布时重复行
将采集结果发布到数据库时,可以检查数据的重复性,避免重复采集。这里的“重复行”是指在发布时与数据库中现有记录重复的数据行。您可以选择将这些重复的行保存到一个文件中,供以后查看。您可以在这里查看和清除重复的行。
发布时出现错误行
将收集结果发布到数据库时,可能会出现错误,例如,现有数据字段的长度太小,无法容纳收集的信息。为了便于将来查看,您可以选择将这些失败的数据行(即“错误行”)保存到一个文件中。您可以在这里查看和清除错误行。
历史
软件在采集时支持历史记录对比,即通过查看历史记录来判断该地址是否已经采集,如果已经采集,则不采集。在这里您可以查看和管理历史记录。
任务日志
您可以选择将任务的运行日志保存到文件中,以便查看日志。
:
使用方法
1.在本站河东软件园下载软件后,软件解压成功,点击poster.exe运行软件;
: 2.点击应用图标进入软件主界面,可以设置相关选项;
: 3.单击文件夹图标以选择本地数据库文件;
: 4.发布后是否删除本地数据,也支持设置缓存的大小;
5,目标地址编辑窗口,快速完成参数名称的查找和设置;
6,可以查看抓取的地址参数;
: 7.设置用户自定义错误,包括显示错误列表;
: 8.设置完成后,点击开始发布按钮,查看已发布的状态信息;
9,查看软件相关信息;
10,支持用户查看工作流;
使用说明
简介收集示例
实例分析
新闻采集最常用,也最容易理解。我们以一个简单的新闻采集任务为例。这个任务有两个层次:“新闻列表”和“新闻内容”。我们以新闻列表为“起始地址”,然后通过“导航规则”从新闻列表中提取“新闻内容”的网址,最后根据“收集规则”收集所需内容。
创建任务
在软件主窗口中,单击任务-新建以打开任务编辑对话框来创建任务。我们来讨论一下如何通过图形混合一步步填充设置:
步骤1:任务概述
在“任务概述”中,我们只需要填写一个任务名称:郑州大学新闻信息。其他设置暂且不讨论,等你熟练了再参考我们的帮助文档。
第二步:开始地址
起始地址是我们要收集的内容的入口地址,这里是“新闻列表”:http://www3.zzu.edu.cn/msgs/vmsgisapi.dll/vmsglist? mtype=xlan=202 TTS=tops=pn={ 1,100} .其中“pn”为分页变量名,浏览“新闻列表”时翻页即可观察到。如果“pn=1”表示第1页,“pn=2”表示第2页,依此类推。我们为“pn”指定一个变量值:{1,100},这意味着将收集1到100个页面。这个分页变量格式是由我们的软件定义的。您可以通过单击“插入”按钮插入预设的分页变量(详情请见此处)。
第三步:导航规则
因为这个任务有两层,所以需要构建两个“导航规则”,分别命名为“新闻列表”和“新闻内容”。我们需要从“新闻列表”中提取“新闻内容”的网址来实现导航。因此,将“新闻列表”设置为“中间层”,并填写“下一层URL模板”来提取URL。对于“新闻内容”,只需选择“最终页面”并保存即可。
那么如何确定“新闻列表”的“下一层URL模板”?请看下图。
通过查看“新闻列表”的源文件,可以找到“新闻内容”的网址,用黄色显示。我们用“*”(通配符)代替URL的可变部分,这就是“下一层URL模板”,即http://www16.zzu.edu.cn/msgs/vmsgisapi.dll/onemsg? msgid=* .这样我们在提取的时候就有了依据:只提取与模板匹配的URL,跳过其他URL。
导航规则的最终设置如下:
步骤4:收集规则
我们通过“导航规则”一路走到了“最终页面”,也就是“新闻内容”,然后需要根据“采集规则”采集所需内容。如上图所示,一个“采集规则”对应一个数据库字段,即一个信息类型,如标题、出版商、投稿人、内容等。“数据库字段”可以留空,默认值是其规则名称。“level”是一个跨层的集合函数,在这个例子中没有用到,所以保持默认值即可。
以下是最重要的:“前信息标记”和“后信息标记”。软件通过在源文件中寻找“前信息标记”来定位要收集的信息。那么如何获取logo前后的信息呢?请看下图。
如图所示,“红色部分”表示信息的前置标志,“黄色部分”表示后置标志,中间夹着的“蓝色部分”就是我们需要收集的。它们是:标题、出版商、投稿人、出版日期、阅读次数和内容。
收款规则的最终设置如下:
注意:
1.如果使用“前后标志”来收集信息,则必须与“网页源文件”的顺序相同。
2.应用一个“获取规则”后,会将“获取内容”的尾部作为“当前位置”,然后从“当前位置”找到下一个“获取规则”的“前信息标记”。
3.如果选择了全局规则和静态规则,它们将不再受当前位置的影响。
第五步:收集结果。
如图,这里不做任何设置,采集后可以直接导出结果。
:
使用技巧
1.自动填写“采集规则名称”
设置采集规则时,如果“前置信息标志”包含“汉字或字母”,则自动提取为“采集规则名称”。例如:
: 2.导入和导出任务
可以免费注册两个神七账号,导入后简单修改即可实现不同账号之间“导出/导入”的任务。
导出时,可以按住Ctrl键选择多个任务。运行或暂停任务也是如此。您可以选择多个任务。
3,复制任务
同一个任务(比如同一个网站下的不同栏目)或者智能采集任务(没有规则,只需修改起始地址)非常适合复制一个任务然后修改:
4、收集的内容,保留换行符、图片等。
默认情况下,收集的内容不保留任何HTML标签,所以换行符,图片等。无法显示。在收集规则设置中,您可以指定要保留哪些HTML标记:
\"HTML \"HTML标签\"库可以维护。软件菜单:设置-HTML标签:
5,预设规则名称
: 6.取定值作为结果。
手动设置一个固定值,可以用来指定分类、区域等。截图示例:
、
7.默认结果替换
在收藏规则中,可以设置“收藏结果替换”来替换收藏的内容。如果您需要经常替换某些内容,例如将“”替换为“空格”({sapce}),您可以在软件设置中设置默认替换:
“默认结果替换。xml”来源于“任务编辑-采集规则-采集结果替换”。
8.手动修改任务状态
只有当采集任务“暂停”时,才能继续采集,即可以在断点处恢复采集。如果任务被“停止”,那么必须从头开始收集。
如果意外停止了任务,可以在任务的XML文件中手动将任务状态更改为“暂停”:
任务名称
9,源文件替换
“源文件替换”是最灵活的设置之一。可以用普通链接代替“JS脚本链接”,方便“提取下一层URL”和导航。源文件替换,其实就是“动态改变”一个网页的源文件,方便导航和收藏。
比如列表页面的源文件中有这样一个“JS脚本链接”:文章的标题,文章内容的实际地址,就需要用源文件来替换。
源文件替换设置为:
旧值中的“{id}”代表一个参数,用来表示文章的id(即220433);
新值中的“${id}”引用旧值中的参数“{id}”,该参数被替换以形成新的URL。
10,检查源文件替换效果。
源文件替换后,如果不确定替换是否成功,可以把整个“网页源文件”收集起来,看看替换后的样子:
如果你还在怀疑,你还可以把收集到的“网页源文件”复制到“工具-常规测试仪”(RegexTester.exe)中进行实际测试。因为源文件替换中的“旧值”可以直接转换成“正则表达式”:
11,正则表达式应用:采集规则
正则表达式非常灵活,集合规则中的“前后标志”和导航规则中的“下一层URL模板”最终都会被软件转换成正则表达式。
如果需要写“正则表达式”提取内容,可以在“采集规则-采集结果替换”中使用正则表达式:
12,正则表达式应用:导航规则
在“下一层URL模板”中使用“*”通配符是软件定义的规则。也可以直接使用标准的“正则表达式”提取“下一层URL”,使匹配更加准确灵活:
常见问题
如果循环回收?
循环采集原理:
以百度新闻搜索为例:
采用“循环标记”并限制采集范围: