制作一个网页内容采集器，利用tc如何实现？有合适回答立刻采纳，快来吧

jrflsh · 发表于 2012-5-20 02:26:54

马上加入TC

您需要登录才可以下载或查看，没有帐号？立即注册

x

利用tc制作一个网页内容采集器，这个如何实现？
比如，指定提取网页内的文章内容或者提取发表文章的用户名之类的采集器
大家有什么高招？给点思路吧

TC兔子 · 发表于 2012-5-20 07:27:55

能不能给个页面上去看看,不然凭空想象,不好找思路啊

jlklove · 发表于 2012-5-20 10:48:38

学习

jrflsh · 发表于 2012-5-20 11:56:55

回复 2楼TC兔子的帖子

比如淘宝首页的所有类目
根据这些类目来批量提取这些类目下的卖家

yvyan · 发表于 2012-5-20 23:59:38

这个很简单啊，，用网络.url读内容，字符串截取，加循环、创建、保存文件就可以搞定，很简单，我写过这样的脚本

wangker111 · 发表于 2012-9-30 17:46:28

回复 5楼yvyan的帖子

请问用网络.url读内容，字符串截取，加循环、创建、保存文件
读取页面的内容,编码类型: 0: 使用UTF-8转换 1: 使用UTF-7转换 2: 符号字符集 3: 当前线程ANSI代码页 4: Macintosh代码页 5: OEM代码页 6: ANSI字符集应该选哪种类型啊

jrflsh · 发表于 2012-10-1 11:59:23

回复 6楼wangker111的帖子

网络空间来做这个事情比较费劲
你还是使用网页空间来做吧
弄个浏览器空间，使用元素获取的方式就可以搞定

yvyan · 发表于 2012-10-7 12:18:48

回复 6楼wangker111的帖子

默认就可以了。默认是0.这个最保险，一般链接国内服务器不会出问题，链接外国的可能会有乱码，这个要看别人的网页试用的是那种字符集。TC对中文来讲，我测试的是只支持UTF-8，所以如果是国外服务器，自己写网页的话，字符集必须是UFT-8。回答完毕！

pest · 发表于 2012-10-8 04:38:21

默认就可以

ayuan778 · 发表于 2013-8-27 15:12:07

哥们你问错地方了，网页采集用tcpip，

帐号		自动登录	找回密码
密码			立即注册

[问题] 制作一个网页内容采集器，利用tc如何实现？有合适回答立刻采纳，快来吧

马上加入TC

站长推荐 /2