TC官方合作论坛

 找回密码
 立即注册
查看: 1227|回复: 9
打印 上一主题 下一主题

[问题] 制作一个网页内容采集器,利用tc如何实现?有合适回答立刻采纳,快来吧

[复制链接]
跳转到指定楼层
楼主
发表于 2012-5-20 02:26:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上加入TC

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
利用tc制作一个网页内容采集器,这个如何实现?
比如,指定提取网页内的文章内容或者提取发表文章的用户名之类的采集器
大家有什么高招?给点思路吧
回复

使用道具 举报

沙发
发表于 2012-5-20 07:27:55 | 只看该作者
能不能给个页面上去看看,不然凭空想象,不好找思路啊
回复 支持 反对

使用道具 举报

板凳
发表于 2012-5-20 10:48:38 | 只看该作者
学习
回复 支持 反对

使用道具 举报

地板
 楼主| 发表于 2012-5-20 11:56:55 | 只看该作者
回复 2楼TC兔子的帖子

比如淘宝首页的所有类目
根据这些类目来批量提取这些类目下的卖家
回复 支持 反对

使用道具 举报

5#
发表于 2012-5-20 23:59:38 | 只看该作者
这个很简单啊,,用网络.url读内容,字符串截取,加循环、创建、保存文件就可以搞定,很简单,我写过这样的脚本
回复 支持 反对

使用道具 举报

6#
发表于 2012-9-30 17:46:28 | 只看该作者
回复 5楼yvyan的帖子

请问用网络.url读内容,字符串截取,加循环、创建、保存文件
读取页面的内容,编码类型: 0: 使用UTF-8转换 1: 使用UTF-7转换 2: 符号字符集 3: 当前线程ANSI代码页 4: Macintosh代码页 5: OEM代码页 6: ANSI字符集  应该选哪种类型啊
回复 支持 反对

使用道具 举报

7#
 楼主| 发表于 2012-10-1 11:59:23 | 只看该作者
回复 6楼wangker111的帖子

网络空间来做这个事情比较费劲
你还是使用网页空间来做吧
弄个浏览器空间,使用元素获取的方式就可以搞定
回复 支持 反对

使用道具 举报

8#
发表于 2012-10-7 12:18:48 | 只看该作者
回复 6楼wangker111的帖子

默认就可以了。默认是0.这个最保险,一般链接国内服务器不会出问题,链接外国的可能会有乱码,这个要看别人的网页试用的是那种字符集。TC对中文来讲,我测试的是只支持UTF-8,所以如果是国外服务器,自己写网页的话,字符集必须是UFT-8。回答完毕!
回复 支持 反对

使用道具 举报

9#
发表于 2012-10-8 04:38:21 | 只看该作者
默认就可以
回复 支持 反对

使用道具 举报

10#
发表于 2013-8-27 15:12:07 | 只看该作者
哥们你问错地方了,网页采集用tcpip,
回复 支持 反对

使用道具 举报

*滑动验证:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /2 下一条

关闭

小黑屋|TC官方合作论坛 (苏ICP备18043773号

GMT+8, 2025-10-2 15:17 , Processed in 0.213719 second(s), 24 queries .

Powered by 海安天坑软件科技有限公司

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表