通过路由,交换,安全,Qos四大典型技术模块同你分享网络运维中的技术难题,让老司机带你躲过网络运维常见的那些坑, 查看详情>>>
0

我的帖子

个人中心

设置

  发新话题
源码如下:


var configs = {
    domains: ["search.jd.com","item.jd.com","club.jd.com"],
    scanUrls: ["http://search.jd.com/Search?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=1&s=1&click=0"],
    contentUrlRegexes: ["http://item\\.jd\\.com/\\d+.html"],
    helperUrlRegexes: ["http://search\\.jd\\.com/Search\\?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=\\d+&s=1&click=0"],
    fields: [
        {
            // 第一个抽取项
            name: "title",
            selector: "//div[@id='name']/h1",
            required: true
        },
        {
            // 第一个抽取项
            name: "productid",
            selector: "//div[contains(@class,'fl')]/span[2]",
            required: true
        },
        {
            name: "comments",
            sourceType: SourceType.AttachedUrl,
            attachedUrl: "http://club.jd.com/productpage/p-{productid}-s-0-t-3-p-0.html",
            selectorType: SelectorType.JsonPath,
            selector: "$.comments",
            repeated: true,
            children:[
                {
                    name: "com_content",
                    selectorType: SelectorType.JsonPath,
                    selector: "$.content"
                },
                {
                    name: "com_nickname",
                    selectorType: SelectorType.JsonPath,
                    selector: "$.nickname"
                },
            ]
        }
    ]
};
configs.onProcessHelperUrl = function(url, content, site){
    if(!content.indexOf("抱歉,没有找到")){
        var currentPage = parseInt(url.substring(url.indexOf("&page=") + 6));
        if(currentPage == 0){
            currentPage = 1;
        }
        var page = currentPage + 2;
        var nextUrl = url.replace("&page=" + currentPage, "&page=" + page);
        site.addUrl(nextUrl);
    }
    return true;
};
var crawler = new Crawler(configs);
crawler.start();



运行后结果如下:







PS:爬虫脚本是用JS写的

PPS:是在神箭手云爬虫平台上运行的

请教:目前只能爬第一页的,一共是30条评论,请教怎么可以爬第二页的,这个不知道如何处理更多0




新手用Python写爬虫,起码也得告诉我们如何搭环境吧,给个链接也行呀!

如果不想用Python开发爬虫,还有其他办法可以解决开发爬虫过程中搭环境、处理验证码等繁琐操作吗?

当然有,使用神箭手大数据平台 shenjian.io 提供的在线爬虫开发工具吧~~

让你只需专注于爬虫开发,其他琐事统统不用操心,效率倍增,还能帮你一键自动到导出和发布数据,webhook、GraphQL等接口应有尽有,还等什么,赶快来试试吧!



神箭手?主要做爬虫的吗?



‹‹ 上一贴:Python分布式抓取和分析京东商城评价   |   下一贴:给白纸学生介绍编程的专题课件 ››
  发新话题
快速回复主题
关于我们 | 诚聘英才 | 联系我们 | 网站大事 | 友情链接 |意见反馈 | 网站地图
Copyright©2005-2018 51CTO.COM
本论坛言论纯属发布者个人意见,不代表51CTO网站立场!如有疑义,请与管理员联系:bbs@51cto.com