文享日志

WebSplider参考配置

爬虫

发表于2018年06月07日19:12:01

更新于2018年07月15日13:00:33

0条评论 462次阅读

小说阅读网

目标网址

https://www.readnovel.com/rank/hotsales


选择器

$(".book-mid-info")


输出格式

{
"name":"$element.children('h4').text()",
"author":"$element.children('.author').children('a').first().text()",
"class":"$element.children('.author').children('a').last().text()",
"brief":"$element.children('.intro').text()"
}


塔读文学

目标网址

http://www.tadu.com/rank/book-sell-week-p-10


选择器

$(".detail-")


输出格式

{
"title": "$element.children('h3').children('a').text()",
"author": "$element.children('.c-9').children('a').text()",
"class": "$element.children('.c-9').children('.ml-20').children('a').text()",
"brief": "$element.children('.c-9').next().text()"
}


文享日志

目标网址

https://docmobile.cn/idx/0


选择器

$(".content")


输出格式

{
"title":"$element.has('.article_title').text()",
"time":"$element.has('.meta').has('time').text()",
"brief":"$element.has('.article_content').text()"
}


澎湃热点新闻

目标网址

https://www.thepaper.cn/

 

选择器

$(".news_li")


输出格式

{
"title":"$element.children('h2').children('a').text()",
"href":"'https://www.thepaper.cn/'+$element.children('h2').children('a').attr('href')",
"brief":"$element.children('p').text()"
}


澎湃热点新闻文章内容

目标网址

https://www.thepaper.cn/

 

选择器

一级选择器

$(".news_li").children('h2').children('a')

二级选择器

$(".newscontent")


输出格式

{
"title":"$element.children('.news_title').text()",
"content":"$element.children('.news_txt').text()"
}


豆瓣电影排行

目标网址

https://movie.douban.com/chart


选择器

一级选择器

$('.pl2').children('a')


二级选择器

$('#content')


输出格式

{
"name":"$element.children('h1').text()",
"image_src":"$element.find('.nbgnbg').children('img').attr('src')",
"director":"$element.find('#info').children('span').eq(0).children('.attrs').text()",
"screenwriter":"$element.find('#info').children('span').eq(1).children('.attrs').text()",
"starring":"$element.find('#info').children('span').eq(2).children('.attrs').text()",
"score":"$element.find('.rating_self').children('strong').text()",
"brief":"$element.find('#link-report').text()"
}




更新后添加对GBK编码格式的支持


人民网首页国际板块

目标网址

http://www.people.com.cn/


网页编码 gbk


选择器

一级选择器

$("#rmw_guoji").find('.list14 li a')


二级选择器

$("body")


输出格式

{
"content":"$element.find('#rwb_zw').text()"
}



更新后增加对分页爬取的支持


爬取CNode精华帖第一到第十页的文章标题

爬取深度 1

网页编码 utf-8

抓取模式 pagiantion(分页模式)

页码范围 1-10


目标网址 

https://cnodejs.org/?tab=good&page=*

注意将数字改为*


选择器

$(".topic_title_wrapper .topic_title")


输出格式

{
"name":"$element.text()"
}


妹子图网中妹子图片的URL

爬取深度 2

网页编码 gbk

抓取模式 pagiantion

页码范围 1-1


目标网址

http://meizitu.com/a/more_*.html


选择器

一级选择器

$(".pic a")


二级选择器

$("#picture p img")


输出格式

{
"title":"$element.attr('alt')",
"imgSrc":"$element.attr('src')"
}


国内IP代理

抓取深度 1

网页编码 utf-8

抓取模式 pagiantion

页码范围 1-4


目标网址

http://www.xicidaili.com/nn/*


选择器

$("#ip_list tr").not($("#ip_list tr").eq(0))


输出格式

{
     "ip":"$element.children('td').eq(1).text()",
     "port":"$element.children('td').eq(2).text()"
}


zd423

抓取深度 1

网页编码 utf-8

抓取模式 pagiantion

页码范围 1-10


目标网址 

http://www.zdfans.com/index_*.html


选择器

$(".excerpt li")


输出格式

{
"url":"'http://www.zdfans.com'+$element.children('h2').children('a').attr('href')",
"title":"$element.children('h2').children('a').attr('title')",
"time":"$element.find('.time').text()",
"cat":"$element.find('.cat').text()",
"view":"$element.find('.view').text()"
}



思否推荐文章

抓取深度 1

网页编码 utf-8

抓取模式 pagiantion

页码范围 1-10

无代理模式


目标网址:

https://segmentfault.com/blogs?page=*


选择器

$(".stream-list__item")


输出格式

{
"title":"$element.find('.title,.blog-type-common,.blog-type-1 a').text()",
"author":"$element.find('.author,.list-inline').children('li').children('span').children('a').eq(0).text()",
"collection":"$element.find('.bookmark ').attr('title')"
}
👍 2  👎 0
共有0条评论

发表新评论

提交

广告展示

腾讯云推广 阿里云推广