您当前的位置:钢材 > 钢绞线 > 价格汇总

上海买二手房知乎,上海二手房真他妈难卖

来源:头条 作者: chanong
分享到
关注德勤钢铁网在线:
  • 扫描二维码

    关注√

    德勤钢铁网微信

在线咨询:
  • 扫描或点击关注德勤钢铁网在线客服

人生苦短,我用Python

如果我的文章对您有用,请关注作者的公众号Geek Digger。您的兴趣是对编辑坚持原创最大的鼓励:)

上一个传送门:

小白学**Python爬虫(一):开始

小白学**Python爬虫(二):准备工作(一)安装基础类库

初学者学**Python爬虫(三):准备工作(二)Linux基础介绍

初学者学**Python爬虫(四):准备工作(三)Docker基本介绍

小白学**Python爬虫(五):准备(四)数据库基础

小白学**Python爬虫(六):准备工作(五)安装爬虫框架

初学者Python爬虫(七):HTTP基础知识

小白学**Python爬虫(八):网页基础知识

初学者学**Python爬虫(九):爬虫基础知识

初学者Python爬虫(十):Session和cookie

小白学**Python爬虫(十一):urllib的基本用法(一)

小白学**Python爬虫(十二):urllib的基本用法(二)

小白学**Python爬虫(十三):urllib的基本用法(三)

小白学**Python爬虫(十四):urllib的基本用法(四)

小白学**Python爬虫(十五):urllib的基本用法(五)

小白学**Python爬虫(十六):urllib实用爬取女生照片

小白学**Python爬虫(十七):requests的基本用法

小白学**Python爬虫(十八):请求的高级操作

初学者Python爬虫(十九):Xpath的基本操作

初学者学**Python爬虫(20):进阶Xpath

小白学**Python爬虫(二十一):分析库Beautiful Soup(上)

小白学**Python爬虫(二十二):分析库美汤(下)

初学者学**Python爬虫(二十三):分析库pyquery简介

小白学**Python爬虫(24):2019豆瓣电影排行榜

小白学**Python爬虫(二十五):爬取库存信息

简介:看到这个标题,有的同学可能会奇怪为什么不包括新房呢?

这都是一段血与泪的历史。

小编已经哭晕在卫生间里了,但是同学们立刻就醒了,太阳还没有落山。

不要对二手房打折,好像每个人都买得起一样。

小编已经找到了目标页面的链接:https://sh.lianjia.com/ershoufang/pg1/。

房源还是很多的,不过据说今年房地产行业不景气,房价不高。

其实我做编辑是有目的的,而且我在上海生活了五年多了,但是如果实际出来的数据合适的话,我想我可以帮你想办法。

首先我们来分析一下页面链接信息。其实,已经很明显了。链接的最后一列显示pg1。我想你可能正在谈论第一页。不信的话你换个pg2试试。天气晴朗。

打开随机首页,进入内部页面即可查看数据。

详细的数据都是从这里拿来的,数据还是很全面的。

对了,请看详情页链接:https://sh.lianjia.com/ershoufang/107102012982.html。

这个数字是从哪里来的?

编辑器可以保证在外层列表页面的DOM结构中找到它。

这就是所谓的老司机的直觉,但如果你不用它,那就完了。

编码思路还是老套的:先根据外层列表页的数据创建一个列表,然后循环遍历该列表爬取详情页,并将检索到的数据写入Mysql。

本文使用的请求和解析库是Requests和pyquery。

不要问为什么,就问因为编辑喜欢。

因为它很简单。

首先,我们定义一个方法来抓取外部列表。

def get_outer_list(maxNum): list=[] for i in range(1, maxNum + 1): url='https://sh.lianjia.com/ershoufang/pg' + str(i) print('正在爬取的链接为: % s' %url) response=request.get(url, headers=headers) print('获取页面%d 的属性' % i) doc=PyQuery(response.text) num=0 for item in doc(' . sellListContent li ').items(): num +=1 list.append(item.attr('data-lj_action_housedel_id')) print('当前页共有%d栋房子' %num) 首先返回列表你会得到一个列表此处的源ID 号对于下一步的连接很有用。这里输入的参数是最大页数,只要不超过实际页数即可。当前最大页数为: 100页,最多只能在此处传递。 100.

获取房产清单后,下一步就是获取房产的详细信息,不过这次信息量有点大,分析起来有些困难。

def get_inner_info(list): for i in list: try: response=requests.get('https://sh.lianjia.com/ershoufang/' + str(i) + '.html', headers=headers) doc=PyQuery(response.text) # 基本属性分析base_li_item=doc('.base .content ul li').remove('.label').items()base_li_list=[] for item in base_li_item:base_li_list.append(item.text()) # 事务解析属性transaction_li_item=doc('.transaction .content ul li').items(). transaction_li_item: item transaction_li_list=[], transaction_li_list.append(item.children().not_('.label').text()) insert_data={ 'id': i, 'danjia': doc('.unitPriceValue' ). remove('i').text(), 'zongjia': doc('.price .total').text() + '10,000', 'quyu': doc('.areaName .info').text () , 'xiaoqu': doc('.communityName .info').text(), 'huxing':base_li_list[0], 'louceng' :base_li_list[1], 'jianmian':base_li_list[2], 'jiegou':base_li_list[ 3] , 'taoneimianji':base_li_list[4], 'jianzhuleixing':base_li_list[5], 'chaoxiang':base_li_list[6], 'jianzhujiegou' :base_li_list[7], 'zhuangxiu' :base_li_list[8], 'tihubili' :base _ li_list[9] , 'dianti' :base_li_list[10], 'chanquan' :base_li_list[11], 'guapaishjian' : transaction_li_list[0], 'jiaoyiqunshu':transaction_li_list[1], 'shangcijiaoyi':transaction_li_list[2], 'fangwuyongtu'33第360章360 'fangwunianxian':transaction_li_list[4], 'chanquansuoshu':transaction_li_list[ 5], 'diyaxinxi':transaction_li_list[6] }cursor.execute(sql_insert, insert_data) conn.commit() print(i, ': 写入完成') 异常: print (i, ':write exception') continue 现在最重要的两个方法已经写完了,我们来看看编辑器中的结果。

考虑到这个价格,小编的血压有点高。

果然,这还是我的大城市。不管你买多少房子,一定要检查一下价格。

总结结果显示,尽管链家说有超过60000个房屋,但实际上,从页面上可以爬取的房屋总数只有3000个,这不足以满足所有需要的数据,这意味着我们还远远没有达到这个目标。它。然而,当编辑者添加过滤条件时,列表总数实际上发生了变化。为了防止您的数据被完全抓取,您最多只能查看100 页数据。

这个套路还是很有深度的,除非数据公开,否则倪梦应该不会认为他能渗透我的数据。对于一般用户来说,查看部分历史数据就足够了,预计很少有人会查看到最后几页的数据。

本文的代码到这里就结束了。如果您需要所有代码,可以通过访问代码存储库获取。

示例代码本系列所有代码都放在代码管理仓库Github和Gitee中,方便大家使用。

示例代码- Github

示例代码-Gitee

责任编辑:德勤钢铁网 标签:

热门搜索

相关文章

广告
德勤钢铁网 |价格汇总

上海买二手房知乎,上海二手房真他妈难卖

chanong

|

人生苦短,我用Python

如果我的文章对您有用,请关注作者的公众号Geek Digger。您的兴趣是对编辑坚持原创最大的鼓励:)

上一个传送门:

小白学**Python爬虫(一):开始

小白学**Python爬虫(二):准备工作(一)安装基础类库

初学者学**Python爬虫(三):准备工作(二)Linux基础介绍

初学者学**Python爬虫(四):准备工作(三)Docker基本介绍

小白学**Python爬虫(五):准备(四)数据库基础

小白学**Python爬虫(六):准备工作(五)安装爬虫框架

初学者Python爬虫(七):HTTP基础知识

小白学**Python爬虫(八):网页基础知识

初学者学**Python爬虫(九):爬虫基础知识

初学者Python爬虫(十):Session和cookie

小白学**Python爬虫(十一):urllib的基本用法(一)

小白学**Python爬虫(十二):urllib的基本用法(二)

小白学**Python爬虫(十三):urllib的基本用法(三)

小白学**Python爬虫(十四):urllib的基本用法(四)

小白学**Python爬虫(十五):urllib的基本用法(五)

小白学**Python爬虫(十六):urllib实用爬取女生照片

小白学**Python爬虫(十七):requests的基本用法

小白学**Python爬虫(十八):请求的高级操作

初学者Python爬虫(十九):Xpath的基本操作

初学者学**Python爬虫(20):进阶Xpath

小白学**Python爬虫(二十一):分析库Beautiful Soup(上)

小白学**Python爬虫(二十二):分析库美汤(下)

初学者学**Python爬虫(二十三):分析库pyquery简介

小白学**Python爬虫(24):2019豆瓣电影排行榜

小白学**Python爬虫(二十五):爬取库存信息

简介:看到这个标题,有的同学可能会奇怪为什么不包括新房呢?

这都是一段血与泪的历史。

小编已经哭晕在卫生间里了,但是同学们立刻就醒了,太阳还没有落山。

不要对二手房打折,好像每个人都买得起一样。

小编已经找到了目标页面的链接:https://sh.lianjia.com/ershoufang/pg1/。

房源还是很多的,不过据说今年房地产行业不景气,房价不高。

其实我做编辑是有目的的,而且我在上海生活了五年多了,但是如果实际出来的数据合适的话,我想我可以帮你想办法。

首先我们来分析一下页面链接信息。其实,已经很明显了。链接的最后一列显示pg1。我想你可能正在谈论第一页。不信的话你换个pg2试试。天气晴朗。

打开随机首页,进入内部页面即可查看数据。

详细的数据都是从这里拿来的,数据还是很全面的。

对了,请看详情页链接:https://sh.lianjia.com/ershoufang/107102012982.html。

这个数字是从哪里来的?

编辑器可以保证在外层列表页面的DOM结构中找到它。

这就是所谓的老司机的直觉,但如果你不用它,那就完了。

编码思路还是老套的:先根据外层列表页的数据创建一个列表,然后循环遍历该列表爬取详情页,并将检索到的数据写入Mysql。

本文使用的请求和解析库是Requests和pyquery。

不要问为什么,就问因为编辑喜欢。

因为它很简单。

首先,我们定义一个方法来抓取外部列表。

def get_outer_list(maxNum): list=[] for i in range(1, maxNum + 1): url='https://sh.lianjia.com/ershoufang/pg' + str(i) print('正在爬取的链接为: % s' %url) response=request.get(url, headers=headers) print('获取页面%d 的属性' % i) doc=PyQuery(response.text) num=0 for item in doc(' . sellListContent li ').items(): num +=1 list.append(item.attr('data-lj_action_housedel_id')) print('当前页共有%d栋房子' %num) 首先返回列表你会得到一个列表此处的源ID 号对于下一步的连接很有用。这里输入的参数是最大页数,只要不超过实际页数即可。当前最大页数为: 100页,最多只能在此处传递。 100.

获取房产清单后,下一步就是获取房产的详细信息,不过这次信息量有点大,分析起来有些困难。

def get_inner_info(list): for i in list: try: response=requests.get('https://sh.lianjia.com/ershoufang/' + str(i) + '.html', headers=headers) doc=PyQuery(response.text) # 基本属性分析base_li_item=doc('.base .content ul li').remove('.label').items()base_li_list=[] for item in base_li_item:base_li_list.append(item.text()) # 事务解析属性transaction_li_item=doc('.transaction .content ul li').items(). transaction_li_item: item transaction_li_list=[], transaction_li_list.append(item.children().not_('.label').text()) insert_data={ 'id': i, 'danjia': doc('.unitPriceValue' ). remove('i').text(), 'zongjia': doc('.price .total').text() + '10,000', 'quyu': doc('.areaName .info').text () , 'xiaoqu': doc('.communityName .info').text(), 'huxing':base_li_list[0], 'louceng' :base_li_list[1], 'jianmian':base_li_list[2], 'jiegou':base_li_list[ 3] , 'taoneimianji':base_li_list[4], 'jianzhuleixing':base_li_list[5], 'chaoxiang':base_li_list[6], 'jianzhujiegou' :base_li_list[7], 'zhuangxiu' :base_li_list[8], 'tihubili' :base _ li_list[9] , 'dianti' :base_li_list[10], 'chanquan' :base_li_list[11], 'guapaishjian' : transaction_li_list[0], 'jiaoyiqunshu':transaction_li_list[1], 'shangcijiaoyi':transaction_li_list[2], 'fangwuyongtu'33第360章360 'fangwunianxian':transaction_li_list[4], 'chanquansuoshu':transaction_li_list[ 5], 'diyaxinxi':transaction_li_list[6] }cursor.execute(sql_insert, insert_data) conn.commit() print(i, ': 写入完成') 异常: print (i, ':write exception') continue 现在最重要的两个方法已经写完了,我们来看看编辑器中的结果。

考虑到这个价格,小编的血压有点高。

果然,这还是我的大城市。不管你买多少房子,一定要检查一下价格。

总结结果显示,尽管链家说有超过60000个房屋,但实际上,从页面上可以爬取的房屋总数只有3000个,这不足以满足所有需要的数据,这意味着我们还远远没有达到这个目标。它。然而,当编辑者添加过滤条件时,列表总数实际上发生了变化。为了防止您的数据被完全抓取,您最多只能查看100 页数据。

这个套路还是很有深度的,除非数据公开,否则倪梦应该不会认为他能渗透我的数据。对于一般用户来说,查看部分历史数据就足够了,预计很少有人会查看到最后几页的数据。

本文的代码到这里就结束了。如果您需要所有代码,可以通过访问代码存储库获取。

示例代码本系列所有代码都放在代码管理仓库Github和Gitee中,方便大家使用。

示例代码- Github

示例代码-Gitee


价格汇总