第一次学习python 数据mysql出错了,大侠帮帮忙看看怎么回事?

只需一步,快速开始
后使用快捷导航没有帐号?
查看: 557|回复: 3
python连接mysql出错的问题求助!
累计签到:2 天连续签到:1 天&
马上注册加入鱼C,享用更多服务吧^_^
才可以下载或查看,没有帐号?
各位鱼友,我写了一段将文件分拣并入库的代码,代码如下:
windows 7 64位 + python 3.3.2 + mysql 5.5.53,使用mysql .connector连接。
import mysql.connector
#连接数据库
config = {
& & 'user':'root',
& & 'password':'macau853',
& & 'host':'192.168.100.205',
& & 'database':'xl',
& & 'raise_on_warnings':True
cnx = mysql.connector.connect(**config)
cursor=cnx.cursor()
def linenumber(path,filename):
& & count=0&&
& & fp=open(path+filename,&r&)&&
& & while 1:
& && &&&buffer=fp.read(8*)&&
& && &&&if not buffer:
& && && && &break
& && &&&count+=buffer.count('\n')
& & fp.close()
& & return(count)
#第一步先将原始的话单分拣到要求的格式,并入库
sqlallbill = &insert into allbill(time,id,number,one,two)values(%s,%s,%s,%s,%s)&
filename = os.listdir(r'Z:\download')
for i in filename:
& & allbillrecord = ()
& & allbilldata = []
& & bill = open(r'Z:\download\\' + i)
& & line = bill.readlines()& &
& & l = len(line)
& & if l & 5000:
& && &&&for i in range(1,l):
& && && && &line2 = line[i][160:174].strip() + ',' + line[i][:30].strip() + ',' + line[i][46:51].strip() + ',' + line[i][69:80].strip() + ',' + line[i][56:69].strip()
& && && && &allbillrecord = line2.split(sep = ',')
& && && && &allbilldata.append(allbillrecord)
& && && && &if count == 5000:
& && && && && & cursor.executemany(sqlallbill, allbilldata)
& && && && && & mit()& && && && && &
& && && && &count += 1
& && &&&if count & 0:
& && && && &cursor.executemany(sqlallbill, allbilldata)
& && && && &mit()
& && &&&for i in range(1,l):
& && && && &line2 = line[i][160:174].strip() + ',' + line[i][:30].strip() + ',' + line[i][46:51].strip() + ',' + line[i][69:80].strip() + ',' + line[i][56:69].strip()
& && && && &allbillrecord = line2.split(sep = ',')
& && && && &allbilldata.append(allbillrecord)
& & del line
& & del allbillrecord
& & del allbilldata
& & bill.close()
cnx.close()
Traceback (most recent call last):
&&File &C:\Python33\lib\site-packages\mysql\connector\network.py&, line 241, in recv_plain
& & chunk = self.sock.recv(4 - packet_len)
ConnectionAbortedError: [WinError 10053] 您的主机中的软件中止了一个已建立的连接。
During handling of the above exception, another exception occurred:
Traceback (most recent call last):
&&File &Z:\insertmysql.py&, line 45, in &module&
& & cursor.executemany(sqlallbill, allbilldata)
&&File &C:\Python33\lib\site-packages\mysql\connector\cursor.py&, line 654, in executemany
& & return self.execute(stmt)
&&File &C:\Python33\lib\site-packages\mysql\connector\cursor.py&, line 551, in execute
& & self._handle_result(self._connection.cmd_query(stmt))
&&File &C:\Python33\lib\site-packages\mysql\connector\connection.py&, line 490, in cmd_query
& & result = self._handle_result(self._send_cmd(ServerCmd.QUERY, query))
&&File &C:\Python33\lib\site-packages\mysql\connector\connection.py&, line 267, in _send_cmd
& & return self._socket.recv()
&&File &C:\Python33\lib\site-packages\mysql\connector\network.py&, line 270, in recv_plain
& & errno=2055, values=(self.get_address(), _strioerror(err)))
mysql.connector.errors.OperationalError: 2055: Lost connection to MySQL server at '192.168.100.205:3306', system error: 10053 您的主机中的软件中止了一个已建立的连接。
有朋友遇到过这个问题吗?是什么导致的,多谢。如有违规,请版主知会我、
1. 如果您的提问得到满意的答案,请务必选择【最佳答案】;2. 如果想鼓励一下楼主或帮助到您的朋友,可以给他们【评分】作为奖励;3. 善用【论坛搜索】功能,那里可能有您想要的答案;4. 粘贴代码请点击编辑框上的
按钮,否则您的代码可能会被“吃掉”!
累计签到:2 天连续签到:1 天&
BTW,在报错之前,数据库已经成功插入115135数据了。
1. 如果您的提问得到满意的答案,请务必选择【最佳答案】;2. 如果想鼓励一下楼主或帮助到您的朋友,可以给他们【评分】作为奖励;3. 善用【论坛搜索】功能,那里可能有您想要的答案;4. 粘贴代码请点击编辑框上的
按钮,否则您的代码可能会被“吃掉”!
累计签到:2 天连续签到:1 天&
问题找到了:
for i in range(1,l):
& && && && &line2 = line[i][160:174].strip() + ',' + line[i][:30].strip() + ',' + line[i][46:51].strip() + ',' + line[i][69:80].strip() + ',' + line[i][56:69].strip()
& && && && &allbillrecord = line2.split(sep = ',')
& && && && &allbilldata.append(allbillrecord)
& && && && &if count == 5000:---------------------------------------------由于count在第一次到达5000后,没有重置其值为0,导致除了第一次到达5000执行插入语句,就再也无法触发了,导致长时间连接空置,故数据库断开连接。
& && && && && & cursor.executemany(sqlallbill, allbilldata)
& && && && && & mit()& && && && && &
& && && && &count += 1
1. 如果您的提问得到满意的答案,请务必选择【最佳答案】;2. 如果想鼓励一下楼主或帮助到您的朋友,可以给他们【评分】作为奖励;3. 善用【论坛搜索】功能,那里可能有您想要的答案;4. 粘贴代码请点击编辑框上的
按钮,否则您的代码可能会被“吃掉”!
累计签到:2 天连续签到:1 天&
代码修改如下:
for i in range(1,l):
& && && && &line2 = line[i][160:174].strip() + ',' + line[i][:30].strip() + ',' + line[i][46:51].strip() + ',' + line[i][69:80].strip() + ',' + line[i][56:69].strip()
& && && && &allbillrecord = line2.split(sep = ',')
& && && && &allbilldata.append(allbillrecord)
& && && && &if count == 5000:
& && && && && & cursor.executemany(sqlallbill, allbilldata)
& && && && && & mit()& &
& && && && && & count = 0 ----------------------------重置一下count值即可解决,Oh yeah!
& && && && &count += 1
1. 如果您的提问得到满意的答案,请务必选择【最佳答案】;2. 如果想鼓励一下楼主或帮助到您的朋友,可以给他们【评分】作为奖励;3. 善用【论坛搜索】功能,那里可能有您想要的答案;4. 粘贴代码请点击编辑框上的
按钮,否则您的代码可能会被“吃掉”!
小甲鱼强烈推荐 /1
特效不会给你基本工资,但却能让你升职加薪!不写代码,拿来即用^_^
•••(
Powered byPython学习-Python数据处理实战_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
Python学习-Python数据处理实战
0|0|文档简介|
中国IT职业教育领先品牌|
总评分0.0|
Python学习-Python数据处理实战,Python学习-Python数据处理实战
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
你可能喜欢Python爬取网页信息并且存储到MySQL数据库 - 侯苗苗 - CSDN博客
Python爬取网页信息并且存储到MySQL数据库
Python学习笔记
今天在执行一小Python爬取某网页的信息的时候,结果,报错了,根据错误,应该是数据库连接失败,密码有错误
检查程序密码应该没错呀,然后直接访问数据库,我的天,试了好多次,都快放弃自己了,昨晚明明成功的呀
然后打开Navicat,查看昨晚设置的连接属性,没错呀,密码就是1234566
然后陷入怪圈模式
突然,灵感xiu的一下就来了,Navicat昨晚设置的是连接虚拟机上的MySQL的,密码确实是123456
那本地用户呢,让我想想,我设置密码了吗?
突然想起来,Navicat不是已经连接到数据库了嘛,我可以直接查看表呀,也有root权限的
哇,打开mysql数据库,可以看到一个名为user的数据表
突然觉得黎明的曙光过来了,哈哈哈,这里高兴一秒钟
进入user数据表,激动人心的时刻就要到啦,密码密码,我来啦
我的天,hmm,这个主机名不就是我虚拟机名称嘛,它-竟-然-是-没-有-设-置-密-码-的,此时我的内心是崩溃的,我先去找个地冷静冷静
但还是要工作了~
哇,它真的成功了呢!!!!!!!!!!!!这里响起掌声!!!!!!!!!!!!!
修改程序中的连接数据库中的参数,继续执行程序,果然,又出错了
1366错误,这又是什么鬼,快扶我起来,我还可以坚持
对于第一次连数据库的我来说,两眼一抹黑,转头立马去找我最亲爱的度娘,原来是数据库的编码格式和你连接时设置的编码格式是不一样的,连接的时候,charset设置的是utf-8,为的是可以存储中文。
得了,还是去看看数据库的编码吧
数据库默认的编码格式,latin,得了,明白了,立马改编码格式,转去找我熟悉的Navicat
改成utf-8就可以啦,再去查看查看是否可以了,嗯,都乖乖的变成了utf-8格式了
应该没有别的问题了吧,行嘞,继续执行
我的天,又出来一名刺客
貌似是执行插入语句的时候出现了问题,我只看到“Data too long for column”意思就是,对于这一属性列来说,数据量太大,不能插入到数据库中去,回想我的表的设计,varchar(100),经常使用的类型,度娘,我又来啦
原来对于数据量大的属性列来说,可以选用TEXT类型,它可以存储更长的数据量,查看数据库中是否插入数据了,结果却是是呢,最起码也插进去了一条吧
话不多说,转身去修改变量类型
不管了,继续执行
啊,真的成-功-了!!!!!!
我的老心脏呀,好艰辛的过程呀!!!!
再去看看数据库
至此,我人生的第一个爬虫就告一段落了!!!!
我的热门文章
即使是一小步也想与你分享python爬虫抓取数据插入mysql数据库问题
# encoding: utf-8
import requests
from lxml import etree
import MySQLdb
import sys
default_encoding = 'utf-8'
if sys.getdefaultencoding() != default_encoding:
reload(sys)
sys.setdefaultencoding(default_encoding)
download_url = "/category/industry"
html = requests.get(download_url).content
selector = etree.HTML(html)
urllist = selector.xpath('//h4/a[@href]')
for url in urllist:
url = url.get('href')
linkhtml = requests.get(url).content
linkselector = etree.HTML(linkhtml)
title = linkselector.xpath('//*[@id]/header/h1/text()')[0]
ttime = linkselector.xpath('//*[@id]/header/div/time/text()')[0]
content = linkselector.xpath('//div[@class="td-post-text-content"]')[0]
content = etree.tostring(content,encoding='gb2312')
urln = url.split('.')[-2].split('-')[-1]
yezhu = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/ul[1]/li[1]/a/text()''')
tags = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/footer/div/div/ul/li/a/text()''')
#print ','.join(tags)
#用逗号链接列表
for yezhut in yezhu:
print yezhut
for tag in tags:
print url,urln,title,ttime,content
db = MySQLdb.connect("localhost","root","root","test",charset='utf8')
cursor = db.cursor()
cursor.execute('insert into user(title,content,tags,ttime) values (%s,%s,%s,%s)', (title,content,tags,ttime))
db.commit()
db.close()
mysql数据库含有title,content,tags,ttime字段,其中ttime是date类型,运行发现的问题主要是content和ttime字段插入数据库,content是自动从中文前截断,ttime是日期需要转换,请大家给帮忙看看咋解决,刚学python,谢谢
运行结果如下:
D:\Python27\python.exe D:/python-work/demo.py 煤制油 /-17126.html 17126 中国煤制油产业形势分析与思考 日 &?xml version='1.0' encoding='gb2312'?& &div class="td-post-text-content"& &&&&&&&&&&& &p style="color: #3e3e3e;"&&strong&&span style="color: #d92142;"&文/ 华炜&/span&&/strong&&/p& &p style="color: #3e3e3e;"&&span style="color: #d92142;"&&span class="wp_keywordlink_affiliate"&&a href="/company/shccig" title="陕西煤业化工集团有限责任公司"&陕西煤业化工集团&/a&&/span&有限责任公司董事长、党委书记&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&早在上个世纪80年代,随着经济的发展与能源需求的快速增长,我国重新恢复了&span class="wp_keywordlink_affiliate"&&a href="/ctlmtg" title="煤制油产业全析"&煤制油&/a&&/span&技术的研究与开发,并作为石油替代战略工程。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&21世纪以来,随着我国石油进口量的增长、国际石油价格的高涨,煤炭液化技术研发进一步加快。在企业的大量科研资金持续投入与科研人员的辛勤付出之下,我国煤制油工艺、反应催化剂及其工业化装置等技术领域的自主创新不断取得突破,打破了国外技术垄断,取得中国煤基制油技术的自主知识产权,迫使南非Sasol合成油技术退出中国市场。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&2005年9月,国家科技部对中科院费托合成油工艺进行验收;年期间,内蒙古&span class="wp_keywordlink_affiliate"&&a href="/company/nmgytmzy" title="内蒙古伊泰煤制油有限责任公司"&伊泰&/a&&/span&集团、山西&span class="wp_keywordlink_affiliate"&&a href="/company/chinaluan" title="山西潞安矿业(集团)有限责任公司"&潞安&/a&&/span&集团和中国&span class="wp_keywordlink_affiliate"&&a href="/company/shenhuagroup" title="神华集团有限责任公司"&神华&/a&&/span&集团建成三个16-20万吨/年合成油示范厂。截至目前,伊泰、潞安两个示范厂已运行已近6年,神华示范厂2010年开车验证成功。2008年投产的神华集团承担的全球首套百万吨&span class="wp_keywordlink_affiliate"&&a href="/ctlmtg/direct" title="直接液化"&直接液化&/a&&/span&工艺也于2011年转入商业化生产阶段。&span class="wp_keywordlink_affiliate"&&a href="/company/jamg" title="山西晋城无烟煤矿业集团有限责任公司"&晋煤集团&/a&&/span&消化吸收国外先进甲醇制汽油(&span class="wp_keywordlink_affiliate"&&a href="/ctlmtg" title="煤制油产业全析"&MTG&/a&&/span&)技术,2009投产的10万吨/年项目已实现安全稳定满负荷运行。陕西煤业化工集团以煤炭分质分级清洁高效转化利用为前提,深耕煤焦油加氢制油领域,形成自主知识产权的技术体系,已实现百万吨的生产能力。&span class="wp_keywordlink_affiliate"&&a href="/company/ykjt" title="兖矿集团"&兖矿集团&/a&&/span&也很早就介入煤制油领域,2004年万吨级费托合成油技术中试成功,其承担的百万吨示范项目于2015年8月底投料试车成功。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&截至目前,我国煤制油产业的发展呈现出技术多样化、产品多元化的良好发展态势;产业雏形初步形成,&span style="color: #ab1942;"&已经拥有350万吨/年的运行产能以及到2020年之前3000万吨/年的规划和在建产能&/span&。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&&strong&煤制油产业发展意义重大&/strong&&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&保障国家能源安全的战略性举措。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&习近平总书记在中央财经领导小组第六次会议上提出推动能源生产和消费革命,大力推进煤炭清洁高效利用,着力发展非煤能源,形成煤、油、气、核、新能源、可再生能源多轮驱动的能源供应体系,同步加强能源输配网络和储备设施建设。《能源发展战略行动计划(年)》(国办发〔2014〕31号)提出,要确保能源安全供应,加强储备应急能力建设。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&目前,我国石油年消费量超过5亿吨,石油对外依存度已超过60%,未来还将呈现不断上升态势。煤制油技术可以大规模生产高品质清洁油品,如果达到年产5000万吨的规模,可以有效缓解因富煤缺油给我国能源安全带来的挑战;如果达到年产1亿吨的规模,我国能源的诸多问题都能得到有效解决。为此,发展煤制油是为保障国家能源安全提供重要的战略技术和有效产能储备的重要措施。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&实现煤炭清洁高效利用的重要途径。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&煤炭是我国基础性能源,将长期在能源消费中占据主要地位,传统的煤炭消费模式粗放、效率不高、污染严重,必须革命。煤制油是煤炭消费方式的重大变革,煤通过气化转化或液化转化等化工过程转化为清洁的油品,其生产过程中近三分之二的CO2可低成本捕获,为碳排放彻底解决创造了先决条件;煤炭中的硫、磷、盐分等元素可以全部分质回收;化工转化过程中不产生的SO2、NOx等污染物;废渣可生产建材;特别是火电厂无法使用的高有害元素煤炭,或其他行业无法利用的低质煤炭,也可实现清洁利用。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&有利于提升我国油品质量和生产特种燃料油。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&煤制油与原油炼化油相比有天然的优势,可提供现有石油化工技术难以制得的超过国家现行质量标准的高品质柴油、汽油和特种燃料油。利用&span class="wp_keywordlink_affiliate"&&a href="/ctlmtg/direct" title="直接煤制油"&煤直接液化&/a&&/span&柴油开发的军用和航空航天特种燃料,填补了国内航空航天特种燃料油空白;煤直接液化石脑油产品芳潜高达75%,可直接作为优质重整原料生产高热值、高辛烷值、低凝点的清洁汽油;2015年5月,神华完成了DDCL(煤直接液化柴油)在国Ⅴ排放SCR发动机上排放性能试验,结果满足GB 《车用压燃式、气体燃料点燃式发动机与汽车排气污染物排放限值及测量方法(中国Ⅲ、Ⅳ、Ⅴ阶段)》标准国V阶段排放要求,且保持较大的排放余量。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span class="wp_keywordlink_affiliate"&&a href="/ctlmtg/indirect" title="间接煤制油"&煤间接液化&/a&&/span&柴油硫含量极低,色度为零,烯烃含量及芳烃含量很低,十六烷值大于70,是我国未来实现清洁国六柴油升级的主要调配油品,经过6年多测试,尾气排放符合欧洲Ⅴ号标准,比普通柴油节油8%~12%;2014年APEC期间,伊泰煤制清洁柴油在北京怀柔示范使用,结果表明,排放的颗粒物(PM)和氮氧化物(NOx)降幅达到59.74%和32%。煤制油过程生产的成品油中的含硫量在5ppm内,远远超过了国五标准的成品油品质,是一种有效降低油品在内燃机燃烧排放的PM2.5产生的高清洁的车用燃料;煤间接液化石脑油直链烷烃高达90%以上,是生产烯烃、无芳烃溶剂油、特种石蜡、高品质合成润滑油等的优良原料。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&对西部省份社会和经济的发展具有重要意义。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&我国西部产煤大省受产业结构较为单一的影响,经济发展相对落后,亟需采取根本性措施加以解决。如果在西部地区适度发展煤制油,将会有力改变这一状况。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&基于煤炭资源、水资源、环境容量、生态承载力、基础设施条件、区域经济发展等综合条件,我国煤制油产业目前主要布局在西部。煤制油项目一般毗邻配套煤矿建设,投资大、煤炭转化量大、产业链长、科技含量高,如果我们坚持“立足西部、加快新疆”的煤制油产业布局政策,将有利于克服西部地区产业结构单一、低水平发展的矛盾,为西部煤炭资源区域的经济发展注入新的活力,从根本上解决少数民族地区的经济发展和社会长治久安问题。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&有助于化解煤炭产能过剩。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&目前,我国煤炭产能过剩的问题已经十分严重,对煤炭产业的生存和发展造成重大影响,化解产能过剩成为当前乃至今后一段时间煤炭产业的主要任务。但客观上已经实际形成的产能必须有序释放,否则,将造成极大的浪费。因此,除了通过行政手段管住源头以外,更主要的应在形成煤炭新的消费增长点上做文章。在目前技术条件下,1亿吨煤制油品的转化能力,可以消化4亿吨左右的煤炭。因此,发展煤制油,增加对过剩煤炭的有效消费,是解决煤炭产能过剩问题的战略性措施。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&促进煤炭产业转型升级。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&国务院曾于2012年年初正式发布《工业转型升级规划(年)》(国发[2011]47号),明确指出我国工业已进入到必须以转型升级促进又好又快发展的新阶段。目前,我国煤炭产业转型升级滞后已经成为不争的事实。国务院已经指出了“煤炭工业转型升级滞后”这一矛盾,加快煤炭产业转型升级显得十分紧迫。煤制油作为现代新型煤化工的重要内容,具有技术含量高、管理要求高、布局门槛高与产业链的地位高的特点,其产业的发展必将有利于我国煤炭产业结构、布局结构、组织结构和技术结构的全面调整与进一步优化升级。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&&strong&煤制油产业发展面临的困难&/strong&&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&成品油价格不断下跌,煤制油示范项目已全面亏损。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&我国煤制油产业发展才刚刚起步,我国开展煤制油技术研发和工程示范是基于较高的国际油价。煤制油项目投资较高,原料价格对项目经济性影响不敏感,产品价格对项目经济性影响十分敏感,在煤价为400元/吨的基础上,70美元/桶是业界较为认可的盈亏平衡点,在国际石油价格在70美元以下项目很难盈利。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&目前,国际原油价格已从2014年年中的110美元/桶跌至30美元/桶左右水平。受此影响,煤制油产品价格也一路下滑,煤制油示范项目已严重亏损。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&税负过重严重影响企业生产经营。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&此轮国际油价暴跌已经导致国内煤制油示范项目盈利空间大幅压缩乃至消失。据我们调查,煤制油示范项目柴油综合税负为36.82%,其中消费税税负为27.53%,增值税税负为5.46%,其他税税负为3.83%。石脑油综合税负为58.98%,其中消费税税负为48.71%,增值税税负为5.46%,其他税税负为4.81%。目前,每生产一吨柴油,企业亏损1592.85元,略大于消费税1411元;每生产一吨石脑油,企业亏损1835.99元,小于消费税2105元。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&成品油定价机制不能体现优质优价。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&我国现行的成品油产业定价体制符合石油基炼制成品油的实际情况,但是没考虑到煤制油的实际生产成本,煤制油产业成本中原料煤成本占总成本比例低,但是投入高、折旧费高、财务费用高,每万吨投资成本是同样级别炼油产业的5-6倍。另外,煤制油品特性优于石油基油品,属于清洁高效能源。但成品油批发管理、销售体制与定价机制影响,煤制油企业在很多方面缺少应有的话语权,不能实现产品的“优质优价”,享受不到油品零售环节应得的那部分利润,十分不利于产业、生产企业健康可持续发展。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&相关政策有待完善。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&煤制油产业作为高新技术产业,在我国仍处于发展初期阶段,需要产业政策的引导和扶持。目前我国煤制油产业基本上是在缺乏总体发展规划的背景下开展的,虽每年都在出台政策,但多数是义务性规范和禁止性规定;类似于宏观政策的上位政策内容过多,缺少承接宏观规划的、体现产业政策的具体化内容;政策重心主要是管控,手段主要依赖于项目审批,缺少引导性;尽管目前我国煤制油技术已经较为成熟、示范效果较为显著,但仍然缺少相应的技术标准、建设标准、产业管理细则与行业准入标准;与此同时,煤制油产业目前更需要类似其他高新技术产业的政策支持和鼓励。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&&strong&政策建议&/strong&&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&坚定煤制油的战略地位。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&煤制油产业的被动局面对该产业的发展信心造成一定影响,但鉴于这一“石油替代”重要举措的战略意义,山西、陕西、内蒙古、新疆等承担示范项目的主要省区对此并没有动摇,山西省委书记王儒林在山西省科技创新推进大会上说“煤制油这条路我们一定要走”。建议政府应站在能源革命和国家安全的战略高度,以更长的时期、更远的眼光看待煤制油产业的发展,坚定煤制油产业在我国能源发展中的战略地位,进一步坚定煤制油产业的发展信心。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&给予必要的政策支持。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&借鉴发达国家对于高新技术产业提供的财政、税收和金融扶持政策,设立煤制油产业发展基金。美国在高新技术产业的发展上采用研发活动由政府直接投资;1986年通过的《经济复兴税法》修正案,大幅减免税收;对高新技术产品由政府采购。法国设立“创新资助金”对由高新技术研究人员创办未满三年的高新技术企业予以资助,设立“技术咨询补贴”用于企业聘请专家解决重大技术问题或技术咨询,补贴额度占发生费用的50%。日本政府出台《高新技术工业密集区开发促进法及其政令、施行令》,对高新技术企业施行优惠信贷政策,不仅延长贷款期,而且实行优惠利率。有必要将煤制油项目列入《国家重点支持的高新技术领域目录》中,将煤制油企业认定为高新技术企业,充分享受税收优惠政策;将煤制油项目恢复到《&span class="wp_keywordlink"&&a href="http://xbkfs./qyzc/302.html" title="西部地区鼓励类产业目录"&西部地区鼓励类产业目录&/a&&/span&》中,保障煤制油企业享受到西部大开发税收优惠政策;改革成品油销售体制,及时核准油品批发销售资质,将煤基油品与石油炼制品区别对待,实行差别化的税收及价格政策,实行“优质优价”。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&&span style="color: #ff2941;"&当务之急是减免煤制油消费税。&/span&&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&有别于石油炼制,煤制油的生产成本与原油价格无关,并且存在业务流程长、工艺复杂、固定资产投资大、财务费用高、折旧费用高等问题,并没有受益于国际原油价格下跌。另外,消费税是主要用于高耗能、高污染、高消费的消费品的税种,而煤制油具有提高煤炭清洁高效利用水平的积极作用。因此,有关部门应当考虑煤制油产业的特殊性,改变煤制油企业税收参照石油企业税收的做法,实行差别化的较低税收政策,参照发达工业国家对幼稚产业的扶持政策,减免相应的成品油消费税、增值税、所得税等等。当务之急,应及时出台减免煤制油品消费税的政策,缓解油价暴跌对煤制油产业造成的冲击,保障该产业的健康发展。(中国能源报)&/p& &&&&&&& &/div&
D:/python-work/demo.py:33: Warning: Incorrect string value: '\xCE\xC4/&#1...' for column 'content' at row 1 & cursor.execute('insert into user(title,content,tags,ttime) values (%s,%s,%s,%s)', (title,content,tags,ttime)) D:/python-work/demo.py:33: Warning: Data truncated for column 'ttime' at row 1 & cursor.execute('insert into user(title,content,tags,ttime) values (%s,%s,%s,%s)', (title,content,tags,ttime)) 煤制油 /-17119.html 17119 从煤制油1.0版到煤基精细化学品2.0版 日 &?xml version='1.0' encoding='gb2312'?& &div class="td-post-text-content"& &&&&&&&&&&& &p style="color: #3e3e3e;"&近日两会期间,&span class="wp_keywordlink_affiliate"&&a href="/company/chinaluan" title="山西潞安矿业(集团)有限责任公司"&潞安&/a&&/span&矿业(集团)有限责任公司董事长李晋平发言表示,对煤炭企业来说,煤炭去产能不是简单的“做减法”,而是需要从创新端发力,依靠创新驱动,大力推进煤炭清洁高效转化利用,只有这样,煤炭企业才能真正实现脱困突围和转型升级。潞安集团将发展煤基合成高端精细化工产业作为战略发展的重大抉择和转型升级的重要方向,在全国率先推进煤基合成油1.0版向煤基精细化学品2.0版迈进,走出了一条“差异化、高端化、国际化”煤基精细化工转型发展之路。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&李晋平表示,要“差异化”——走出一条石油化工无法生产、产品极具竞争优势的差异化发展之路。传统的&span class="wp_keywordlink_affiliate"&&a href="/ctlmtg" title="煤制油产业全析"&煤制油&/a&&/span&产业由于受国际油价波动的影响,效益较差,严重影响了企业的发展。潞安集团利用煤基费托合成技术生产油品及化学品,&span style="color: #ab1942;"&同石油化工相比,具有原料的差异化(石油化工生产的原料杂质多、芳烃多,通过煤基费托合成生产的原料只有碳氢元素组成,干净纯洁,无杂原子,无芳烃)、工艺技术的差异化(煤基费托合成经过气化、&span class="wp_keywordlink_affiliate"&&a href="/sng/tech/purify" title="净化"&净化&/a&&/span&流程,在工艺过程中能够彻底除掉杂原子和有毒有害物质),推进了差异化产品的研发推广,探索出高端蜡产业、碳氢环保溶剂、高档润滑油、特种燃料油、专属化学品及生物化工等“五条转化路径”&/span&。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&3月14日,山西潞安矿业(集团)有限责任公司高硫煤清洁利用油化电热一体化示范项目环评正式批复。项目位于山西省长治市襄垣县王桥新型煤化工工业园区潞安油化电热一体化综合示范园区,利用当地煤炭资源,采用粉煤加压气化、费托合成等技术,生产180万吨/年油品及化学品。项目分二期建设,其中一期建设100万吨/年铁基费托油品装置,二期建设80万吨/年钴基费托蜡加工装置。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&李晋平认为,要“高端化”——走出一条以高端开放创新平台为支撑,以主导技术、核心技术为引领的高端化发展之路。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&1、着力构建产学研用一体化、可持续创新、国际化开放的新平台,加快科技成果快速转化为现实生产力。当今企业的竞争,很大程度上是平台的竞争。依托高端化的创新平台,提高科技成果转化的效率,才能打造持续创新能力,形成持续竞争力,带动企业脱困转型。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&这几年,潞安坚持产学研用一体化推进,构建了“一中心六平台五基地”高端开放创新体系。以“一中心六平台五基地”为载体,潞安初步形成了涵盖基础研究、技术中试、工业示范和技术集成与商业化的产学研用一体化技术创新链条,促进了科技创新成果快速转化为现实生产力。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&2、嫁接集成高端化技术,着力推进主导技术、关键技术攻关,抢占煤基高端精细化学品领域内的技术制高点。潞安利用自身的资源优势和资本优势,与国际领先技术嫁接,进一步提升了企业综合技术水平。在高硫煤清洁利用油化电热一体化示范项目中,集成了全球最大的&span class="wp_keywordlink_affiliate"&&a href="shell-gasifier" title="壳牌粉煤气化技术"&壳牌粉煤气化&/a&&/span&炉技术、新加坡胜科集团的污水处理工艺、美国AP公司的空气分离技术等,确保了技术的先进性和可靠性。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&3、利用高端技术带动传统煤化工转型升级,探索出一条化解传统产能过剩的新路径。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&潞安集团利用具有自主知识产权的钴基固定床费托合成技术,依托焦化厂焦炉煤气作原料,对闲置的甲醇装置进行改造,成功打通全部工艺流程,生产出硬蜡、软蜡、重油、轻油等精细化产品,实现“1+1>2”的效应。30万吨甲醇改精细化学品项目一期6万吨/年第一套装置已于2014年10月成功投产,今年将实现满负荷运行,第二套装置今年5月份建成投运;二期6万吨/年项目结合“工业化大型反应器”研发项目,同步开展规划与设计,力争2017年完成国内第一台10万吨级工业化固定床反应器投入试生产,形成30万吨模板,使这种发展模式可嫁接、可复制、可推广,为下一步示范推广、优势放大奠定坚实的基础。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&李晋平认为,要“国际化”——走出一条面向国际化的技术集成、优势嫁接、合作共赢发展之路。当今国与国之间的竞争,在一定意义上讲是开放度的竞争。国家如此,企业也同样如此。国际化的开放才是真正的开放,国际化的竞争才是真正的竞争,企业必须与国际接轨才更具有竞争力和生命力。潞安坚持“与能人携手、和巨人同行”的合作理念,与国际国内多家跨国公司、行业巨头、研发机构建立了合作关系,以开放合作来提升企业的国际竞争力。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&1、构建对标国际化的商业模式。潞安集团坚持“与能人携手,和巨人同行”,以优势转型项目为依托,与国际国内高新技术公司、高校和科研院所、多元金融机构开展多种形式的合作,借船出海、借鸡生蛋,构建优势嫁接、协同创新、开放共赢的商业模式。一是聚焦价值链高端,实施精准化投资改造,构建“钴基费托合成技术+价值链高端环节”的效益发展模式,低端以委托加工为主,实现投入最少、收益最好,资源价值最大化和环境效益最优化。二是树立“高科技+现代资本=先进生产力”的理念,构建“高科技+现代资本”的融合发展模式,与上海纳克公司联合,正积极推进煤基精细化工高端产品的借壳上市,并将进一步推进潞安纳克碳一公司、太行润滑油公司、天诗合成蜡公司、精蜡化学品公司和太阳能科技公司等公司的上市工作,促进产业与资本市场的对接、融合,借力资本市场,迈向优势放大、良性循环、跨越发展的“快车道”。三是构建“实体经济+现代服务”的协同发展模式。潞安集团与中科院上海高研院、山西煤化所等联合,正积极组建技术公司,开展钴基费托合成技术等技术开发成果的商业化运营,适时将推进技术公司上市。一流企业做标准、二流企业做品牌、三流企业做产品。下一步,潞安集团将更加注重专利战略的制定和运用,积极申报技术专利,开展成套专业技术服务,实现技术专利化、专利标准化、标准垄断化,推动从卖产品到卖技术、卖标准、卖服务的转变,打造在煤基合成领域的技术话语权优势,开创高端化服务经济新局面。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&2、开发国际化市场。潞安通过煤基精细化学品的产业发展走向了世界,让全世界更多的国家、更多的企业认识了潞安。目前潞安的溶剂油产品销往三井化学、梨树化学等知名企业;潞安的煤基费托特种蜡销往美国三叶、波士、德国汉高、富乐、Keim、韩国锦湖轮胎、韩泰轮胎、东南亚、日韩等地。2015年11月,潞安集团与上海纳克公司联合召开PAO发布会,与欧洲、日韩等多家国际代理商、经销商达成合作协议。&/p& &&&&&&& &/div&
D:/python-work/demo.py:33: Warning: Incorrect string value: '\xBD\xFC\xC8\xD5\xC1\xBD...' for column 'content' at row 1 & cursor.execute('insert into user(title,content,tags,ttime) values (%s,%s,%s,%s)', (title,content,tags,ttime)) Traceback (most recent call last): & File "D:/python-work/demo.py", line 33, in &module& &&& cursor.execute('insert into user(title,content,tags,ttime) values (%s,%s,%s,%s)', (title,content,tags,ttime)) & File "build\bdist.win32\egg\MySQLdb\cursors.py", line 205, in execute & File "build\bdist.win32\egg\MySQLdb\connections.py", line 36, in defaulterrorhandler _mysql_exceptions.OperationalError: (1241, 'Operand should contain 1 column(s)') 消费税 煤制油 /-17117.html 17117 煤制油消费税减免无望? 日 &?xml version='1.0' encoding='gb2312'?& &div class="td-post-text-content"& &&&&&&&&&&& &p style="color: #3e3e3e;"&近期两会上,宁夏代表团提交了一份《关于申请减免&span class="wp_keywordlink_affiliate"&&a href="/company/shenhuagroup" title="神华集团有限责任公司"&神华&/a&&/span&&span class="wp_keywordlink_affiliate"&&a href="/company/nxmy" title="神华宁夏煤业集团有限责任公司"&宁煤&/a&&/span&煤炭间接液化项目消费税的建议》。议案指出,神华宁煤&span class="wp_keywordlink_affiliate"&&a href="/ctlmtg" title="煤制油产业全析"&煤制油&/a&&/span&项目仅成品油消费税一项就占成本29.64%,已成为影响煤制油项目顺利建成运营的关键因素,建议国家适当减免。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&与此同时,多位人大代表曾在两会上提议国家减免轻质煤焦油、甲醇制汽油的消费税或实行消费税的先征后返,以此推动煤制油产业的发展,这一呼声已经持续了近3年。但国家至今未有相关政策推出。据市场机构安迅思分析,煤制油等煤化工项目的经济性正被低油价无情吞噬,加上我国炼油行业面临产能过剩的严峻现实,政府出台税收减免等政策的可能性非常低。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&根据宁夏代表团的上述《建议》,神华宁煤400万吨/年煤制油项目投资概算550亿元,计划2017年投产。但目前项目投资全部由神华宁煤集团公司承担,基本上没有享受到国家扶持政策。“在当前和今后一段低油价时期,测算下来,神华宁煤的煤制油项目投产之日即是亏损之时。”&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&安迅思认为,政府出台对于煤制油生产销售企业减免征收消费税政策的可能性或很低。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&有业内人士表示,考虑到煤制油产品的盈利情况和原油价格联动,原油价格处于低位时才会出现亏损,在原油价格上涨并超过60美元/桶时其产品盈利又逐渐显露出来。通过免税或实行阶段性减免消费税还不如直接给与其财政补贴来的更方便。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&安迅思认为,成品油消费税最终承担者是消费者,生产商只是代收,后期如果消费税征收环节后移,煤制油生产企业就不存在亏损。但谨慎发展煤制油行业并不代表不发展,对于某些大型煤制油示范工程和项目,不排除国家会给与地税优惠或是补贴。在国家发布的能源发展战略行动计划中明确将积极发展替代能源作为年间的主要任务,其中提到,稳妥推进煤制油、&span class="wp_keywordlink_affiliate"&&a href="/sng" title="煤制气产业全析"&煤制气&/a&&/span&技术研发和产业化升级示范工程,在2020年前形成适度规模的煤基燃料替代能力。另外,煤制油项目对发展我国新型煤化工和新型能源产业,促进国家能源战略结构调整,降低二氧化碳排放强度都具有重要意义。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&有关行业人士就曾提出,参照财政部、国家税务总局《关于资源综合利用及其它产品增值税政策的通知》,将煤制油企业生产的高标准特种环保油品纳入资源综合利用项目范围,对销售自产的高标准特种环保油品实行增值税先征后退或即征即退政策。&/p& &p style="color: #3e3e3e;"& &/p&&p style="color: #3e3e3e;"&中科合成油技术有限公司高级顾问唐宏青表示,“煤可以转化为合成氨、甲醇、燃料油及众多化工产品,在未对煤制其他化工产品征收消费税的情况下,单独对煤制油品征收消费税,导致了人为的不公平竞争。目前煤制油品年产量也就几百万吨,相对于数亿吨的成品油和上万亿元的国家税收而言微乎其微。对其征收消费税,既无现实意义,也无道理可言。国家有关部门应重新审视这一政策的合理性、合法性与必要性。”&/p& &&&&&&& &/div&
Process finished with exit code 1
插入mysql数据库只有两行数据,其中data没有变化,是默认值,content内容只有中文之前的英文代码
错误不少啊!
原页面的编码是 utf-8 被你转成了gb2312,你数据库的编码也是 utf-8
1.&content = etree.tostring(content,encoding='utf-8') # utf-8 & 把 gb2312改成utf-8
2. 你检索到的日期是&
日 这样的中文 mysql不支持,请修改成 ,可以提取出 页面中time的datetime属性:
ttime = linkselector.xpath('//*[@id]/header/div/time[@datetime]')[0].get('datetime').split('T')[0] &&
正常运行:
可以测试:
# encoding: utf-8
import requests
from lxml import etree
#import MySQLdb
import sys
default_encoding = 'utf-8'
if sys.getdefaultencoding() != default_encoding:
reload(sys)
sys.setdefaultencoding(default_encoding)
download_url = "/category/industry"
html = requests.get(download_url).content
selector = etree.HTML(html)
urllist = selector.xpath('//h4/a[@href]')
for url in urllist:
url = url.get('href')
linkhtml = requests.get(url).content
linkselector = etree.HTML(linkhtml)
title = linkselector.xpath('//*[@id]/header/h1/text()')[0]
ttime = linkselector.xpath('//*[@id]/header/div/time[@datetime]')[0].get('datetime').split('T')[0]
content = linkselector.xpath('//div[@class="td-post-text-content"]')[0]
content = etree.tostring(content,encoding='utf-8') # utf-8
urln = url.split('.')[-2].split('-')[-1]
yezhu = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/ul[1]/li[1]/a/text()''')
tags = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/footer/div/div/ul/li/a/text()''')
#print ','.join(tags)
#用逗号链接列表
for yezhut in yezhu:
print yezhut
for tag in tags:
print url,urln,title,ttime #,content
#db = MySQLdb.connect("localhost","root","root","test",charset='utf8')
#cursor = db.cursor()
#cursor.execute('insert into user(title,content,tags,ttime) values (%s,%s,%s,%s)', (title,content,tags,ttime))
#db.commit()
#db.close()
引用来自“美国热狗”的评论 错误不少啊!
原页面的编码是 utf-8 被你转成了gb2312,你数据库的编码也是 utf-8
1.&content = etree.tostring(content,encoding='utf-8') # utf-8 & 把 gb2312改成utf-8
2. 你检索到的日期是&
日 这样的中文 mysql不支持,请修改成 ,可以提取出 页面中time的datetime属性:
ttime = linkselector.xpath('//*[@id]/header/div/time[@datetime]')[0].get('datetime').split('T')[0] &&
正常运行:
可以测试:
# encoding: utf-8
import requests
from lxml import etree
#import MySQLdb
import sys
default_encoding = 'utf-8'
if sys.getdefaultencoding() != default_encoding:
reload(sys)
sys.setdefaultencoding(default_encoding)
download_url = "/category/industry"
html = requests.get(download_url).content
selector = etree.HTML(html)
urllist = selector.xpath('//h4/a[@href]')
for url in urllist:
url = url.get('href')
linkhtml = requests.get(url).content
linkselector = etree.HTML(linkhtml)
title = linkselector.xpath('//*[@id]/header/h1/text()')[0]
ttime = linkselector.xpath('//*[@id]/header/div/time[@datetime]')[0].get('datetime').split('T')[0]
content = linkselector.xpath('//div[@class="td-post-text-content"]')[0]
content = etree.tostring(content,encoding='utf-8') # utf-8
urln = url.split('.')[-2].split('-')[-1]
yezhu = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/ul[1]/li[1]/a/text()''')
tags = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/footer/div/div/ul/li/a/text()''')
#print ','.join(tags)
#用逗号链接列表
for yezhut in yezhu:
print yezhut
for tag in tags:
print url,urln,title,ttime #,content
#db = MySQLdb.connect("localhost","root","root","test",charset='utf8')
#cursor = db.cursor()
#cursor.execute('insert into user(title,content,tags,ttime) values (%s,%s,%s,%s)', (title,content,tags,ttime))
#db.commit()
#db.close()
谢谢大神。但是我把这句代码取消注释,打印content内容是乱码。要把&content = etree.tostring(content,encoding='utf-8')&中utf-8改成gb2312才能显示中文,这个奇怪了
print url,urln,title,ttime,content
--- 共有 1 条评论 ---
我这里测试是没有乱码的!是不是因为你用的windows系统?
我把插入数据库的代码全部取消注释,运行结果是只能插入两行数据后就错误终止了,
Traceback (most recent call last):
& File "D:/python-work/demo.py", line 33, in &module&
& & cursor.execute('insert into user(title,content,tags,ttime) values (%s,%s,%s,%s)', (title,content,tags,ttime))
& File "build\bdist.win32\egg\MySQLdb\cursors.py", line 205, in execute
& File "build\bdist.win32\egg\MySQLdb\connections.py", line 36, in defaulterrorhandler
_mysql_exceptions.OperationalError: (1241, 'Operand should contain 1 column(s)')
这是错误代码,奇怪了
db = MySQLdb.connect("localhost","root","root","test",charset='utf8')
上面代码应该放到 for 前面。
上面代码应该放到 for 前面,一些资料找找具体的原因。
高手们,我改了下,但是运行后一共插入了10行数据,其中一行数据提示了个运行错误,,其他行数据插入没提示错误,我把ttime在mysql里面类型改成了timestamp,不知为何会提示这个错误。
D:/python-work/demo.py:62: Warning: Data truncated for column 'ttime' at row 1 & cursor.execute('insert into user(title,content,tags,ttime,yezhu,leixing) values (%s,%s,%s,%s,%s,%s)', (title,content,','.join(tags),ttime,','.join(yezhu),','.join(leixing)))
代码如下:
# encoding: utf-8
import requests
from lxml import etree
import MySQLdb
import sys
import HTMLParser
default_encoding = 'utf-8'
if sys.getdefaultencoding() != default_encoding:
reload(sys)
sys.setdefaultencoding(default_encoding)
download_url = "/category/industry/page/4"
html = requests.get(download_url).content
selector = etree.HTML(html)
urllist = selector.xpath('//h4/a[@href]')
def filterHtmlTag(origHtml):
filteredHtml = origH
#Method 1: auto remove tag use re
#remove br
filteredHtml = re.sub("&br\s*&", "", filteredHtml, flags=re.I);
filteredHtml = re.sub("&br\s*/&", "", filteredHtml, flags=re.I);
#("remove br, filteredHtml=%s", filteredHtml);
filteredHtml = re.sub("&a\s+[^&&]+&(?P&aContent&[^&&]+?)&/a&", "\g&aContent&", filteredHtml, flags=re.I);
#("remove a, filteredHtml=%s", filteredHtml);
#remove b,strong
filteredHtml = re.sub("&b&(?P&bContent&[^&&]+?)&/b&", "\g&bContent&", filteredHtml, re.I);
filteredHtml = re.sub("&strong&(?P&strongContent&[^&&]+?)&/strong&", "\g&strongContent&", filteredHtml, flags=re.I);
#("remove b,strong, filteredHtml=%s", filteredHtml);
return filteredH
for url in urllist:
url = url.get('href')
linkhtml = requests.get(url).content
linkselector = etree.HTML(linkhtml.lower().decode('utf-8'))
title = linkselector.xpath('//*[@id]/header/h1/text()')[0]
ttime = linkselector.xpath('//*[@id]/header/div/time[@datetime]')[0].get('datetime').split('T')[0]
content = linkselector.xpath('//div[@class="td-post-text-content"]')[0]
content = etree.tostring(content,encoding='utf-8') # utf-8
#content = filterHtmlTag(content)
imglist = linkselector.xpath('//img')
for img in imglist:
print img.get('src')
pile(r'''(&img\b[^&&]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*["']?[\s\t\r\n]*([^\s\t\r\n"'&&]*)[^&&]*?/?[\s\t\r\n]*&)''',re.IGNORECASE)
content = p.sub(r'''&span class="openIcon"&&em&&/em&&a href="\2"&\1&/a&&/span&''',content)
urln = url.split('.')[-2].split('-')[-1]
yezhu = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/ul[1]/li[1]/a/text()''')
tags = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/footer/div/div/ul/li/a/text()''')
leixing = linkselector.xpath('''//*[@id="post-'''+urln+'''"]/header/div/ul/li/a/text()''')
#print ','.join(tags)
#用逗号链接列表
db = MySQLdb.connect("localhost","root","root","test",charset='utf8')
for yezhut in yezhu:
print yezhut
for tag in tags:
print url,urln,title,ttime,content,leixing
cursor = db.cursor()
cursor.execute('insert into user(title,content,tags,ttime,yezhu,leixing) values (%s,%s,%s,%s,%s,%s)', (title,content,','.join(tags),ttime,','.join(yezhu),','.join(leixing)))
db.commit()
db.close()

我要回帖

 

随机推荐