首页 > 技术文章 > twisted学习笔记No.3 Web Clients

tracylining 2013-10-06 16:08 原文

原创博文,转载请注明出处

 这一章我们学习利用twisted建立web 客户端。

twisted.web.client.getPage用来异步下载一个页面,并且返回一个deferred
from twisted.internet import reactor
from twisted.web.client import getPage
import sys

def printPage(result):
    print result

def printError(failure):
    print >>sys.stderr,failure

def stop(result):
    reactor.stop()

if len(sys.argv)!=2:
    print >>sys.stderr,"Usage: python 5-1.py<URL>"
    exit(1)

d=getPage(sys.argv[1])
d.addCallbacks(printPage,printError)
d.addBoth(stop)

reactor.run()

在控制台下我们执行 python 5-1.py http://www.baidu.com/ 就会把整个页面下载下来并以字符串形式输出。

twisted.web.client.downloadPage用来异步下载一个页面并保存为文件,
from twisted.internet import reactor
from twisted.web.client import downloadPage
import sys

def printError(failure):
    print >>sys.stderr,failure

def stop(result):
    reactor.stop()

if len(sys.argv)!=3:
    print >>sys.stderr,"Usage: python 5-2.py<URL><output file>"
    exit(1)

d=downloadPage(sys.argv[1],sys.argv[2])
d.addErrback(printError)
d.addBoth(stop)

reactor.run()

测试: 执行python 5-2.py http://www.baidu.com/ baidu.html ,数据保存在与5-2.py 同目录下的baidu.html文件中

getPage() 和 downloadPage() 在应付一些小工作时还可以,但是我们Twisted 主要的HTTP  Client API 还是Agent 接下来我们学习Agent的用法

from twisted.internet import reactor
from twisted.internet.defer import Deferred
from twisted.internet.protocol import Protocol
from twisted.web.client import Agent
import sys

class ResourcePrinter(Protocol):
    def __init__(self,finished):
        self.finished=finished

    def dataReceived(self,data):
        print data

    def connectionLost(self,reason):
        self.finished.callback(None)

def printResource(response):
    finished=Deferred()
    response.deliverBody(ResourcePrinter(finished))
    return finished

def printError(failure):
    print >>sys.stderr, failure

def stop(result):
    reactor.stop()

if len(sys.argv)!=2:
    print >>sys.stderr,"Usage: python 5-3.py URL"
    exit(1)

agent=Agent(reactor)
d=agent.request('GET',sys.argv[1])
d.addCallbacks(printResource,printError)
d.addBoth(stop)

reactor.run()

      Agent的初始化需要参数reactor,agent.request(self,method,url,headers=None,bodyProducer=None)headers是请求头,bodyProducer是一个用来生成请求body的对象,本函数用来产生一个请求,返回一个由该请求引发的deferred。

      然后我们注册一个callback和errorback去处理请求,response.deliverBody 注册一个 IProtocol provider 来接收 response body.因为响应在网络中是以信息块的形式,所以我们构造一个Protocol来处理数据。为了能够在ResourcePrinter之外还能够处理事件,我们在ResourcePrinter初始化的时候构造了一个deferred,它在连接停止以后触发,并且通过printResource返回。

      最后结果和5-1.py(笔记第一个程序)一样。

 恢复响应元数据:

     Agent支持所有的HTTP 方法和任意HTTP头。由agent.request返回的deferred包含很多有用的HTTP元数据,比如HTTP status code, HTTP version, and headers。

 

import sys
from twisted.internet import reactor
from twisted.web.client import Agent
from twisted.web.http_headers import Headers

def printHeaders(response):
    print 'HTTP version',response.version
    print 'Status code',response.code
    print 'Status phrase',response.phrase
    print 'Response headers:'
    for header, value in response.headers.getAllRawHeaders():
        print header,value

def printError(failure):
    print >>sys.stderr, failure

def stop(result):
    reactor.stop()

if len(sys.argv)!=2:
    print >>sys.stderr, "Usage: python 5-4.py URL"
    exit(1)

agent=Agent(reactor)
headers=Headers({'User-Agent':['Twisted WebBot'],
                 'Content-Type':['text/x-greeting']})#为什么是列表?

d=agent.request('HEAD',sys.argv[1],headers=headers)
d.addCallbacks(printHeaders,printError)
d.addBoth(stop)

reactor.run()

 

测试: 执行python 5-4.py http://www.baidu.com/ baidu.html  我们可以得到来自百度服务器端的响应信息。

利用Agent 发生HTTP数据:

    首先我们介绍Producer和Consumer:高效大数据流 (下面解释的不是很清楚,因为我自己也是属于半懂阶段)

   Push Producers 如果没有外界的制止,它会一直产生数据,API通过IPushProducer接口定义。有三个方法 pauseProducing()  resumeProducing() stopProducing()

  Pull Producers 对于一个明确的请求的响应中产生一系列的数据,其API通过IPullProducer接口定义,有两个方法 resumeProducing() stopProducing(),只有resumeProducing() 被调用,一个Pull Producer 才产生数据。

  Consumer 就是数据的去处,也就是接收数据的地方,它由两个接口IConsumer和IFinishableConsumer定义。其中IConsumer有三个方法:registerProducer(producer,streaming), unregisterProducer(),write(data), IFinishableConsumer则增加了finish()

  在下面的例子中 ,我们用到了IBodyProducer(IPushProducer),其作用是把数据写进一个用write方法的IConsumer中,在初始化过程中我们必须定义length属性即数据的长度,在startProducing() 方法中如果所有数据写入完毕或者生成的数据有问题将会返回一个由None引发的Deferred。本例中我们用succeed(None)实现。

 

import sys
from twisted.internet import reactor
from twisted.internet.defer import Deferred,succeed
from twisted.internet.protocol import Protocol
from twisted.web.client import Agent
from twisted.web.iweb import IBodyProducer

from zope.interface import implements

class StringProducer(object):
    implements(IBodyProducer)

    def __init__(self,body):
        self.body=body
        self.length=len(body)

    def startProducing(self,consumer):
        consumer.write(self.body)
        return succeed(None)

    def pauseProducing(self):
        pass

    def stopProducing(self):
        pass
    
class ResourcePrinter(Protocol):
    def __init__(self,finished):
        self.finished=finished

    def dataReceived(self,data):
        print data

    def connectionLost(self,reason):
        self.finished.callback(None)

def printResource(response):
    finished=Deferred()
    response.deliverBody(ResourcePrinter(finished))
    return finished

def printError(failure):
    print >>sys.stderr, failure

def stop(result):
    reactor.stop()

if len(sys.argv)!=3:
    print >>sys.stderr,"Usage: python 5-5.py URL 'POST DATA'"
    exit(1)

agent=Agent(reactor)
body=StringProducer(sys.argv[2])
d=agent.request('POST',sys.argv[1],bodyProducer=body)
d.addCallbacks(printResource,printError)
d.addBoth(stop)

reactor.run()

 

我们再构造一个服务器端,其作用是把客户端推送过来的数据进行反转处理。

from twisted.internet import reactor
from twisted.web.resource import Resource
from twisted.web.server import Site

class TestPage(Resource):
    isLeaf=True
    def render_POST(self,request):
        return request.content.read()[::-1]

resource=TestPage()
factory=Site(resource)
reactor.listenTCP(8000,factory)

reactor.run()

我们分别在两个控制台下输入命令

python 5-6.py 这是服务器端

python 5-5.py http://127.0.0.1:8000 nihao 

我们会得到 oahin的输出。

 

 

推荐阅读