首页 > 技术文章 > Python——网络编程(二)socket初识

Matrixssy 2019-11-21 11:09 原文

引言:tcp与udp的区别

什么是TCP?

TCP(Transmission Control Protocol传输控制协议)是一种面向连接的,可靠的(为什么可靠见下文),基于字节流的传输通信协议。

TCP提供面向连接的服务,在传送数据之前必须先建立连接,数据传送完成后要释放连接(主要体现在收发消息都会进行确认,下文说明)。因此TCP是一种可靠的的运输服务,但是正因为这样,不可避免的增加了许多的开销,比如确认,流量控制等。对应的应用层的协议主要有 SMTP,TELNET,HTTP,FTP 等。

例如:淘宝付款就需要建立可靠的连接
1、tcp(Transmission Control Protocol传输控制协议)
2、传输层协议
3、原因:应用层需要可靠的连接,但是IP层没有这样的流机制
4、面向连接,即在客户端和服务器之间发送数据之间,必须先建立连接

5、位于应用层和IP层之间
6、连接需要建立三次握手、四次挥手断开连接

7、传输数据时可靠的

TCP报文

 1 源端口和目的端口,各占2个字节,分别写入源端口和目的端口;
 2 序号,占4个字节,TCP连接中传送的字节流中的每个字节都按顺序编号。例如,一段报文的序号字段值是 301 ,而携带的数据共有100字段,显然下一个报文段(如果还有的话)的数据序号应该从401开始;
 3 确认号,占4个字节,是期望收到对方下一个报文的第一个数据字节的序号。例如,B收到了A发送过来的报文,其序列号字段是501,而数据长度是200字节,这表明B正确的收到了A发送的到序号700为止的数据。因此,B期望收到A的下一个数据序号是701,于是B在发送给A的确认报文段中把确认号置为701;
 4 数据偏移,占4位,它指出TCP报文的数据距离TCP报文段的起始处有多远;
 5 保留,占6位,保留今后使用,但目前应都位0;
 6 紧急URG,当URG=1,表明紧急指针字段有效。告诉系统此报文段中有紧急数据;
 7 确认ACK,仅当ACK=1时,确认号字段才有效。TCP规定,在连接建立后所有报文的传输都必须把ACK置1;
 8 推送PSH,当两个应用进程进行交互式通信时,有时在一端的应用进程希望在键入一个命令后立即就能收到对方的响应,这时候就将PSH=1;
 9 复位RST,当RST=1,表明TCP连接中出现严重差错,必须释放连接,然后再重新建立连接;
10 同步SYN,在连接建立时用来同步序号。当SYN=1,ACK=0,表明是连接请求报文,若同意连接,则响应报文中应该使SYN=1,ACK=1;
11 终止FIN,用来释放连接。当FIN=1,表明此报文的发送方的数据已经发送完毕,并且要求释放;
12 窗口,占2字节,指的是通知接收方,发送本报文你需要有多大的空间来接受;
13 检验和,占2字节,校验首部和数据这两部分;
14 紧急指针,占2字节,指出本报文段中的紧急数据的字节数;
15 选项,长度可变,定义一些其他的可选的参数。

TCP连接的建立(三次握手

  1. TCP服务器进程先创建传输控制块TCB,时刻准备接受客户进程的连接请求,此时服务器就进入了LISTEN(监听)状态;
  2. TCP客户进程也是先创建传输控制块TCB,然后向服务器发出连接请求报文,这是报文首部中的同部位SYN=1,同时选择一个初始序列号 seq=x ,此时,TCP客户端进程进入了 SYN-SENT(同步已发送状态)状态。TCP规定,SYN报文段(SYN=1的报文段)不能携带数据,但需要消耗掉一个序号。
  3. TCP服务器收到请求报文后,如果同意连接,则发出确认报文。确认报文中应该 ACK=1,SYN=1,确认号是ack=x+1,同时也要为自己初始化一个序列号 seq=y,此时,TCP服务器进程进入了SYN-RCVD(同步收到,也叫半连接状态)状态。这个报文也不能携带数据,但是同样要消耗一个序号。
  4. TCP客户进程收到确认后,还要向服务器给出确认。确认报文的ACK=1,ack=y+1,自己的序列号seq=x+1,此时,TCP连接建立,客户端进入ESTABLISHED(已建立连接)状态。TCP规定,ACK报文段可以携带数据,但是如果不携带数据则不消耗序号。
  5. 当服务器收到客户端的确认后也进入ESTABLISHED状态,此后双方就可以开始通信了。

为什么TCP客户端最后还要发送一次确认呢?

一句话,主要防止已经失效的连接请求报文突然又传送到了服务器,从而产生错误。
  如果使用的是两次握手建立连接,假设有这样一种场景,客户端发送了第一个请求连接并且没有丢失,只是因为在网络结点中滞留的时间太长了,由于TCP的客户端迟迟没有收到确认报文,以为服务器没有收到,此时重新向服务器发送这条报文,此后客户端和服务器经过两次握手完成连接,传输数据,然后关闭连接。此时此前滞留的那一次请求连接,网络通畅了到达了服务器,这个报文本该是失效的,但是,两次握手的机制将会让客户端和服务器再次建立连接,这将导致不必要的错误和资源的浪费。
  如果采用的是三次握手,就算是那一次失效的报文传送过来了,服务端接受到了那条失效报文并且回复了确认报文,但是客户端不会再次发出确认。由于服务器收不到确认,就知道客户端并没有请求连接。

TCP连接的释放(四次挥手)

  1. 客户端进程发出连接释放报文,并且停止发送数据。释放数据报文首部,FIN=1,其序列号为seq=u(等于前面已经传送过来的数据的最后一个字节的序号加1),此时,客户端进入FIN-WAIT-1(终止等待1)状态。 TCP规定,FIN报文段即使不携带数据,也要消耗一个序号。
  2. 服务器收到连接释放报文,发出确认报文,ACK=1,ack=u+1,并且带上自己的序列号seq=v,此时,服务端就进入了CLOSE-WAIT(关闭等待)状态。TCP服务器通知高层的应用进程,客户端向服务器的方向就释放了,这时候处于半关闭状态,即客户端已经没有数据要发送了,但是服务器若发送数据,客户端依然要接受。这个状态还要持续一段时间,也就是整个CLOSE-WAIT状态持续的时间。
  3. 客户端收到服务器的确认请求后,此时,客户端就进入FIN-WAIT-2(终止等待2)状态,等待服务器发送连接释放报文(在这之前还需要接受服务器发送的最后的数据)。
  4. 服务器将最后的数据发送完毕后,就向客户端发送连接释放报文,FIN=1,ack=u+1,由于在半关闭状态,服务器很可能又发送了一些数据,假定此时的序列号为seq=w,此时,服务器就进入了LAST-ACK(最后确认)状态,等待客户端的确认。
  5. 客户端收到服务器的连接释放报文后,必须发出确认,ACK=1,ack=w+1,而自己的序列号是seq=u+1,此时,客户端就进入了TIME-WAIT(时间等待)状态。注意此时TCP连接还没有释放,必须经过2∗ *∗MSL(最长报文段寿命)的时间后,当客户端撤销相应的TCB后,才进入CLOSED状态。
  6. 服务器只要收到了客户端发出的确认,立即进入CLOSED状态。同样,撤销TCB后,就结束了这次的TCP连接。可以看到,服务器结束TCP连接的时间要比客户端早一些。

注意:以上的四次挥手客户端和服务端的位置是可以对调的,也就是服务端主动要求断开连接;实际生活中往往是这种情况

为什么客户端最后还要等待2MSL?

MSL(Maximum Segment Lifetime),TCP允许不同的实现可以设置不同的MSL值。

  1. 保证客户端发送的最后一个ACK报文能够到达服务器,因为这个ACK报文可能丢失,站在服务器的角度看来,我已经发送了FIN+ACK报文请求断开了,客户端还没有给我回应,应该是我发送的请求断开报文它没有收到,于是服务器又会重新发送一次,而客户端就能在这个2MSL时间段内收到这个重传的报文,接着给出回应报文,并且会重启2MSL计时器。
  2. 防止类似与“三次握手”中提到了的“已经失效的连接请求报文段”出现在本连接中。客户端发送完最后一个确认报文后,在这个2MSL时间中,就可以使本连接持续的时间内所产生的所有报文段都从网络中消失。这样新的连接中不会出现旧连接的请求报文。

为什么建立连接是三次握手,关闭连接确是四次挥手呢?

建立连接的时候, 服务器在LISTEN状态下,收到建立连接请求的SYN报文后,把ACK和SYN放在一个报文里发送给客户端。
而关闭连接时,服务器收到对方的FIN报文时,仅仅表示对方不再发送数据了但是还能接收数据,而自己也未必全部数据都发送给对方了,所以己方可以立即关闭,也可以发送一些数据给对方后,再发送FIN报文给对方来表示同意现在关闭连接,因此,己方ACK和FIN一般都会分开发送,从而导致多了一次。

如果已经建立了连接,但是客户端突然出现故障了怎么办?

TCP还设有一个保活计时器,显然,客户端如果出现故障,服务器不能一直等下去,白白浪费资源。服务器每收到一次客户端的请求后都会重新复位这个计时器,时间通常是设置为2小时,若两小时还没有收到客户端的任何数据,服务器就会发送一个探测报文段,以后每隔75秒发送一次。若一连发送10个探测报文仍然没反应,服务器就认为客户端出了故障,接着就关闭连接。
————————————————
版权声明:本文为CSDN博主「小书go」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qzcsu/article/details/72861891

SYN洪水攻击

正常的3次握手连接:首先是C发送一个SYN报文给服务端S,然后这个服务端发送一个SYN-ACK包以回应C,接着,C就返回一个ACK包来实现一次完整的TCP连接。就这样,C到服务端的连接就建立了,这时C和服务端就可以互相交换数据了。

SYN洪水:在S返回一个确认的SYN-ACK包的时候,S可能由于各种原因不会接到C回应的ACK包。这个也就是所谓的半开放连接,S需要 耗费一定的数量的系统内存来等待这个未决的连接,虽然这个数量是受限,但是恶意者可以通过创建很多的半开放式连接来发动SYN洪水攻击 。
攻击者可以通过IP欺骗发送SYN包给受害者系统,这个看起来是合法的,但事实上所谓的C根本不会进行ACK回应服务端S的SYN-ACK报文,这意味着受害者将永远不会接到ACK报文。 而此时,半开放连接将最终耗用受害者所有的系统资源(即使等待ACK包有超时限制),受害者将不能再接收任何其他的请求。

bakclog

当应用程序调用listen系统调用让一个socket进入LISTEN状态时,需要指定一个参数backlog。这个backlog参数经常被描述为新连接队列的长度限制,也叫半连接值(代表能同时进行半连接的个数?)

UDP(User Datagram Protocol用户数据报协议)

UDP,在传送数据前不需要先建立连接,远地的主机在收到UDP报文后也不需要给出任何确认。虽然UDP不提供可靠交付,但是正是因为这样,省去和很多的开销,使得它的速度比较快,比如一些对实时性要求较高的服务,就常常使用的是UDP。对应的应用层的协议主要有 DNS,TFTP,DHCP,SNMP,NFS 等。

例如:看在线视频时

  1. UDP(User Datagram Protocol用户数据报协议)
  2. 传输层协议
  3. 无连接的数据报协议
  4. 不能提供数据报分组,组装和不能对数据报进行排序
  5. 主要用于不要求分组顺序到达的传输中,分组传输顺序的检查和排序有应用层完成。
  6. 提供面向事务的简单不可靠传递服务。
  7. UDP协议使用端口分别运行在同一台设备上的多个应用程序
  8. 功能:为了在给定的主句上能识别多个目的的地址,同时允许多个应用程序在同一台主句上工作并能够独立地进行数据包的发送和接受,设计用户数据报协议UDP

TCP、UDP两者的区别

1、TCP是面向连接的(在客户端和服务器之间传输数据之前要先建立连接),UDP是无连接的(发送数据之前不需要先建立连接)
2、TCP提供可靠的服务(通过TCP传输的数据。无差错,不丢失,不重复,且按序到达);UDP提供面向事务的简单的不可靠的传输。
3、UDP具有较好的实时性,工作效率比TCP高,适用于对高速传输和实时性比较高的通讯或广播通信。随着网速的提高,UDP使用越来越多。
4、没一条TCP连接只能是点到点的,UDP支持一对一,一对多和多对多的交互通信。
5、TCP对系统资源要去比较多,UDP对系统资源要求比较少
6、UDP程序结构更加简单
7、TCP是流模式,UDP是数据报模式

什么是socket?

  Socket是应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口。在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket去组织数据,以符合指定的协议。

  所以,我们无需深入理解tcp/udp协议,socket已经为我们封装好了,我们只需要遵循socket的规定去编程,写出的程序自然就是遵循tcp/udp标准的。

其在TCP/IP五层协议中的位置如下:

 socket的发展史

   socket(也称套接字)起源于 20 世纪 70 年代加利福尼亚大学伯克利分校版本的 Unix,即人们所说的 BSD Unix。 因此,有时人们也把套接字称为“伯克利套接字”或“BSD 套接字”。

一开始,套接字被设计用在同 一台主机上多个应用程序之间的通讯。这也被称进程间通讯,或 IPC。套接字有两种(或者称为有两个种族),分别是基于文件型的和基于网络型的。

基于文件类型的套接字家族

套接字家族的名字:AF_UNIX

unix一切皆文件,基于文件的套接字调用的就是底层的文件系统来取数据,两个套接字进程运行在同一机器,可以通过访问同一个文件系统间接完成通信

基于网络类型的套接字家族

套接字家族的名字:AF_INET

(还有AF_INET6被用于ipv6,还有一些其他的地址家族,不过,他们要么是只用于某个平台,要么就是已经被废弃,或者是很少被使用,或者是根本没有实现;

所有地址家族中,AF_INET是使用最广泛的一个,python支持很多种地址家族,但是由于我们只关心网络编程,所以大部分时候我们只使用AF_INET)

 socket的工作流程

            

 

1. 先从服务器端说起。服务器端先初始化Socket,然后与端口绑定(bind),对端口进行监听(listen),调用accept阻塞,等待客户端连接。

2. 在这时如果有个客户端初始化一个Socket,然后连接服务器(connect),如果连接成功,这时客户端与服务器端的连接就建立了。

3. 客户端发送数据请求,服务器端接收请求并处理请求,然后把回应数据发送给客户端,客户端读取数据,最后关闭连接,一次交互结束。

socket的常用函数

 

服务端套接字函数
s.bind() 绑定(主机,端口号)到套接字
s.listen() 开始TCP监听
s.accept() 被动接受TCP客户的连接,(阻塞式)等待连接的到来

客户端套接字函数
s.connect() 主动初始化TCP服务器连接
s.connect_ex() connect()函数的扩展版本,出错时返回出错码,而不是抛出异常

公共用途的套接字函数
s.recv() 接收TCP数据
s.send() 发送TCP数据(send在待发送数据量大于己端缓存区剩余空间时,数据丢失,不会发完)
s.sendall() 发送完整的TCP数据(本质就是循环调用send,sendall在待发送数据量大于己端缓存区剩余空间时,数据不丢失,循环调用send直到发完)
s.recvfrom() 接收UDP数据
s.sendto() 发送UDP数据
s.getpeername() 连接到当前套接字的远端的地址
s.getsockname() 当前套接字的地址
s.getsockopt() 返回指定套接字的参数
s.setsockopt() 设置指定套接字的参数
s.close() 关闭套接字

面向锁的套接字方法
s.setblocking() 设置套接字的阻塞与非阻塞模式
s.settimeout() 设置阻塞套接字操作的超时时间
s.gettimeout() 得到阻塞套接字操作的超时时间

面向文件的套接字的函数
s.fileno() 套接字的文件描述符
s.makefile() 创建一个与该套接字相关的文件

 

现在我们就来做一个简易版的客户端与服务端

服务端:

 1 import socket
 2 
 3 #第一步:
 4 # socket.socket(socket_family, socket_type, proto=0)
 5 # socket_family 可以是 AF_UNIX 或 AF_INET;(一个基于文件,一个基于网络)
 6 # socket_type 可以是 SOCK_STREAM 或 SOCK_DGRAM;
 7 #(SOCK_STREAM代表基于流式通信,也就是获取tcp/ip 套接字)
 8 #(SOCK_DGRAM代表获取udp/ip 套接字)
 9 # proto 一般不填,默认值为 0
10 service = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
11 #由于 socket 模块中有太多的属性,我们在这里也可以使用'from module import *'语句
12 #这样能 大幅减短我们的代码;例如tcpSock = socket(AF_INET, SOCK_STREAM)
13 
14 #第二步:
15 #绑定(主机,端口号)到套接字(注意是元组形式)
16 service.bind(('222.195.137.208', 8000))
17 
18 #第三步:
19 #开始TCP监听,backlog代表最大监听的个数,这里为5
20 service.listen(5)
21 
22 #第四步:
23 #被动接受TCP客户的连接(以元组形式接收),(阻塞式)等待连接的到来
24 print('等待客户端的消息')
25 conn, addr = service.accept()
26 #可以打印出来看看conn, addr到底是什么
27 #conn就是三次握手的那个链接
28 print(conn, addr, sep='\n')
29 
30 #第五步:
31 #接收\发送信息,这里的1024代表收发信息的尺寸
32 #收到得消息为二进制格式
33 msg = conn.recv(1024)
34 recv_msg = msg.decode('utf8')
35 print('客户端发来的信息:%s' %recv_msg)
36 
37 #向客户端发送的消息,必须为转换为二进制格式
38 msg1 = '成功接收到客户端发来的消息:%s' %recv_msg
39 send_msg = msg1.encode('utf8')
40 conn.send(send_msg)
41 
42 #断开连接
43 conn.close()
44 #服务端关机(关闭socket)
45 service.close()

注意:程序关掉后不会立马把监听的端口释放掉,linux下可以用命令查询:(8000为监听的端口号)

因为四次挥手的最后一步TIME_WAIT造成的,也就是为什么当服务端关闭程序后再次运行程序监听此线程会出现错误:

 

客户端:

import socket

client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)

#连接服务端
client.connect(('222.195.137.208', 8000))

#发送消息给服务端
send_msg = 'hello'
client.send(send_msg.encode('utf8'))

#接收服务端传回来的消息
msg = client.recv(1024)
recv_msg = msg.decode('utf8')
print(recv_msg)

#关闭客户端
client.close()

 上文各函数在TCP协议中扮演什么角色呢?下图告诉你

 

 

 到这里就能回答文章开篇的TCP为什么可靠的原因了:

在数据传输上无论是服务端还是客户端,发送信息后都需要在向对方发送一个确认信息也就是图中的ACK x+2 ,以确保信息被收到(对方收到后才会自己这端清空缓冲区),如果没有确认消息则从缓冲区中再拷贝一份重新发送。

推荐阅读