这段时间在研究BT数据流如何突破防火墙的,但是最后好像有点拦截的意思,反了:(,还是把它总结一下,欢迎讨论,wengpingbo@gmail.com BitTorrent 协议介绍 BitTorrent 是一种 P2P 协议。用于在对等网络中,用户群和用户群 (peer-to-peer) 之间的文件分享。并
这段时间在研究BT数据流如何突破防火墙的,但是最后好像有点拦截的意思,反了:(,还是把它总结一下,欢迎讨论,wengpingbo@gmail.com
BitTorrent 协议介绍
BitTorrent 是一种 P2P 协议。用于在对等网络中,用户群和用户群 (peer-to-peer) 之间的文件分享。并且,对于一个文件,用户群越大,下载速度就越快。 BitTorrent 协议能够减少服务端和网络环境对分享大文件的影响,由于是分布式节点互传数据,某一部分的网络拥堵或服务器宕机并不会对整个传输链路造成太大的影响。
BitTorrent 协议是由程序员 Bram Cohen在2001 年四月份设计的,最终版本在 2008 年确定。有很多客户端实现了 BitTorrent 协议,最常见的有 Vuze 、 μTorrent、BitTorrent 、 BitComet 、 Transmission 和 Xunlei 。
BitTorrent 协议组成部分
一个 BitTorrent 文件传输过程,通常需要由以下几个部分组成:
WEB 服务器 文件元信息 (metainfo ,种子 ) BitTorrent Tracker 原始下载者(发布资源者) 终端用户浏览器 ( 下载 .torrent 种子 ) 终端用户下载者种子文件结构
一个种子文件,通常是以 .torrent 后缀结尾。 BitTorrent 协议规定, torrent 文件本身,内容必须是 utf8 编码格式,并且其中的字段结构采用 bencoding 编码格式。
Torrent 种子文件由两部分组成: announce ( tracker url )和文件信息。
下面以一个正常的 torrent 文件来分析种子文件的结构。
该种子文件的一部分如下:
d8:announce78:http://www.chinahdtv.org/announce.php?passkey=6e7a1c7ca4164d87e9b0e00ec63aa74910:created by13:uTorrent/204013:creation datei1369699038e8:encoding5:UTF-84:infod5:filesld6:lengthi158784e4:pathl53:Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264.chn.srteed6:lengthi107117e4:pathl54:Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264.chn1.srteed6:lengthi93644e4:pathl54:Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264.chn2.srteed6:lengthi4272200020e4:pathl49:Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264.mkveee4:name56:钢铁侠3.Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x26412:piece lengthi4194304e6:pieces20380:012ef......:privatei1e6:source23:[hd.gg] CNHD ChinaHDTVee
根据bencoding 编码格式,把这段字符解码还原后,就是如下内容:
info:
{files:[
{length:158784,path:[Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264.chn.srt]}, {length:107117,path:[Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264.chn1.srt]}, {length:93644,path:[Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264.chn2.srt]},
{length:4272200020,path:[Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264.mkv]}],
name: 钢铁侠 3. Iron.Man.3.2013.HDSCR.ULTRA.EDiTiON.720p.x264,
piece length:4194304,
source:[hd.gg] CNHD ChinaHDTV
}
关于具体 bencoding 编码,请参考引用中的链接。从上面的结果可以看出,一个 torrent 种子文件有点类似于 XML 格式的文件,包含如下组成部分:
tracker 地址,这里就是 announce 后面的 url 种子创建软件及其版本号,这里是 uTorrent 软件创建的,版本号为 2040 创建日期,这里是1369699038,这个数字显示的是从UTC 1970-1-1 0 到到现在所经历的秒数,如果你用工具转换一下,你会发现创建的时间是 2013-5-28 7:57:18 编码格式,这里是 UTF-8 info 区,这里指定的是该种子有几个文件,文件有多长,目录结构,以及目录和文件的名字,从上面的结果,可以看出这个种子有 4 个文件, 3 个字幕,一个视频文件 Name 字段,指定顶层目录名字 每个段的大小, Bittorrent 协议是把一个文件分成很多个小段,然后分段下载的,这个地方就是指定每个段的大小,单位是字节,这里每个段的大小大约为 4MB 段哈希值,就是整个种子中,每个段的 SHA1 哈希值拼在一起,后面的那个省略号是全部段的 SHA1 哈希值,很长,这里用省略号代替。每个段的哈希长度是固定的, 20 个字符,所以 pieces 后面跟的那个数字 20380其实是段数量*20 ,如果你用 20380除以20 ,就会发现这个种子段数量为 1019 ,乘上前面的段大小,这个种子大概有 4GB 大小,也就是说你把这个种子下载完后,占硬盘 4GB 空间 private 值,这个属性主要显示这个种子是私有的,还是公有的。一般那些各大 PT 站就是私有的。私有的种子会禁掉 DHT( distributed hash table) ,因为如果你的 client 开这个功能,那就会跳过 tracker 来和其他 peer 进行数据交换,在很多 PT 内站 (CHDbits,CMCT,CNHD) 把这种行为称为作弊,会直接 ban 掉你在 PT 站上的帐号。关于 DHT 的具体信息,请参考引用中的链接。 源,显示该种子的来源,这里是 CNHD注意,以上的每个属性并不是必须的,有的属性属于BitTorrent Enhancement Proposals (BEPs),就是BitTorrent 协议的扩展,虽然不属于正式标准的一部分,但是很多客户端都支持这种格式
BitTorrent 通信流程与网络包结构
BitTorrent 协议支持基于 TCP 或 UTP 网络协议进行数据传输,但是由于 TCP 协议是有连接的,需要先进行握手。在进行数据传输的过程中,每个种子会占有大量的 TCP 连接,从而占有大量的用户带宽。这给其他需要高实时性的应用造成很大的网络压力。
于是 BitTorrent 又支持 UTP 协议用来进行数据传输,这也是当前大部分 BT 下载客户端所采用的实现方式。 UTP( uTorrent Transport Protocol) 是基于 UDP 网络协议的,也就是无连接协议,采用这种协议进行数据交换,可以很容易进行带宽控制,不会造成网络拥堵。
下面主要分析 BitTorrent 中的 UTP 协议,因为这个常用嘛!
UTP 协议的包结构如下:(不包含 UDP header )
Fig. 1 UTP 包结构 ( 来自 bittorrent.org)
type :数据包类型, 0-- 带负载数据包,就是通常在连接建立后,上传数据或下载数据的包; 1-- 连接结束数据包,结束一个连接; 2-- 数据回应包,当一个 peer 收到一个带负载数据包后,会回一个 ACK 包,来表示这个包已正确接收,有点类似于 TCP 的 SYN 的感觉,但是这个是在 UDP 包的数据段做连接控制; 3-- 重置连接; 4-- 开始一个连接 ver :协议版本,通常为 1 extension :扩展段,用于支持 BEPs connection_id :连接 id ,同一个连接 id 的数据包属于一个连接,一般每两个 peer 之间会开两个连接,一个用于发,一个用于收 timestamp_microseconds :包的发送时间 timestamp_difference_microseconds :对于当前连接,最近收到的包时间和当前要发送的包之间的时间间隔 wnd_size :发送方当前剩余窗口大小,用于进行速度和带宽控制。 BitTorrent 协议中每一个发出去的数据包,都要求接收方回一个 ACK 包。而一个 peer 的窗口大小是指当前发送出去,但还没有收到回应的包的总大小,单位为字节。每一个 peer 都一个最大窗口值和一个窗口大小上限值。当 wnd_size 小于最小 UTP 包大小的时候,发送方会停止发送数据包,或调整每个数据包的数据负载大小 seq_nr :相对于一个连接,数据包的序列号,以一个包为计数单位 ack_nr :发送方最近接收到的包的序列号可能说这么多,有点混乱了,下面以一个具体的 UTP 包做说明。
数据包内容如下:
其中 0x00-0x29 是 UDP header ,这里不再分析。咱来看一下它的数据部分:
可以看出来:
0x2 是 type 字段,代表这是一个数据回应包 0x1 是它的协议版本号 0x00 是它的扩展字段 00 代表该包没有扩展信息 0x19a2 是该包的连接 id ,这是一个随机数 0xec07ea27是该包的发送时间 0xc3624abe是这个包的发送方最近一次接收包到这次发生包之间的间隔,间隔这么长,表示当前网络环境不行,数据传输速度不是很快 0x0037f510是发送方的窗口大小,也就是说当前发送方还可以接收3.5MB 的数据 0x1189是该数据包的序列包,也就意味着发送方在这个连接上已经发送了4489 个包 0x32d4是该发送方最近接受到的包序列号BitTorrent 数据包的特征与识别
由于 BitTorrent 数据包是应用层协议,所以必须要通过 DPI 技术,才能识别这种协议的流量。识别这种流量有两种方法:
一是检测两个 peer 之间的大流量连接。如果发现两个 ip 之间出现大量异常 udp 数据包,可以采取丢包的方式,来限制传输速率。
另外一种方法,就是运用 DPI 技术,读取 UDP 数据部分,如果发现大量的 UDP 包的负载前几个字节是 0x0100 ,则判断为 BitTorrent 流量,并采取相应的措施。
References
1. http://en.wikipedia.org/wiki/BitTorrent_client
2. http://en.wikipedia.org/wiki/BitTorrent
3. http://www.bittorrent.org/beps/bep_0000.html
查看更多关于常见P2P协议之BitTorrent分析的详细内容...