断点上传

一、断点上传辨义

在 Http 协议之下的文件下载有“断点续传”功能，从服务器到客户端的文件下载可行，而对Http 协议的文件上传则不同。
断点续传是基于请求-响应模式的文件传输方式，客户端通过记录不同数据流位置来实现，还必须知道整个文件的大小才能实现断点续传。客户端保存传送状态是必要条件，无论是文件上传还是下载。
对于象 FlashGet/NetAnt 这样的下载软件还提供了多线程并行下载的功能以提高下载速度。
对于上传文件，服务器端不能主动进行请求（由于防火墙屏蔽），所以只能由客户端进行分段发送，而服务器端接收的结果也未必能够反馈回客户端（在互联网中异常情况会随处出现），客户端无法知道服务器端接收了多少数据，只能整个重发。所以断点上传这个概念是不可行的，分段/分组上传才是正解。
如果还不清楚请参照《断点续传原理》

1.1附：断点续传原理

所谓断点续传，也就是要从文件已经下载的地方开始继续下载。所以在客户端浏览器传给 Web服务器的时候要多加一条信息--从哪里开始。下面是用自己编的一个"浏览器"来传递请求信息给Web服务器，要求从2000070字节开始。
GET /down.zip HTTP/1.0 User-Agent: NetFox RANGE: bytes=2000070- Accept: text/html, image/gif, image/jpeg, *; q=.2, */*; q=.2
仔细看一下就会发现多了一行RANGE: bytes=2000070- 这一行的意思就是告诉服务器down.zip这个文件从2000070字节开始传，前面的字节不用传了。
服务器收到这个请求以后，返回的信息如下：
206 Content-Length=106786028 Content-Range=bytes 2000070-106786027/106786028 Date=Mon, 30 Apr 2001 12:55:20 GMT ETag=W/"02ca57e173c11:95b" Content-Type=application/octet-stream Server=Microsoft-IIS/5.0 Last-Modified=Mon, 30 Apr 2001 12:55:20 GMT
和前面服务器返回的信息比较一下，就会发现增加了一行：
Content-Range=bytes 2000070-106786027/106786028
返回的代码也改为206了，而不再是200了。
知道了以上原理，就可以进行断点续传的编程了。

二、分段上传

2.1逻辑流程

大文件拆分 --> 发送传输计划(告知服务器以下这些片段是一个文件)
是否需要从服务器端申请一个文件ID,如果以文件 Hash作为文件标识可以不用申请ID
--> 分段发送并记录哪些片段是已经发送过的
--> 服务器分段接收 -->全部片段接收完成 --> 组合成一个文件 --> 文件校验
--> 标记为已经完成，可以提供下载

2.2如何分段

对于压缩文件可以按照单个文件进行发送，但是缺乏通用性，所以还是按照统一的片段大小进行拆分。
拆分后如何标记片段呢？通过计算片段的 Hash 值在客户端进行记录，这样即使客户端关机或软件退出，下次启动后仍然可以继续上传。

2.3分段的策略

文件分成几段是一个讲究策略的事情，根据网速/服务器端的负载情况，很难找到一个最优解，那么较优化的解决方法还是有的。
分段的大小取决于网速和稳定性，另外Web服务器也存在一定的限制，如果没有权限修改 IIS 的配置，那么就只能使用一个比较小的分段大小。
在局域网中传输 10M左右的文件不会占用太多的时间，用户真正关心的并不是占用了多少流量而是用了多少时间，长时间停滞的上传进度会让人费解，无法知道后台在搞些什么。
而太过细碎的分片又会造成带宽的浪费，和重复的响应等待。
比如每段大小限制在1M以内，如果文件比较小，比如2M以内，就不必分段。

2.4文件Hash

通过计算Hash 的方法可以唯一标识一个文件，如果文件内容在分段上传过程中发生变化，那么需要重新计算文件Hash，同时服务器端会抛弃已接收到的内容，重新接收分段。
数据流的Hash 可以通过 MD5 或者 SHA1 进行计算，在 .Net 中有现成的方法。
文件Hash 和片段 Hash 可以对接收到的文件内容进行验证。所以客户端和服务器端需要相同的 Hash 方法。

文件比较和版本检查

对于一个大小超过 100M的文件来说，不会全部都有改变，整个文件重新发送会造成不必要的流量浪费。
为了减少不必要的流量浪费，可以从服务器申请一个文件上传的Id，该ID 对应唯一的一个文件，如果文件发生变化，根据各个片段Hash 分析那一部分发生了变化，重新发送变化的部分。文件片段全部传输完成后，发送整个文件的Hash供服务器进行校验进行片段合并。
如果文件的变化发生在开始部分，哪怕只是增加了一个字节，也不可避免重新发送整个文件。这又涉及到另外一个论题，即《文件比较》
rsync 文档中提到两种 Hash 的算法 rolling checksum(32bits)，md5 checksume(128bits)
这里记录一下，以后可能会有用。
问题文件比较
参见 rsync unix 下文件同步的核心算法

2.5 文件打包

通常用户在传输文件时会进行压缩，但是对于服务器端分解并展示压缩文件内容来说效率比较低下，如果不提供内容目录和预览用户体验会比较差，简单的说还不如一个FTP 系统来的直接。
云端要提供一个文件压缩包内容目录和预览可以有两种解决方法，

2.5.1 客户端程序负责打包

客户端程序按照文件目录进行打包并提供内容的目录列表和生成预览图，这些内容按照一定的格式打包在压缩文件中。
此种模式可以参考 OpenXPS 文档格式说明
其实 Windows 平台中有很多这样的例子，Office 2007 以及后续版本使用的 docx,xlsx 等文件内容都是这种类型。
从.Net 3.0 开始支持 System.IO.Packaging.Package 类

Package 为一个抽象类，可用于将对象组织到定义的物理格式的单个实体中，从而实现可移植性与高效访问。
ZIP 文件是 Package 的主物理格式。其他 Package 实现可以使用其他物理格式（如 XML 文档、数据库或 Web 服务）。
与文件系统类似，在分层组织的文件夹和文件中引用 Package 中包含的项。
PackageRelationship（“关系”）定义源 Package 或 PackagePart 与目标对象之间的关联。
XpsDocument 基于 Package 体系结构，是一个包类型，旨在基于开放 XML Paper Specification (XPS) （XML 纸张规范 (XPS)）存储文档。
默认情况下，Microsoft .NET Framework 使用包来为使用标准 ZIP 文件格式的页面和文档存储内容、资源和关系。与任何 ZIP 文件一样，应用程序可使用 System.IO.Packaging 类在单个可高效访问的容器中存储和选择性保护任何类型和数量的数据文件。
有关更多信息，请参见“Open Packaging Conventions (OPC) specification”（开放式打包约定 (OPC) 规范）。`

在一个包装文件中不仅有原始数据对象，还保存了一定的关系数据，这些数据通过 XML 文件的形式保存在包装文件中，这部分内容可以在服务器端进一步处理保存在数据库中以便进行检索查询。

2.5.2 服务器端解析压缩文件

如果客户端提交的仅仅是一个普通的压缩文件，那么服务端就需要进行加工处理。
可能需要进行处理的内容:

解析压缩文件的目录结构，提取文件列表。
对可识别的文件提取摘要内容和生成预览图

好了，我知道了，这些好像和分段上传没什么关系，要另开一个专题了。

三、传输协议

有人说 HTTP 协议是一个又大又笨的协议，对于大文件上传一点也不好用，这一点我非常赞同。但是好处是可以兼容客户端程序和网页程序。
通常网盘通过 443 (HTTPS) 协议进行加密传输。对于企业内网可以不采用这种方法。

3.1 多线程分片上载

如果没有多线程分片上载文件，如何提高传输速度。
多线程并不复杂，但是由于多数用户是用的是 xDSL 非对称速率的线路，那么下载带宽会远远大于上传带宽，也就是说多线程上载未必会提高传输速度。
对于服务器端需要支持并允许同一用户多个连接进行上传。

3.3 BITS

后台智能传输服务（Background Intelligent Transfer Service）
BITS 好像就是专门为这个专题准备的，但是似乎并不被各种应用采纳。更多的用于服务器和服务器的数据同步。
客户环境的复杂性使得这种专门的服务无法广泛采用。
其中还是有很多可以借鉴的内容，比如带宽的保留，客户端资源占用和自动恢复连接等。要知道，如果预计客户传输文件的规模每次都有几百兆，那么所有细节都会成为问题。

目的
后台智能传输服务（BITS）客户端和服务器之间传输文件（下载或上传），并提供有关转让的进度信息。您也可以从同行中下载文件。
在适用的情况下应用程序需要使用BITS：

在前台或后台异步传输文件。
保留其他网络应用程序的响应性。
后自动恢复文件传输网络断开连接，并重新启动计算机。

开发者受众
BITS是专为C和C + +开发人员。
运行时的要求
BITS 4.0版本包含在Windows 7和Windows Server 2008 R2操作系统。

四、服务器端技术

4.1 存储

存储容量的预估
服务器端存储容量不够用的时候怎么办呢？
每个用户能够提供多少存储容量？
服务器是否支持在线的磁盘扩容？
如果客户规模再增加是否支持云存储（多服务器存储）？
有没有便宜而且容量够大的存储方案。

我坚信大容量存储的要诀就是，一次放好，不要乱动。几百个G的存储数据对于服务器来说也不是可以随便挪动地方的。如果存储规划一开始没有细心的设计，那么将来必然会惹来大麻烦。
传统的企业级存储方案通常根据规模采用服务器联机存储、磁盘阵列、磁盘库。通常是几台台服务器拖着一个光纤磁盘柜，这已经是很高端的设备了，速度很快，也很贵。
好了，这个问题先不谈，我主要想说的是文件如何存放的形式，如何建立索引和存储摘要信息。

问题在于是否支持版本控制，如果不支持版本，问题相对比较简单。
打包文件以文件形式存放，但必须重新命名，否则，会有命名冲突。即不同的用户上传了相同名称的文件，当然也可以增加顺序后缀，但不如直接用文件 Hash码作为名称。

文件目录和索引存储在数据库中

数据表如下
文件ID 文件名 HashCode 提交日期提交用户（作者）文件长度备注

文件内容

文件ID 包含文件名长度文件类型摘要信息

文件摘要和缩略图的存储

对于文档文件如 doc、html、pdf 等文件可以在后台解析并提取其文本内容作为摘要信息，可以全部提取，也可以根据样式提取其中的目录信息或者前100个字符或者第一段正文的内容，这个算法有待实践检验。
对于大小超过一定范围的图片文件可以生成缩略图，小图片则直接展示。

对于比较大的文件解析工作会占用大量资源，特别是内存资源，所以必须放到服务器后台进程进行操作，可以制定文件解析任务，利用夜间服务器比较空闲的时段进行作业。
如何判断服务器处于空闲
这个似乎有些复杂，对于现代多核CPU来说，所有CPU 都忙碌起来似乎是比较少见的事情，而内存空间往往也不会都被占用。通常会用 Performance API WMI 使用系统提供的性能计数器来判断。CLR 中提供了 System.Diagnostics.PerformaceCounter 用于监控性能

利用Windows系统的任务调度服务，建立独立的进程进行处理，好处是，这些任务一旦处理完成，就会退出，完全释放资源，不会有任何麻烦。
那么另外一种方法就是尽可能控制资源占用的数量，比如只有一个计算线程，内存占用控制在100M以内，使用 Sleep 方法，在繁忙的处理过程中稍微休息一下。
或者使用并行算法，让任务尽快完成。

4.2 Web 浏览功能

4.3 内容检索

（未完待续）

最后编辑于：2017.11.26 17:37:48

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,482评论 6赞 481
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,377评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 152,762评论 0赞 342
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,273评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,289评论 5赞 373
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,046评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,351评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,988评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,476评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,948评论 2赞 324
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,064评论 1赞 333
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,712评论 4赞 323
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,261评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,264评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,486评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,511评论 2赞 354
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,802评论 2赞 345