MIME及电子邮件基本结构
MIME
MIME(Multiplepurpose Internet Mail Extensions),中译为“多用途互联网邮件扩展”,顾名思义,这是对传统互联网邮件的扩展,现已称为实际的互联网邮件标准。
指的是一系列电子邮件的技术规范,主要包括:RFC 2045、RFC 2047、RFC 4288、RFC 4289、RFC 2077
传统的电子邮件是1982年定下的,即:RFC 822
它有一个重要的特点就是电子邮件只能使用ASCII字符。这导致了三个结果:1)非ASCII字符如中文非英语字符都不能出现在邮件中。2)电子邮件中不能插入二进制文件(如图片)3)电子邮件不能有附件
这实际上是无法接受的,因此到了1992年,工程师决定扩展电子邮件的技术规范,提出一系列补充规范,这就是MIME的由来。
电子邮件基本结构
下面是一封传统的电子邮件:
From: "Tommy Lee" <lee@example.com>
To: "Jack Zhang" <zhang@example.com>
Subject: Test
Date: Wed, 17 May 2000 19:08:29 -0400
Message-ID: <NDBBIAKOPKHFGPLCODIGIEKBCHAA.lee@example.com>
Hello World.
从上面可以看出发件人的姓名,地址,收件人的姓名,地址,邮件主题,发信日期。
结构上,这封信分为三个部分:首先是信件头,然后是一个空行,最后是新建内容。收件人的客户端只会显示最后一部分,要查看全信,必须“查看原始邮件”功能。
MIME对传统邮件的扩展主要便现在它在信头部分添加了几条语句,主要有三条:
MIME-Version: 1.0
这条语句是必须的,而且这个1.0是不变的,即使MIME已经升级了好几个版本
Content-Type: text/html; charset="UTF-8"
Content-Type表明信息类型,缺省值为“Text/plain”。它包含了主要类型/次要类型(maintype/subtype),主要类型有九中,分别是application、audio、example、image、message、model、multiple、text、video。
每一种主要类型下面又有许多次要类型,常见的有:
text/plain:纯文本,文件扩展名为.txt
text/html:HTML文本,文件扩展名为.html和.htm
image/jpeg:jpeg格式的图片,文件扩展名.jpg
image/gif:GIF格式的图片,文件扩展名为.gif
audio/x-wave:WAVE格式的文件,文件扩展名为.wav
audio/mpeg:MP3格式的音频,文件扩展名.mp3
video/mpeg:MPEG格式的视频,文件扩展名.mpg
application/zip:PK-ZIP格式的压缩文件,文件扩展名.zip
如果信息类型是Text/plain,那么还必须指明编码类型“charset”,缺省值是ASCII,其他可能值有ISO-8859-1
,UTF-8
,GB2312
等等
整个Content-Type
这一行,不仅使用在电子邮件,后来也被移植到了HTTP协议中,所以现在只要是在网上传播的HTTP信息,都带有Content-Type
头,以表明信息类型
前面已经说过,电子邮件的传统格式不支持非ASCII字符和二进制,因此MIME添加了第三条语句:
Content-transfer-encoding: base64
为了使非ASCII字符转化为ASCII,这条语句指明了编码转化的方式,正常我们将中文等字符按照utf-8
或gbk
等编码方式编码为二进制后,因为是非ASCII字符,所以需要再将这些非ASCII字符的二进制转化为ASCII字符的二进制,base64就可以起到这样的作用。在之前的有一篇博客详细介绍过此种编码转化。
Content-transfer-encoding的值有5种----7bit
、8bit
、binary
、quoted-printable
和base64
----其中7bit
是缺省值,即不用转化的ASCII字符。
除base64
之外,常用的就是quoted-printable
,它主要用于ACSII文本中夹杂少量非ASCII码字符的情况,不适合于转换纯二进制文件。
以下是一封邮件的源码:
Date: Wed, 18 Jun 2008 18:07:51 +0800 (CST)
From: xxx <xxx@163.com>
To: yifeng.ruan@gmail.com
Message-ID: <14410503.1073611213783671983.JavaMail.coremail@bj163app54.163.com>
Subject: =?gbk?B?xOO6ww==?=
MIME-Version: 1.0
Content-Type: multipart/alternative;
boundary="----=_Part_287491_22998031.1213783671982"
------=_Part_287491_22998031.1213783671982
Content-Type: text/plain; charset=gbk
Content-Transfer-Encoding: base64
IAq4+b7dsr+209PQudi55raoo6yyu7XD1Nq12Le9yM66zs341b7Jz7nSz+DTprXEtqvO96Osx+vE
49TaxOO1xLKpv83W0AogIArW0Ln6yr2x6tPvIC0gyO7Su7fltcTN+MLnyNXWvgoKtcS12jEy1cXN
vMasyb6z/aOst/HU8s7Sw8fXt76/xOO1xM/gudjU8MjOoaPQu9C7us/X96OhtMvNvMas1Nq4vbz+
wO/D5g==
------=_Part_287491_22998031.1213783671982
Content-Type: text/html; charset=gbk
Content-Transfer-Encoding: quoted-printable
<DIV>&nbsp;</DIV>
<DIV>=B8=F9=BE=DD=B2=BF=B6=D3=D3=D0=B9=D8=B9=E6=B6=A8=A3=AC=B2=BB=B5=C3=D4=
=DA=B5=D8=B7=BD=C8=CE=BA=CE=CD=F8=D5=BE=C9=CF=B9=D2=CF=E0=D3=A6=B5=C4=B6=AB=
=CE=F7=A3=AC=C7=EB=C4=E3=D4=DA=C4=E3=B5=C4=B2=A9=BF=CD=D6=D0</DIV>
<DIV>&nbsp;
......
其中的MIME语句是:
MIME-Version: 1.0
Content-Type: multipart/alternative;
boundary="----=_Part_287491_22998031.1213783671982"
Content-Type: multipart/alternative
表明这封信的内容是纯文本与HTML文本的混合。该项还有其他两个可能的值,分别是“multiple/mixed”,“multiple/related”,前者表示信件内容含有二进制内容(比如文中插入图片),后者表示含有附件。
boundary="----=_Part_287491_22998031.1213783671982"
boundary后的内容----=_Part_287491_22998031.1213783671982
是信件不同部分的分割线,它通常是一个很长的随机字符串。
信件内容又有两个子信件头:
Content-Type: text/plain; charset=gbk
Content-Transfer-Encoding: base64
Content-Type: text/html; charset=gbk
Content-Transfer-Encoding: quoted-printable
表明信件的第一部分是gbk
编码的纯文本,其编码转换方式是:base64
第二部分是gbk
编码的HTML文本,其编码转换方式是:quoted-printable
邮件里所有的内容都要经过编码为二进制,再将二进制通过base64
或QP
编码为ASCII字符在网络上传输。