写一个 Markdown translator 玩 (二)

前面一篇中简单介绍了写一个 Markdown translator 的思路:

+-------+
| input |
+---+---+
    |
    |
+---v----+
| Tokens |
+---+----+
    |
    |
+---v----+
|  Tree  |
+---+----+
    |
    |
+---v----+
|  html  |
+--------+

对于 Markdown 而言,它主要包含 BlockInline 两类元素。那么我的想法就是先解析出 Block 元素,然后在其 Content 中进行 Inline 的解析。

为了方便调试,我将生成的 Tree 采用 XML 来进行组织后输出,对于这样的输入:

header
====

解析后输出的 Tree 将是这样

<Document>
    <Children>
        <HeaderSetext>
            <Attributes>
                <Key>symbol</key>
                <Value>Token(type: SpecialSymbol, value: ["="])</value>
            </Attributes>
            <Content>[Token(type: Plaintext, value: ["h", "e", "a", "d", "e", "r"])]</Content>
        </HeaderSetext>
    </Children>
</Document>

在解析 Block 元素的过程中,我发现 Markdown 语法的低效,平时我们在写 Markdown 的时候,都会在块元素之间加上一个或多个空格,以此来获得清晰的阅读效果,比如这样:

Paragraph

header
====

但是,Markdown 语法中,并没有明确的要求块元素之前使用多个 Newline 来分隔,那么你会好奇如果这样写会有怎样的解析结果:

Paragraph
header
====

很高兴基本上 Translator 直接都有了共识,对应的 HTML 将是这样:

<p>Paragraph</p>
<h1>header</h1>

但是这种兼容模式实际是给解析带来了不必要的难度,首先上面的文本会被解析成 Tokens,它们看起来像是这样:

1. Token(type: Plaintext, value: ["P", "a", "r", "a", "g", "r", "a", "p", "h"])
2. Token(type: Newline, value: ["\n"])
3. Token(type: Plaintext, value: ["h", "e", "a", "d", "e", "r"])
4. Token(type: Newline, value: ["\n"])
5. Token(type: SpecialSymbol, value: ["="])
6. Token(type: SpecialSymbol, value: ["="])
7. Token(type: SpecialSymbol, value: ["="])
8. Token(type: SpecialSymbol, value: ["="])

为了方便说明,我给它们编了号

根据 Markdown 语法,在看到 Token#1 时,我们发现接下来将有可能产生一个 Paragraph,于是我们继续往下读取,直到读到 Token#5 的时候,我们才直到,原来前面的内容可能并不全是 Paragraph,它们有可能包含 Header-Setext,于是我们开始尝试 Header-Setext 的语法,直到读到 Token#8 时,我们才确定,之前的内容原来是 ParagraphHeader-Setext

那么如果语法强制要求块元素之间必须使用两个以上的 Newline 来分隔呢?那么如果你希望被解析成 ParagraphHeader-Setext 话,你就必须写成这样:

Paragraph

header
====

这样的话,当读取到两个以上的 Newline 我们就知道需要开始新的块元素解析了。这样做,既可以让解析更佳的高效,也会符合 Markdown 被创造时的原则 - 易读易写。

那么 Blockquote 元素是如何解析的呢,对于下面的内容:

> > nested blockquote
> H1
> ====

解析方式就是先解析出最外层的 Blockquote,然后对其内容进行处理 - 去掉 > 和紧随其后的 Space(如果有的话)。那么处理后的 Content 就会是这样:

> nested blockquote
H1
====

这就是为什么我们在 Blockquote 中如果希望使用 4 空格缩进表示代码块时需要输入 5 个空格:

> blockquote
>
>     code block <!--这里缩进5个空格-->

未完待续

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容

  • 问答题47 /72 常见浏览器兼容性问题与解决方案? 参考答案 (1)浏览器兼容问题一:不同浏览器的标签默认的外补...
    _Yfling阅读 13,727评论 1 92
  • << [访问 Wow!Ubuntu](http://wowubuntu.com)**NOTE:** This is...
    金木水火土V阅读 583评论 0 1
  • Markdown 语法 之剑 2016.5.3 23:41:46 hljs.initHighlightingOnL...
    光剑书架上的书阅读 1,626评论 1 5
  • 为什么学习Markdown 自从搭建了 Hexo 博客之后,发现还有 Markdown 这种写文章的方法,想到以后...
    lifeColder阅读 20,130评论 10 217
  • Markdown 语法 以下是 Markdown 的常用语法!在以后的笔记中将持续使用 Markdown 语法进行...
    WinSolstice阅读 1,438评论 0 1