Python（1）---字符串处理实战

1 问题由来

前几天将个人简书的markdown文章直接copy到然后发布到个人博客上发现以下两大格式问题。

1.1 图片布局

简书的markdown文章中的图片不用做其他设置都是默认居中，而在个人博客中却默认左对齐，具体效果如下图。对于有轻微强迫症的笔者决定将所有图片修改为居中对齐，搜索了一下，只需在markdown文件中的图片引用前后加上*** HTML <div> *** 标签即可实现居中。

个人博客默认不居中效果

简书默认居中效果

图片居中效果实现：

-----空行----
<div align=center>
![网页关系可视化结果](http://upload-images.jianshu.io/upload_images/3471485-81b21488533234e5.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
</div>
-----空行----

1.2 标题导航

在简书中需手动设定目录，如1、1.1、1.1.1等，在个人博客中，由于使用hexo主题，其默认目录如下图：

个人博客默认目录

所以并不需要手动添加1、1.1、1.1.1等标志，只需要用md语法写完之后其会自动识别，假如还手动添加则如“1. 从Google网页排序到PageRank算法”会变成“1. 1 从Google网页排序到PageRank算法”。

1.3 文章题目

在简书markdown文件头部插入如下三行以设置文章题目。

---
title:fileName
---

那么问题就来了，每篇文章中引用的图片肯定不止一张，标题肯定不止一个，手动修改肯定很耗时的，考虑到后续的文章大部分都会在简书和个人博客中同步更新，所以决定偷懒利用Python字符串处理的相关知识写个小小的Python程序实现此格式转换功能。

2 方案步骤

导入：设置文件所在路径，导入md文件并将其转换为字符串列表；
处理：插入文章题目；循环获取图片引用所在列表位置索引，利用索引插入相应居中标签；正则格式化标题，将如“## 1.1.1”转换为“## ”；
导出：设置文件导出路径将其导出为md文件。

3 Python脚本

3.1 知识应用

3.1.1 Python文件处理（如导入导出）

3.1.2 Python正则表达式

字符
点（"*** . *** "）：匹配任意除换行符"\n"外的字符，如a.b可以匹配出abc、adc等。
数量词
星号（" *** * *** "）：匹配前一个字符0次或无限次；
加号（" ** + ** "）：匹配前一个字符1次或无限次；
问号（" ** ? ** "）：匹配前一个字符0次或1次。
逻辑
中括号（" ** [] ** "）：字符集，如[0-9]，只要满足0-9数字都会被匹配出来；
括号（" ** () ** "）：被括起来的表达式作为分组，如(abc){2}则会匹配两个分组的字符abc，即"abcabc"；
或（" ** | ** "）：左右表达式任意匹配一个，优先匹配左边表达式，一旦左边被匹配成功则直接跳过右边。

详见：
常见正则表达式
 最全正则表达式
 正则表达式 - 教程
 正则表达式30分钟入门教程

3.2 Python实现

#######################################
####实现简书md和个人博客md的格式问题####
#######################################

#######################################
################使用说明################
##参数设置：文件导入路径、文件导出路径##
#######################################

import re

def getContent(input_path):
    '''
    功能：导入markdown文件
    @input_path：md文件所在路径
    '''
    content = []
    for line in open(input_path,'rb'):#二进制读入
        content.append(line.decode())
    return content

def formatCon(content,input_path):
    '''
    功能：统一markdown文件格式
    @content：文章内容列表
    @input_path：md文件所在路径
    '''
    #定义全局变量
    global reple
    #（1）插入标题
    content.insert(0,"---")   
    content.insert(1,"title:"+(input_path.split('/'))[-1][0:-3])  #从文件路径提取文件名
    content.insert(2,"---") 
    #（2）设置目录格式
    img_pat = '!['
    img_index = [] #获取图片所在位置索引
    for i in range(len(content)):
        con = content[i]
        tmp1 = re.findall('^\#+',con.rstrip()) #匹配模式“一个或者无数个#号开头”
        if len(tmp1)!=0:
            reple = tmp1[0] +' '
        content[i] = re.sub('\#+\s[0-9]\.?[0-9]?\.?[0-9]?\s+',tmp2,con.rstrip()) #匹配模式“一个或者无数个#号+空格+标题数字+空格”
        if img_pat in con:
            img_index.append(i)
    #（3）设置图片居中
    count = 0   
    for idx in img_index:
        if (content[idx+count-1].strip())!="":#假如有空行则不插入空行
            content.insert(idx+count,"")
            count += 1
        content.insert(idx+count,"<div align=center>")#设置div使图片居中
        count += 1
        content.insert(idx+count+1,"</div>")
        count += 1
        if (content[idx+count+1].strip())!="":#假如有空行则不插入空行
            content.insert(idx+count+1,"")
            count += 1 
    return content          
    
def writeCon(format_con,output_path):
    '''
    功能：导出markdown文件
    @format_con：已格式化的文章内容列表
    @output_path：md文件导出路径
    '''
    fh = open(output_path,'wb')
    try:
        for i in range(len(format_con)):
            data = format_con[i]
            if "\r\n" in data:
                data = data
            else:
                data = data+"\r\n"
            data = data.encode()
            #print(data)
            fh.write(data)
    except Exception as er:
        print('写入文件时出现错误')
        print(er)  
    finally:
        fh.close()

def main(input_path,output_path):
    '''
    功能：主函数，函数调用接口
    '''
    content = getContent(input_path)#获取文本
    format_con = formatCon(content,input_path)#格式化文本
    writeCon(format_con,output_path)#输出格式化文本
    
if __name__ == '__main__':    
    #1、输入文件路径
    input_path = "C:/Users/whenif/Desktop/ggtest.md"
    #2、输出文件路径
    output_path = "C:/Users/whenif/Desktop/ggtestnew.md"
    main(input_path,output_path)

参考：
[1] 常见正则表达式

本文所有代码只用于技术交流，拒绝任何商用活动
个人Github
后续的学习细节将会记录在个人博客DebugNLP中，欢迎各路同学互相交流

最后编辑于：2019.06.24 15:37:15

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 199,271评论 5赞 466
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 83,725评论 2赞 376
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 146,252评论 0赞 328
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 53,634评论 1赞 270
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 62,549评论 5赞 359
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 47,985评论 1赞 275
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,471评论 3赞 390
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,128评论 0赞 254
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,257评论 1赞 294
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,233评论 2赞 317
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,235评论 1赞 328
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 32,940评论 3赞 316
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,528评论 3赞 302
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,623评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 30,858评论 1赞 255
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,245评论 2赞 344
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 41,790评论 2赞 339