用Python提取特定文本并生成目标docx文件

学长发了任务，单纯记录一下完成过程和涉及的知识。

1. 读取docx文件

有几个概念，查资料的时候没仔细看，后来整个过程一直对这方面有疑惑= =

Document对象，表示一个word文档。

Paragraph对象，表示word文档中的一个段落。

Paragraph对象的text属性，表示段落中的文本内容。

1. 安装和导入模块

cmd命令pip install python-docx安装python-docx模块。
用import docx导入模块。

2. 读取docx文件

import docx
file=docx.Document("C:\\Users\\Rexie\\Desktop\\SRA009208.docx")

2. 提取文件中的特定文本

用len(file.paragraphs)获取段落数，发现全部文本在一个段落中。
用file.paragraphs[i].text可以获取指定段落的文本，应该是str吧。

文本很有规律，不太懂语言的我其实可以先在word中替换分隔符、删去无用文本，然后逐行提取。但不想这么做。

发现了这个，尝试失败了，还不知道为什么（1）。

def subString2(template):
   rule = r'<(.*?)>'
   slotList = re.findall(rule, template)
   return slotList
slotList = subString2(template)
for slot in slotList:
   print slot

https://blog.csdn.net/lfdanding/article/details/71192599

然后照着另一份资料。其中有open(file,'r')和read()，无脑搬运是不行的。
或许open只能打开txt？未解（2）。

open()用法：http://www.runoob.com/python/python-func-open.html
read()、readline()和readlines()的区别和用法：https://www.jb51.net/article/119907.htm

算了，这个打开和读取好像根本不需要，前面不是已经读取文本了嘛= =

就用正则表达式re.compile()函数提取需要的文本吧。观察后确定w1、w2两个关键字，之间部分的文本是我需要的，“.gz”也需要。导入re模块，其中compile(pattern [, flags])函数可根据包含的正则表达式的字符串创建模式对象。

将整段文本中的特定文本都用rule规则提取出来，生成字符串数组str1（吧）。

w1 = 'uk/'
w2 = '.gz'
import re
rule = re.compile(w1+'(.*?)'+w2,re.S)
str1 = rule.findall(file.paragraphs[0].text)

关于re.S参数：

在字符串a中，包含换行符\n，在这种情况下：
如果不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始。
而使用re.S参数以后，正则表达式会将这个字符串作为一个整体，在整体中进行匹配。

其实我这个文本没影响的，但加着好了……

然后用循环将为每个字符串补充其他所需要的文本，分行放入result中。

result = ''
for i in range(0,len(str1)):
    result=result+'ascp -k 1 -QT -l 300m -P33001 -i /Users/bcl/Applications/Aspera\ CLI/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:/'+str1[i]+'.gz /Users/bcl/Desktop/silkdownload'+'\n'

3. 生成docx文件

新建、输入、保存。（复制print结果也可以吧qwq）
https://blog.csdn.net/cloveses/article/details/81668797

from docx import Document
doc = Document()
paragraph = doc.add_paragraph(result)
doc.save('download.docx')

菜鸡开心。

最后编辑于：2019.04.09 23:30:28

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,189评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,577评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,857评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,703评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,705评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,620评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,995评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,656评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,898评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,639评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,720评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,395评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,982评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,953评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,195评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,907评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,472评论 2赞 342