编程是使用代码实现想法的过程,同一个想法可能反复用到的是同一部分的代码,现将这些代码保存在推送里,以便用到的时候备查。以下语言均为Python。
在cmd中输入如下代码,合并多个jupyter notebook文件。
nbmerge file_1.ipynb file_2.ipynb file_3.ipynb > merged.ipynb
以下代码用到的库。
import xlrd
import re
import sys
import pandas as pd
正则匹配。
re.match(r'Publications*', f) #返回True或者False
将打印在控制台内容导出到txt。
outputfile = open("./结果.txt","a")
sys.stdout = outputfile
使用xlrd获得数据(通常用来处理不规则的Excel表),关于xlrd,详细参考:https://www.cnblogs.com/insane-Mr-Li/p/9092619.html。
filePath = 'my_sheets.xls'
data = xlrd.open_workbook(filePath)
table = data.sheets()[0]
rows = table.row_values(col_index, start_rowx=0, end_rowx=None) #获取特定行数据
cols = table.col_values(col_index, start_rowx=0, end_rowx=None) #取特定列数据
this_name = table.cell_value(0, 1) #获取某个单元格数据
去除有空值的行。
df = df.dropna(axis=0,subset=['source','type'],how='any')
将时间的字符串形式转化为时间戳格式。
time_df['date'] = pd.to_datetime(time_df['date'])
排序函数。
time_df.sort_values(by=['date'], ascending=True, inplace=True
读取时间戳的月份和季度。在https://www.jianshu.com/p/0b8dcbc2df33一文中对时间戳处理的各种函数。
time_df['period'] = time_df['date'].dt.to_period('M')
time_df['quarter'] = time_df['date'].dt.to_period('Q')
去除重复值。
df.drop_duplicates(subset=['作者id'],keep='first',inplace=True)
数据格式批量转换。
df['FWCI'] = df['FWCI'].astype(float)
去除带有空值的行或列。
data_df.dropna(axis=0,how='any',inplace=True) # axis=0去除行,axis=1去除列