偶然间看到这篇文章,觉得有点意思,把自己感兴趣的部分稍微翻译和精炼一下,做个笔记。
1. 活用set来寻找异同
- set会自动剔除重复的元素
print [set(["ham", "eggs", "bacon", "ham"])]
#[set(['eggs', 'bacon', 'ham'])]
- 找出2个set间不同的元素
# compare lists to find differences/similarities
# {} without "key":"value" pairs makes a set
menu = {"pancakes", "ham", "eggs", "bacon"}
new_menu = {"coffee", "ham", "eggs", "bacon", "bagels"}
new_items = new_menu.difference(menu)
print new_items
# set(['bagels', 'coffee'])
discontinued_items = menu.difference(new_menu)
print discontinued_items
# set(['pancakes'])
- 找出2个set间相同的元素
old_items = new_menu.intersection(menu)
print("Or get the same old", ", ".join(old_items))
# Or get the same old eggs, bacon, ham
- 找出2个set的并集
full_menu = new_menu.union(menu)
print("At one time or another, we've served:", ", ".join(full_menu))
# At one time or another, we've served: coffee, ham, pancakes, bagels, bacon, eggs
2. collections.namedtuple
当我们既需要不带方法的类,也想享受诸如foo.prop的,namedtuple是个不错的选择。
LightObject = namedtuple('LightObject', ['shortname', 'otherprop'])
m = LightObject()
m.shortname = 'athing'
> Traceback (most recent call last):
> AttributeError: can't set attribute
我们不能修改namedtuple的值,正如不能修改tuple的成员一样。只能在实例化namedtuple的时候赋值。
n = LightObject(shortname='something', otherprop='something else')
n.shortname # something
3. Generator
在Python2中,generators是一种简单实现iterator(不需要一次性hold所有值)的方式。通常,Python中一个函数的流程是:执行,做一些操作,然后返回结果。但使用generator,我们得到的是一个generator对象,它可以被用在任何地方,可以是list或者其他的iterable。
举个generator栗子:
def my_generator(v):
yield 'first ' + v
yield 'second ' + v
yield 'third ' + v
print(my_generator('thing'))
# <generator object my_generator at 0x....>
通常,generator是作为循环的一部分的。循环会运行知道generator停止yield
values。
for value in my_generator('thing'):
print value
# first thing
# second thing
# third thing
gen = my_generator('thing')
next(gen) # 'first thing'
next(gen) # 'second thing'
next(gen) # 'third thing'
next(gen) # raises StopIteration exception
generator在被实例化后并不会做任何事情,知道被调用了。调用第一次的时候,它会执行第一个yield
并返回值给caller,然后保存当前状态并等待后续的调用。
一个经典的generator栗子是fibonacci数列。下面让我们来打印小于1000的数列。
def fib_generator():
a = 0
b = 1
while True:
yield a
a, b = b, a + b
max = 1000
for number in fib_generator():
if number > max:
break
print number
4. Generator进阶实例——在Pagination API中的运用
Paginate API是个常见的实践,用来限制使用和避免发送超过50M的JSON请求。
首先让我们来定义将要使用的API,然后写一个generator来隐藏我们的paging code。
假设我们使用的API叫做Scream,用户可以argue他们在一个餐厅吃过的东西或想吃的。searching的API非常简单,类似如下:
GET http://scream-about-food.com/search?q=coffee
{
"results": [
{
"name": "Coffee Spot",
"screams": 99
},
{
"name": "Corner Coffee",
"screams": 403
},
{
"name": "Coffee Moose",
"screams": 31
}
],
"_next": "http://scream-about-food.com/search?q=coffee?p=2",
"more": true,
}
这里嵌入了next page的链接。如果用户不填page number的话,就会得到首页。如果想拿到所有的data,我们可以使用requests
library,并放入generator。这个generator将处理pagination,并有retry logic,流程大致如下:
- 接收搜索词。
- 查询API。
- 如果API失败了,重试。
- 从page
yield
结果,一次一个。 - 如果有下一页,继续步骤4。
- 如果没有结果,退出。
那么generator的code大致如下:
import requests
api_url = "http://scream-about-food.com/search?q={term}"
def infinite_search(term):
url = api_url.format(term)
while True:
data = requests.get(url).json()
for place in data['results']:
yield place
# end if we've gone through all the results
if not data['more']: break
url = data['_next']
以下为使用generator的code:
# pass a number to start at as the second argument if you don't want
# zero-indexing
for number, result in enumerate(infinite_search("coffee"), 1):
if result['name'] == "The Coffee Stain":
print("Our restaurant, The Coffee Stain is number ", number)
return
print("Our restaurant, The Coffee Stain didnt't show up at all! :(")