过去我们的主要信息来源之一是图书馆。今天互联网已经后来者居上,成为比图书馆更为重要的信息来源之一。互联网的信息被称为“海量”,所以“搜索引擎”就成了最被依赖的工具。
Google是我们这个时代最伟大的产品之一。有了Google,本质上谁都有能力做“research”(研究)——“research”在今天已经不再像许多年前那样是少数“精英”的专利了。我常常告诉我的学生,“research”其实一点都不神秘;所谓的“research”其实只不过是“search, search, and... REsearch!”在中文里,“research”除了“研究”之外还可以用另外一个说法来翻译——“做学问”。中文的“学问”这个词拆开来是两个字“学”和“问”。做学问的人一样要学,一样要问,只不过他们比别人把“学”和“问”重复更多遍而已。
Google是个可以用来research(做学问)的工具,而国内的百度相对来讲,在这方面差了不是一点半点。相对来看Google还是更讲原则的一个产品。Google的搜索结果就是搜索结果,赞助商链接摆在旁边;而百度却为了赚钱把赞助商链接与搜索结果混在一起,并且更进一步,百度把赞助商链接放在搜索结果之前。前阵子媒体就有过报道,有一位中年人为了治疗癌症上百度搜索,找了家医院,最后病情并未得到控制,钱倒是多花了许多。百度的这种做法,直接导致人们无法分辨搜索结果与广告之间的区别,最终导致错误的判断。“如果提供假药信息,搜索引擎就是助纣为虐,谋财害命!”——国家食品药品监督管理局新闻发言人颜江瑛说(网易新闻2008年9月18日)。
Google的界面非常简洁,很多人对此相当地推崇。但过分简洁副作用就是很多人也因此“过分简单化地使用Google”。然而,想做学问的人,花几分钟学学Google的语法是相当值得的;这几分钟里学到的东西用“终生受用”修饰都不过份。
在Google的输入框里,所有的空格都被Google理解为加号(+)。如果你输入的是【purpose of education】(本文中,【……】中的文字与符号就是指你在Google的输入框里输入的文字与符号),那么Google返回的文章里既有“purpose”存在,也有“education”存在,但不一定有“purpose of education”存在。另外,过分常用的、单独存在没有意义的词汇往往被忽略掉,比如冠词“a”、“the”;介词“of”、“in”、“on”、“at”、“to”;连词“and”、“or”、“but”;从属连词“that”、“which”、“when”;代词“my”、“his”、“them”……等等。
如果你想要找含有“purpose of education”这个词组的文章,那么你必须输入【“purpose of education”】。现在的Google已经可以处理utf-8大字符集了,所以,即便你在输入的时候即便使用的是全角字符(不是半角字符的【"】而是【“】或者【”】)Google也照样能够正确处理。比较一下两种输入返回的结果:【purpose of education】vs.【“purpose of education”】。再试试【the most important benefit of education】和【“the most important benefit of education”】。这就是引号(“……”)的作用——返回“完整匹配”的结果。
为了进一步筛选搜索结果,还需要学会另外一个符号——减号(-)。比如,【"the most imporant benefit of education" - "united states"】要求Google返回含有“the most important benefit of education”但不存在“united states”的文章。
另外一个威力无穷的符号是型号(*)。Google支持通配符搜索,即搜索字符串中可以包含星号(*),用来替代任意字符串。比如,【“the most * examples of censorship”】将会返回含有类似“the most outrageous examples of censorship”、“the most brazen examples of censorship”、“the most heinous examples of censorship”、“the most stupidest examples of censorship”、“the most dangerous examples of censorship”、“the most egregious examples of censorship”、“the most prolific examples of censorship”、“the most absurd examples of censorship”……
在网上找例子的时候星号非常有用。比如,想找历史上“最怎么样的”老师的话可以搜索【“most * teachers in history such as”】,或者,想知道国外常见的软饮料品牌的话就搜索【“* soft drinks such as”】。星号还可以把Google当作搭配辞典使用,比如,想知道proof这个单词之前可以使用的量词都有哪些的话,可以搜索【“a * of proofs”】,返回的结果会让你知道,起码有这么几个:“a set of proofs”,“a variety of proofs”,“a number of proofs”,“a series of proofs”……
还有一个运用相当灵活、经常带来意外收获的符号是波浪号(~)。把波浪号(~)加在某个单词前面,是在告诉Google:除了给出的关键字之外,还要搜索与波浪号(~)后面的那个单词相关的词汇。比如,搜索【the importance of ~censorship】的结果中包含着“the importance of censorship”,也包含着与censorship相关的另外一个词汇“propaganda”——“the importance of propaganda”。
再学一个在指定网站中搜索的语法“site:”。比如,【“the purpose of education” site:http://www.time.com/】就是要求Google只返回http://www.time.com这个网站里的含有“the purpose of education”的文章。
2006年,Google推出了“co-op”服务(自定义搜索引擎)。其中最常用的功能之一就是可以指定Google搜索一个或者若干个指定的网站——相当于前面提到的Google语法“site:”的扩展。比如,我就为我的学生定制了一个Google cse(customized search engine)——“Search News Media”(在我的网站的导航栏上,有一个“自定义搜索引擎”,点进去也会看到这个cse)。不妨看看在这个自定义搜索引擎上搜索【censorship】返回的结果(GRE/SAT的作文考试中,都有很多关于“censorship”的作文题)。这个cse只搜索以下10个网站:
我还给学生定制过一个专门搜索百科类网站的cse:“Encyclopedia Search”。这个cse只搜索以下7个网站:
如果你是Google的注册用户(现在几乎人人都用gmail),那么你也可以定制类似的cse,并且可以与其他人分享。关于更复杂的应用,只能查看Google CSE的帮助文档了。