协同过滤
协同过滤简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。
当你在豆瓣电影中将一些你看过的或是感兴趣的电影加入你看过和想看的列表里,并为它们做相应的评分,这时豆瓣的推荐引擎已经拿到你的一些偏好信息,那么它将给你展示如图 8 的电影推荐。
豆瓣的推荐是通过“豆瓣猜”,为了让用户清楚这些推荐是如何来的,豆瓣还给出了“豆瓣猜”的一个简要的介绍。
Amazon 利用可以记录的所有用户在站点上的行为,根据不同数据的特点对它们进行处理,并分成不同区为用户推送推荐。
百度,谷歌,必应三者对比
谷歌
-全球最大的搜索引擎,简单易用的免费服务,用户可以在瞬间返回相关的搜索结果,可以使用多种语言查找信息
-特点:全球化、信息化、市场化、现代化
(1) 具有很强的搜索和内容合作伙伴,全球有上万合作伙伴
(2) 具有庞大广告商数目
(3) 国际化领域: 109 界面语言,113国际域名
(4) 最庞大的系统架构-Google 图片搜索, 购物搜索 Froogle, Google 无线搜索, Google 图书搜索
(5) 执着于创新--- Google 将用户与各种信息连接
(6) 超人性化的理念---以用户为中心,其他一切纷至沓来
百度
-世界上最大的中文搜索引擎,准确性高,更新快,服务稳定。
-特点: 1、基于字词结合的信息处理方式。巧妙解决了中文信息的理解问题,极大地提高了搜索的准确性和查全率。
2、支持主流的中文编码标准。包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的编码之间转换。
3、智能相关度算法。采用了基于内容和基于超链分析相结合的方法进行相关度评价,能够客观分析网页所包含的信息,从而最大限度保证了检索结果相关性。
4、检索结果能标示丰富的网页属性(如标题、网址、时间、大小、编码、摘要等),并突出用户的查询串,便于用户判断是否阅读原文。
5、百度搜索支持二次检索(又称渐进检索或逼进检索)。可在上次检索结果中继续检索,逐步缩小查找范围,直至达到最小、最准确的结果集。利于用户更加方便地在海量信息中找到自己真正感兴趣的内容。
6、相关检索词智能推荐技术。在用户第一次检索后,会提示相关的检索词,帮助用户查找更相关的结果,统计表明可以促进检索量提升10-20%。
7、运用多线程技术、高效的搜索算法、稳定的UNIX平台、和本地化的服务器,保证了最快的响应速度。百度搜索引擎在中国境内提供搜索服务,可大大缩短检索的响应时间(一个检索的平均响应时间小于0.5秒)
8、可以提供一周、二周、四周等多种服务方式。可以在7天之内完成网页的更新,是目前更新时间最快、数据量最大的中文搜索引擎。
9、检索结果输出支持内容类聚、网络类聚、内容类聚+网络类聚等多种方式。支持用户选择时间范围,提高用户检索效率。
10、智能性、可扩展的搜索技术保证最快最多的收集互联网信息。拥有目前世界上最大的中文信息库,为用户提供最准确、最广泛、最具时效性的信息提供了坚实基础。
11、分布式结构、精心设计的优化算法、容错设计保证系统在大访问量下的高可用性、高扩展性、高性能和高稳定性。
12、高可配置性使得搜索服务能够满足不同用户的需求。
13、先进的网页动态摘要显示技术。
14、独有百度快照,
15、支持多种高级检索语法,使用户查询效率更高、结果更准。已支持“+”(AND)、“-”(NOT)、“|”(OR)、“site:”、“link:”,还将继续增加其它高效的搜索语法。
必应
-界面更加美观,整合信息更加全面
-特点:1、其“决策引擎”瞄准了购物、旅游、健康以及本地4大领域。
2、Bing搜索的最大特点在于,与传统搜索引擎只是单独列出一个搜索列表不同,微软还会对返回的结果加以分类。
环球信息网的简写。万维网可以让Web客户端(常用浏览器)访问浏览Web服务器上的页面。 是一个由许多互相链接的超文本组成的系统,通过互联网访问。
一群主要藉由计算机网络彼此沟通的人们,他们彼此有某种程度的认识、分享某种程度的知识和信息、在很大程度上如同对待朋友般彼此关怀,从而所形成的团体。
雅虎旗下图片分享网站。为一家提供免费及付费数位照片储存、分享方案之线上服务,也提供网络社群服务的平台
19世纪英国工业革命时期,因为机器代替了人力而失业的技术工人。现在引申为持有反机械化以及反自动化观点的人。
计算机专业术语,是信息量单位,是由英文BIT音译而来。同时也是二进制数字中的位,信息量的度量单位,为信息量的最小单位。
点对点技术(peer-to-peer,简称P2P)又称对等互联网络技术,是一种网络新技术,依赖网络中参与者的计算能力和带宽,而不是把依赖都聚集在较少的几台服务器上。
包(Packet):在包交换网络里,单个消息被划分为多个数据块,这些数据块称为包,它包含发送者和接收者的地址信息。这些包然后沿着不同的路径在一个或多个网络中传输,并且在目的地重新组合。
路由器(Router),是连接因特网中各局域网、广域网的设备,它会根据信道的情况自动选择和设定路由,以最佳路径,按前后顺序发送信号。 路由器是互联网络的枢纽,"交通警察"。
因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,
HTTPS是以安全为目标的HTTP通道,简单讲是HTTP的安全版。https 是具有安全性的ssl加密传输协议
密匙即激活码,泛指各种网络产品的数字密匙。密匙作用于验证、启用某功能
时刻保持怀疑;学会判断
CNKI 即是中国知识基础设施工程(China National Knowledge Infrastructure)。CNKI工程是以实现全社会知识资源传播共享与增值利用为目标的信息化建 设项目,由清华大学、清华同方发起,始建于1999年6月。
Wiki是一种在网络上开放且可供多人协同创作的超文本系统,由沃德·坎宁安于1995年首先开发,这种超文本系统支持面向社群的协作式写作,同时也包括一组支持这种写作。沃德·坎宁安将wiki定义为“一种允许一群用户用简单的描述来创建和连接一组网页的社会计算系统”。[1] Wiki站点可以有多人(甚至任何访问者)维护,每个人都可以发表自己的意见,或者对共同的主题进行扩展或者探讨。
Mesh Network也称为“多跳网络”,它是一个动态的可以不断扩展的网络架构,实现无线设备之间的传输。其核心是让网络中的每个节点都发送和接收信号,使普通无线技术过去一直存在的可扩充能力低和传输可靠性差等问题迎刃而解。
课堂笔记:
参与机制需要的精神:信任,分享,互惠的互联网精神。
开源Linux操作系统: Linux以它的高效性和灵活性著称。它能够在PC计算机上实现全部的Unix特性,具有多任务、多用户的能力。Linux是在GNU公共许可权限下免费获得的,是一个符合POSIX标准的操作系统。Linux操作系统软件包不仅包括完整的Linux操作系统,而且还包括了文本编辑器、高级语言编译器等应用软件。它还包括带有多个窗口管理器的X-Windows图形用户界面,如同我们使用Windows NT一样,允许我们使用窗口、图标和菜单对系统进行操作。
Linux之所以受到广大计算机爱好者的喜爱,主要原因有两个,一是它属于自由软件,用户不用支付任何费用就可以获得它和它的源代码,并且可以根据自己的需要对它进行必要的修改,无偿对它使用,无约束地继续传播。另一个原因是,它具有Unix的全部功能,任何使用Unix操作系统或想要学习Unix操作系统的人都可以从Linux中获益。
众包:众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的形式外包给非特定的(而且通常是大型的)大众网络的做法。众包的任务通常是由个人来承担,但如果涉及到需要多人协作完成的任务,也有可能以依靠开源的个体生产的形式出现。众包植根于一个平等主义原则:每个人都拥有对别人有价值的知识或才华。众包作为桥梁将“我”和“他人”联系起来。
社会两难处境:利己和集体行动的冲突。
公地悲剧:公地作为一项资源或财产有许多拥有者,他们中的每一个都有使用权,但没有权利阻止其他人使用,而每一个人都倾向于过度使用,从而造成资源的枯竭。过度砍伐的森林、过度捕捞的渔业资源及污染严重的河流和空气,都是“公地悲剧”的典型例子。之所以叫悲剧,是因为每个当事人都知道资源将由于过度使用而枯竭,但每个人对阻止事态的继续恶化都感到无能为力。而且都抱着“及时捞一把”的心态加剧事态的恶化。公共物品因产权难以界定而被竞争性地过度使用或侵占是必然的结果。
Kaggle:是进行数据发掘和预测竞赛的在线平台。聚集了超过8.5万数据科学家。kaggle排名会成为数据科学家招聘过程中的重要标准。
Unicode:Unicode( 统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的 二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
Unihan:统一汉字集,简称统汉字所有汉字的语言。