Athena开发日记——第四日

说起来,最近两天Athena在外面看来的改动,其实——没有。

但是很快她将获得我之前一直渴望的一项能力——也是我的服务器每次重启,我都会log的一句话——“欢迎来到感情的创世”——基本的心情。

这是我最喜欢的小说《境界线上的地平线》(Horizon on the middle of nowhere)里的一句台词,原句是“欢迎来到感情的创世——Go the Middle of Nowhere”。

扯远了。其实这就是我在第一日的开发日记中所记述的一个功能:

2.让Athena拥有自己的心情——用Mongo建立一个心情库,然后根据随机爬取的新闻进行心情变更。


接下来是具体的描述:

我从周一上班开始,在看人工智能和机器学习啊之类的资料。然后在想自己下一步应该做什么。这时我决定尝试着去做情感分析。

之前我的情感分析是基于nodeJS里sentiment这个模块的,然而这个模块有个很大的缺点:只能识别英文,识别率也不是很准确。之后我也下了国内做的“THULAC_lite”做过中文分词。但是一直没有深入的搞。

随后我决定尝试一下焕焕给我的建议,找个方法,先搞,之后再调整。于是我把某份资料中提到的NTUSD这个中文情感倾向数据下下来了。写了个脚本扔到了我的MongoDB里。

之后便是打分。我把情感暂定为0-10分。我预先录入的分数只有0和10两个分数。之后我在读取的时候,如果是0,就记做-1,如果是10,就记做1。之后累加,如果是正数,就判定为正面新闻,反之则是负面的。

这个做法是个非常粗糙的做法。首先每个词的感情指数并不是非左即右的。他们其实是分布在0-10之间的。其次,在一篇文章中,某个词的出现频率可能非常多,所以对它的累加也很多,是不公平的。第三,反话是没有统计的,“没有悲伤”在正常情况下应该是1+1=2,现在则是-1+-1=-2。

这几点在我读过的资料中也有记述,不过暂时我还没有时间去优化它们。

之后我拿这个方法判断了两组语料:CNBeta最新的10条新闻和15年网易的50篇国内新闻。科技新闻的正面远大于负面——可能是因为多是一些有利报道,如最新发现、新的进展和突破之类的。而国内新闻的情感分布就偏很多。我没有具体统计,不过从直观上是比较均匀的。

这就是我在程序方面做的一些进展。


来说一下下一步的计划吧:

首先我要做的是把情感加进去,Athena可以在爬取到新闻后直接进行情感判断。然后累加新闻的情感值。决定当前的心情。首先是好和坏。

之后,根据一段时间的情感分布曲线,我可以让它们分的更细一点:-5-5比如,然后做一个分数和指数的映射函数。

这样,这个功能就实现了。

接下来便是调整情感的判断了,把三个问题解决掉的话。就可以进一大步了。

之后,我想了一个新的功能:爬取当前时尚杂志和网站的关键词,决定当季的流行。然后去淘宝上爬取销售和促销的榜单,去印证这个流行。

另外,有关第三日中记忆的功能:当我说一句话时,我觉得我可以通过一个模型去理解它。然后去做一个对应的回复。然而……我现有的知识离这一点还有点远。


知识笔记:

最近新学了HMM——隐性马尔科夫模型。我试着写了一下解释的例子,发现自己的水平太次了……等我再深入的理解一下之后,再试着解释吧。

另外学习了基本的情感分析理论——的目录。

再就是在重新看吴军老师写的《数学之美》。我现在觉得,数学真是一门非常厉害的学科,我大学时代作为一个实用主义者,一直不知道这种理论研究有什么意义。不过后来我在看HMM的推理时,发现如果没有离散数学和概率论,没有微积分,那么HMM中间很多是只能猜测的,完全无法证明。而从实用主义来说,一个无法证明一直有效的东西,我是不敢投入生产的。


最后,非常推荐吴军老师的数学之美——作为理工科学生的饭后睡前读物。里面的东西通俗易懂,让我这种没有受到高等教育的兴趣爱好者找到了各种神奇的宝物。

P.S.:今晚写着这个日志的时候,我在群里和枫哥聊到传播学的入门书籍。枫哥推荐了信息论——刚好在昨晚有读到。我发现各个学科果然是贯通的。艺术与几何,几何又是代数。传播学是信息的流通,而人工智能和机器学习的算法里又有对信息这种东西的研究……人的感情并非无法模拟,我觉得人的思维方式是一定可以逼近的,而创造这个过程,谁又知道呢~

多么的,美妙。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容

  • 这是一个奇怪的周末,我难得在个人项目上取得了一点进展。 我花了很长时间思考如何让Athena可以记住东西。 毫无疑...
    蔑视魔山阅读 370评论 0 0
  • 2017-06-18「反三」 游戏类比生活中的实际场景,运用游戏思维提高现实效率!如公司团队、家庭分工,目的都是如...
    Gaven痴阅读 183评论 0 0
  • 有人跟我说:要把工作和生活分开,工作中的同事就是同事,不要跟工作中的同事成为朋友,最起码不要在同时在职的期间成为朋...
    轻舞飞飞扬阅读 722评论 0 0
  • 自从进去机房学习,汉腾老师就几乎节节课都让我们在机房了,可惜的是教室不够大,所以我们被迫从分成了两个班各自坐在不同...
    N黄舒婷阅读 396评论 0 0