Skip to content

sonyfe25cp/EventsMachine

Repository files navigation

国内社会事件发现

全局:

根据抓取的国内新闻,进行相似度计算,找到同一事件,然后与历史事件进行对比,
增量添加到事件库中,利用PMI对事件进行分析提出关键词,对关键词作单独索引,事件用
最新报道作为其描述.页面中包含时间轴,按照发生时间逆序排列。

局部:

在前后两天的新闻中,对比几个网站的报道,共同报道的事件可以形成专题.

标注:

手工标注相似的事件,利用机器学习训练出事件相似度模型,形成各个事件的特征词

PMI计算求出各个事件中最大信息量的词

分类:

利用不同事件的特征词来分类,尝试差分特征词法

页面:

最终页:在同一个事件的页面上包含时间线,不同网站的报道,分析事件是否已经结束。
导航页:根据事件的更新情况,按照倒序来排列事件,优先排列可能成为连续事件的那些事件。地域事件列表
搜索页:根据事件的特征词进行语义扩展,用事件的第一篇报道为提示项目。
随便看看:优先排列一个月以内的事件。

页面交互:最终页添加事件是否相关的查询按钮,便于用户协同过滤,定时提纯相似度模型


任务:

1.新闻抓取
  QQ新闻已经搞定
  中新网待抓
  凤凰网待抓
  
2.相似度分析(包含特征词分析)

3.页面设计

4.手工标注并用机器学习(研究)

5.搜索(查询扩展,事件搜索)

6.移动终端
  pad,android,iphone

  

About

EventsMachine

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published