第一届黑客松-落地松主题演讲——数据视觉化经验分享

文/刘勇（Gephi认证讲师）

不知道在座的有没有使用过Gephi，我就直接举一个实际的例子来介绍Gephi。这个是Gephi的界面，Gephi是一个数据可视化软件，开源的系统，支持苹果和windows操作系统。做的事情就是把数据可视化出来。

Gephi的介绍我就不多说了。这个例子是上海三个研究人员从16个国家各选出两个知名度比较高的杂志，一共选了32家，做了一个表格出来看他们之间的引用情况。比如说五年时间中人民日报引用过中国日报的是171条，用过海峡时报的是41条；中国日报引用过人民日报是2800条，引用过海峡日报是1条。Gephi没有办法直接把excel读进去，但可以读取CSV文件。我们就进入到Gephi里面看看它怎么导入的：在Gephi打开它，这个就是从excel转化过来的文件。打开后会显示这个节点是32（媒体32家），边是666个，然后点“确定”，我们可以放大地去看。边和边的粗细也是不一样的，也有箭头方向。得到这个数据之后可以去算各种参数，Pagerank是谷歌搜索引擎的成名的算法，点击“运行”，把边的权重点上之后就可以，可以得到一个报告，里面有每个节点的分布数量，底下是引用的论文。然后再算一个模块化的方法，把相似的节点算出来，哪两个媒体比较相似计算出来，最后也会得出一个报告。这个计算结果会到这个数据资料里面去。Gephi的数据有两个类型，一个是结点的数据，这个点有什么特征，大家可以把一个节点想象成一个人，这个表是介绍这个人的姓名、性别、职业、习惯，另外一个表是边的表，代表谁指向谁，比如人民日报指到海峡日报上去，这边有一个边的权重。Pagerank算法后得到一个数值，这个值是模块化的，对节点分类之后又加一个编号。这个数据是总结以后计算出来的。现在可以把计算结果应用到节点上面去，分类之后分了五种出来，然后可以点“应用”，把颜色涂到节点上面去，相似的节点会用一个颜色来表示。我们也可以选Pagerank，会有大小的浮动，把最小的设置成1或者0，再去点“应用”就可以把大小转化成形状。Gephi需要把中文字体给选上，这个时候需要进一步去处理，因为导进来是随机的，比较乱，我们需要有一些结构，这个是在流程里面操作。流程里面就是一种布局算法，系统根据不同的规则去排列，在这儿有很多设置，这个值也需要调一下。当节点的规模不一样，值也不一样，再点“应用”，关系近的就会拉到一起。在后面有一个预览的步骤，可以做更多的设置，有很多模板和效果，比如可以把背景转成黑的等等。这个图的最大特征就是边的差距非常大，这个时候做刷新的话这个图就非常奇怪，因为有的边的权重的线非常粗，这样的话就可以把边的厚度选得细一些，再点刷新的时候就变得更好辨认一些。这个时候就可以输出，默认有三种输出方式，Gephi有很多插件，支持WEB的方式输出去，再交互地操作。Gephi的操作基本上就是这么多。有的标签不会识别，挤到一块儿去了，就可以把字体设置得小一点，在不影响结果的情况下去调整。Gephi每次导进图的时候会不太一样，输出的时候看起来也不太一样，它的外观会有一些变化，但是关键的一些结构是不变的。和天上的星星一样，会移动，但星座是一样的。

时间关系，看一个我直接调好的图，这是稍微调整过一些的结果的图，大家看出什么了吗？都是计算机根据每个数值的关系产出的。在整个图里，美国和英国的报纸互相引用比较多。刚才看的时候线是直的，带个箭头。Gephi可以选择成弧度的或者圆的，选择成弧度之后会有什么差别？两个节点之间是直线的话方向就看不出来了，在Gephi里面很巧妙地用弧线来表现，它是顺着时钟走的。这是日本的两家报纸，日本的每日新闻报纸引用人民日报比较多一点，但人民日报也没有怎么引用。泰晤士报、卫报、纽约时报、华盛顿邮报中间可以有六个环，但是现在是五个。一个国家的两个报纸往往是连在一块儿的，原因要么是两家报纸之间引用得比较多，要么就是两家与外界关联的相似度非常高，所以就把它们放在一起去了。可以把这个图看成三个区域，核心是四个节点，然后还有一个外围的区域。

我大概就说这么多，数据可视化用Gephi去做的时候大概就是这样。