[mks_dropcap style=”letter” size=”52″ bg_color=”#ffffff” txt_color=”#dd3333″]邓[/mks_dropcap]东波是工业研究院特约研究员,亦是荷兰屯特大学地理资讯科学暨地球观测学院博士候选人,他目前的研究兴趣为开放资料、链结资料、知识图谱,近年的著作多集中在链结开放放府资料的实务发展。身为开放文化的宣教者,他从2012年开始致力于台湾开放街图社群的发展,曾在2016年担任台湾开放街图社群理事长,并活跃于亚洲开放街图社群。他目为是台湾开放资料联盟的副会长,不但是数位国家创新经济(DIGI+)推动小组民间谘询委员, 亦是7个政府部会的开放资料民间谘询委员。
Dongpo Deng is a contract researcher of Industrial Technology Research Institute (ITRI), and a PhD candidate of Faculty of Geo-Information Science and Earth Observation, Twente University. His current research interests are open data, linked data, and knowledge graph, and his recent publications focus on the practices of linked open government data. As an evangelist of open culture, he made efforts to develop OpenStreetMap (OSM) community in Taiwan since 2012, and was a chairperson of the broad in 2016. Also, he is active in OSM Asia. He is currently a deputy chairperson of Open Data Alliance (ODA). He is not only a committee member for Digital Nation and Innovative Economic Development (DIGI+) but also 7 governmental agencies’ advisory committee members for open government data.
我们可以从开放式参与中获得群体智慧吗? 三个公民科学计划的经验
Can we obtain collective intelligence from open collaboration? Lessons from three citizen science projects
[mks_dropcap style=”letter” size=”52″ bg_color=”#ffffff” txt_color=”#dd3333″]这[/mks_dropcap]个演讲将由三个公民科学计划(开放街图 、空气盒子、路杀社)的参与经验中,分析开放式参与是否能够获得群体智慧。公民科学是一个透过分散式且协同合作方式,开放地征求一般民众参与,以解决科学问题的方法,而群体智慧是指以群众外包方式的协同合作所创造的智慧,有别于专业的或学术的知识。一个开放式参与的公民科学计划中经常有多样的参与者、想法、和资讯交杂,想从这样复杂的环境中淬炼出群体智慧是一个挑战。从开放式参与汇集群体智慧是一连串的跨界与转化的过程,这个演讲将从工具、资料、素养、文化等元素来剖析开放式参与的问题,以及因应之道。
This talk will analyze an issue whether collective intelligence can be obtained from open collaboration on the basis of the experiences participating three citizen science projects (OpenStreetMap, AirBox, Reptile Road Mortality). Citizen science is a distributed, collaborative problem-solving approach for tackling scientific problem through open call. Collective intelligence is knowledge created by crowdsourced collaboration. Such knowledge is different from professionally or academically generated knowledge. An openly collaborative citizen science project often consists of complex participates, perspectives, and information. It is a challenge to extract and refine collective intelligence from such complex environment. From open collaboration to collective intelligence is a series of crossover and transformation processes. This talk will identify the issues of open collaboration from tools, data, literacy, and culture, as well as share the experiences for handling the issues.
报告正文
时间:2018年11月21日
地点:中国美术学院南山校区报告厅
整理:李雁军
編輯:盧睿洋
我今天带来的主题是,希望从三个公民科学计划里面去讨论一件事情,叫做群众智慧(collective intelligence)。是不是能够从公民科学计划里面得到这一点,我没有一个决定性的答案,但是我希望从这三个经验里面跟各位讨论这件事情的发生应该是怎么样。在讲公民科学之前,我希望给各位一个公民科学的暂时定义(working definition)。
在我的认识里,公民科学是一个群众外包的机制。这个机制是基于分散(distributed),并且以协同合作的方式来解决问题的模式。它以公开征求的方式来邀请广大的群众,然后一起来解决复杂的或是科学上的问题。公民科学的发展事实上跟整个网络的演进非常有关系,我们可以回溯到1990年,整个网路时代的来临,当时的web只是单向的,到web2.0的发展之后,整个网络的形态转变了,我们有更多的资料,事实上是来自于使用者的贡献。
这些使用者的贡献,使得我们网页的内容开始改变了,成为属于使用者本身的内容。网络2.0的技术的改变,事实上是使得网络使用者不仅是资讯的使用者,也成为了资讯的提供者。使用者生产的内容的主要特征是,它大量使用混搭技术跟不同的资讯结合,来彰显它所要表达的主题是什么。这个过程中,各位可以看到过去我们在讲的文字云(tag cloud),或是分类系统(taxonomy),它透过这样的方式来让你很清楚地知道它要表达的主题是什么,或是透过地图的方式,再跟的其他的资讯做混搭之后去表达。
这样是不是形成集体智慧了?事实上对我们做语义网与语义科学的人来讲,它还有点距离,但是它至少代表了一件事情的可能性,也就是说我们可以收集到更多来自群众的资料,如果我们运用这种资料的话,我们事实上可以做更多的事情。
但是在web2.0时代,还有一件事常常令人诟病,就是资讯过载(information overload)。这么多社群媒体的资料瞬间会暴涨出来,但是面对这样大量的资讯,我们如何能在短时间内去芜存菁,这其实是一个非常严峻的问题。
在当代web3.0的时代,也就是语义网技术导入之后,网络的内容慢慢开始改变,内容开始被结构化起来。这个结构化的技术事实上跟语义网技术是有关系的,尤其是在当代,有很多资料的内容是透过链接资料的方式把资料做更完整的结合。整个网络的形态,它在提供服务或者提供资讯的时候,就会导向更加个人化,你在搜寻的时候,它可以根据你的需求,给你更准确更个人化的需求。
在网络演进的背景之下,如果我们来讨论所谓的开放式的协同合作(open collaboration),我认为有三个主要的支柱:第一个是科技,第二个是社群,第三个是解决问题。科技的部分就是我刚才所讲的网络技术的改变跟通讯技术的改变,譬如说我们现在大量使用移动应用程序传输我们的资讯,或是用社交媒体的方式沟通,这都使得我们的合作方式会产生一些改变。
我们过去的社群组织在没有web的时代,要聚会必须要用实体的方式,可是我们透过这种科技的改变,我们的合作方式就可以变得非常多样。我们可以在不同地点不同时间合作,这就引发出非常多开放式的平台,譬如说维基(wiki)就是一个开放式的平台。“社群组织”与“解决问题”的交集的意思是,社群组织聚在一起,我们总是要一个解决问题的意识,否则我们就无法设立共同目标。所以在这之中我们需要一个共同目标帮助我们去解决问题。当我们知道需要解决的问题是什么,也能够善用科技的话,事情就落回到民众真正关心的议题,那就会设计到公民科技(Civic Tech)的问题。公民科技的一般定义,就是利用科技来解决民众面临的一些真实的问题,譬如说街灯坏了,要怎么样去搜集故障信息,要怎么去维修,再比如道路没有铺好,或是犯罪率太高,这些问题都是市民比较关心的问题,然后用科技的方式来解决,这是公民科技。在这样的条件下,三者聚合在一起,就会变成一个开放协同合作方式。这是我对开放式协同合作的认知。
在这样的认知下,我要提三个公民科学计划,第一个就是开放街图(Open Street Map ,OSM),它是一个全球草根性的地图。为什么我说它是一个草根性的地图?因为这个地图不是国家做的,也不是任何一个学术团体做的,它是由很多民众聚在一起画图的成果,所以我们把它称为一个开放而且自由的地图。为什么说开放?因为它的资料是使用开放格式,系统是开放源码,它所使用的地理资料的授权方式也是开放授权的,譬如说open database license,或是creative commons的授权方式。
这个计划的特殊之处在于它是一个全球的合作协同计划。在图片右边的部分,大家可以看到一个GPS加一个wiki,也就是说,这个制图系统是透过类似wiki的系统来鼓励大家画图,并把图结合在一起,利用wiki的系统来共同合作。所以它是一个群众外包的地理资料,是在地(local)收集,全球使用的。换句话说,我们今天在杭州,我们所画的杭州地图不是只有杭州人在使用,而是全球人都可以使用。
如果说你人在杭州,你也可以去画别的地方的地图,譬如说台北的地图。这样就是利用wiki的方式来管理资料,来管理合作协同的方式。这就是开放街图的一个很大的特征,一张图是由许多人一起合作造成的。在这张图片里面,大家可以看到不同的颜色代表了不同人的贡献。
当它组合在一起时,它是一个地图,它同时也是一个资料库,它是怎么样构成的?我常常会笑称,开放街图的构成是“一步一脚印,一手一滑鼠”,所谓的“一步一脚印”,就是你必须要走到外面调查资料,调查完资料之后回到实验室或者家里的电脑前面,你就开始沿着这个卫星影像画图,描绘完之后必须要告诉电脑,你现在描的是哪一种道路系统,做这件事的人就是mapper,我们讲在台湾称之为“图客”,对应黑客。
另外一种是资料输入,譬如说现在有越来越多开放资料,譬如说美国Tiger的资料,某些明星公司会自动释放出资料贡献给open street map,譬如说荷兰的MD公司。这些资料在OSM里面就会形成一个非常庞大的资料库。
我想插一段小故事,这次大会的发起人之一李世杰,2006年我们在同一个办公室,他坐我隔壁,当时他去克罗地亚,回来时把我们实验室的一台GPS丢了。但是不重要,他把GPS的轨迹留下来了。这个GPS的轨迹,就变成我当时画OSM的第一笔资料。
现在记录里面还看得到左下角这个地方就是我画的第一笔资料,事实上是在克罗地亚,这也是克罗地亚的第一条道路。这是个蛮有趣的经验,今天过了12年之后,我们再重新讨论这件事情。
刚才也讲到,我们是沿着GPS的轨迹或是卫星影像把资料画起来,画完之后,你要让电脑知道它到底是一个什么样的东西,所以你必须要给它一个符号,这个符号我们称为tag,你要让电脑知道这个highway是primary,是一个省道,motorway是一个高速道路,要以这样的方式让电脑知道你画的是什么东西。
这些资料事实上用的都是wiki的系统,也就是说我们刚刚讲的这些tag事实上不是由任何单个个人去决定的,或是一个独断的委员会去决定的,而是所有人决定的,你也可以制定tag,但是如果没有人跟你用一样的tag,这个tag就会自动消失。所以当我们要使用一个tag的时候,通常我们会经过一个共识的决定,譬如我需要在邮件论坛里面提出来我要用这个tag,大家是不是同意或是大家有什么意见。当然同意之后它就会被收录进去,变成一个大家共用的tag,所以它的决定过程是共识的。
2007年的时候,台湾的开放街图就只有海岸线,由一个西班牙人,一个德国人,共同把海岸线画起来。
2011年,地图里的道路系统开始建构起来。
到2014年的时候,可以看到台湾的几个大都市的内容大致上都已经完成了,你现在再去看OSM的话,你会发现它已经是可以用的完整地图了。
以全世界来讲,我们就用这个动画来看一下它画图的概况。这是2011年的画图的概况,每一个亮起来的地方,是当年被画进去的资料。全世界不是一个地方在画而已,世界上很多人的都在共同画这个地图。
这其实是让各位了解一下,OSM到底是怎么样形成一个全世界的地图。我们虽然是画一个全球的地图,但是它并不只是一份地图,而是一个资料库,这个资料库可以被做成很多不一样的地图。也就是说我们建造的是一个资料库,从资料可以转换成地图,地图是一个视觉化过程,一份资料可以画成很多种不一样的地图,下面这张图上的9个地图事实上是来自于同样的资料。
OSM在画地图之外,到底要怎么使用?当然不只是画进去而已,而是我们在这样一个合作过程中,可以产生很多不一样的效应。
譬如说救灾。这张图表示的是,2010年海地发生地震时,OSM社群所做的事情。有一个叫做Mikel Maron的人,他也是OSM非常重要的一个核心人物,在当年的地震发生之后,他在邮件论坛上发一封信说,现在海地发生地震,我们是不是能够用画图的方式帮助海地。当时就有一两个图客提着行李箱跑到海地去画图了,但是更多人其实是没办法去海地的,那怎么办呢?
因为它是一个全球合作的环境,所以它可以通过网络画地图。在这个邮件发完七天之后,道路的资料已经非常完整了,28天之后就变成了一个非常完整的地图,可以辅助救灾单位进行救灾事宜。这个完整的地图并不是一个人所贡献的,是全球很多人贡献的。这样的模式不仅仅运用在海地,从2011年的日本地震到后来菲律宾海燕台风到最近尼泊尔的地震,OSM都发挥了全球志工合作的功能,贡献了在救灾时候所需要的地图资料。
这张图是当时的救灾单位使用OSM地图,红色的点是倒塌的房屋,灰色的线条就是当时的道路,这些道路就是来自于OSM资料。
除此之外,OSM这个开放系统也用于很多不一样的目的,譬如图中这个是Wheel Map:当一个房子画好之后,我们需要让残障人士能够知道要进入这栋建筑物的道路对坐轮椅的人是否友善,残障人士可以先透过这个系统了解环境。这个资料也源于很多人一起合作,我们只需要在“房子”里面多一个tag,“wheelchair=yes;wheelchair=no;wheelchair=limit”这三个tag,我们就可以收集到非常多资料给残疾人士使用。这种方式事实上非常简单,但当它集合在一起之后,就对残障人士很有帮助。做这个APP的人本身就是一个小儿麻痹症患者,他对这样的使用就特别热衷。
第二个公民科学计划是“路杀社”,它源自台湾一个非常有趣的公民科学计划,它的背后其实是一个研究组织,叫做“特有生物保护研究中心”。当时他们成立Facebook的群组的时候,它起始的目的不是要收集死掉的爬虫类动物的资料,它的目的是要收集活的爬虫类。但问题在于活的爬虫类不好拍摄,死掉的爬虫类很好拍,死掉的动物不会动,它就躺在路上。所以当时收到的照片全部都是死的,也就顺势把整个网站都改成收集死掉的动物的照片。
我是2012年才看到这个网站,觉得非常有趣,就自愿帮他们把后端系统做一个重整,让资料收集更加完整。这个系统的一个有趣之处是,通常贴照片的人不会知道他贴上去的动物到底是什么,因为照片通常都是血肉模糊的,通常贴上去的照片都是在道路上被重复碾压的动物尸体,对于外行的人来讲已经没法知道这是什么东西,但是由于这个社群里面有非常多的动物学家,他们看到比如某片皮毛的颜色,或是鳞片或是指甲,他们就可以辨识出来这到底是哪一种动物,哪一种爬虫类。这样就形成了一个共同合作的方式,也就是说贴照片的人是一般的素人,当他贴完这张照片,我们要求他提供时间、地点的讯息。当我们把时间、地点、照片,还有辨识物种的人这几个重要信息收集起来之后,它就会变成一个重要的可供科学研究使用的资料。
这张图就是一个典型的“路杀社”观察资料的样子,有这几个我们需要收集的资料部分,当我们收集完之后,最重要的是把它变成一个科学观察的资料,让它成为一个结构化的资料。“2013”是年代,“新北市新店区”的坐标位置,最重要的是照片里面这张动物到底是什么,这个就是一个结构化的资料。这些资料的处理过程要透过资料的搜集,也就是透过Facebook的API把资料捞出来之后,透过information extraction(信息提取),text mining(文本挖掘)的做法,也就是对自然语言做一些处理,把它抽取出来之后,每一个地名、物种名、时间还有人名,就必须要正规化,所谓正规化,比如地名必须是唯一的。我住在南港,但全台湾的“南港”有26个,当一个使用者说,“这个照片在南港拍的”,我并不知道他在哪一个南港拍的,所以我们的系统就需要指定一个特别的南港,这就是一个所谓的正规化过程。
把这些资料整理好之后,就可以提供给另外一批科学家使用,譬如说可以研究物种的分布模式,分析为什么某个地方“路杀”特别严重这类的问题。从2011年到2015年四年的时间,我们大概收集了超过2万笔资料,有超过1600位贡献者,累积超过430个物种。2万多笔的资料,对于现在大数据来讲并不是非常多,但作为生态观察资料来说的话,是非常多的资料。后来我们成立了一个网络叫做“台湾野生动物路死观察网”(https://roadkill.tw),可以提供给很多人浏览、下载资料,你可以了解特定物种的空间、时间的分布,你可以知道某一个地区“路杀”的状况是怎么样的。你也可以知道某一物种的标本收藏是否完整,因为很多人不只拍照片,还把动物尸体用塑料袋包起来拿回去,冰冻完之后再寄到研究中心。开一个玩笑,研究中心的主持人会收到很多“肉干”,因为台湾的物流系统并不会去检查寄件人究竟寄了什么,快递单上面都只是写“肉干”,计划的主持人就一天到晚收到“肉干”,他的同事还问他,你团购肉干为什么都没有叫上我。
除此之外,“路死”观察资料也可以做视觉化,因为它已经结构化了,所有的资料应用就非常广泛。我们可以去比较单一物种过去几年的变化,它空间的变化,甚至我们可以用这些资料来做动物的保育,譬如在路死量较高的地方,我们可以去加很多警示牌,让大家知道这个地方的野生动物非常多,它要经过,常常造成路死,也可以做穿越道让动物经过。
第三个例子是空气盒子(airbox),它是一个参与式的环境感测系统。在台湾有几种型号,各位可以看到现在这五种就是LASS FT、AIRBOX、MAPS、LASS4U、87Live。MAPS是中央研究院发展出来的,airbox是一家叫讯舟科技的公司发展出来的一个系统。LASS4U跟87Live这几个并不是任何公司所研发,而是从社群里面发展出来的系统,大概有五种典型的系统。
为什么这些系统会发展出不一样的测量方式呢?是因为整个社群的发展是开放源码、开放硬体。也就是说,所有硬体的规格是开放的,你可以去商店买这些硬体回来自己组合。当你组合好之后,你可以用open source的方式把这个东西驱动起来,所有这一切都可以在网络上找到文件,你可以用DIY的方式把这些零件组起来,让它运作。你如果不懂的话,在Facebook上面有一个社群可以询问,除此之外在台湾我们还蛮常使用hackpad,它是一个很像wiki的共写系统,你可以在hackpad上看到很多教学文件,教你这些open source跟open hardware怎么样组装以及使用。
收集到的资料也是开放资料,并不限定任何人去使用它,所有人都可以用这些资料,知道现在的空气品质到底是怎么样的。
这样的方式实际上就是我之前所说的open collaboration,它并不仅仅源于网络社群。它的特色是学研单位、网络社群、民间单位、地方政府、教育单位一同合作,去构成了一个开放的协同的合作。
因为这些资料是开放的,任何人都可以利用它去做视觉化。譬如说这张图是pm2.5 Voronoi的视觉化分布图,每一个点都是airbox上的点,也可以用内插视觉化的方式显示一天的pm2.5的分布样态,这张图里面可以看到高雄的空气相当不好。一个礼拜之前,在台湾有一个立法委员质疑社群的这种量测方式是否准确,很容易造成民众的恐慌。于是另外一个社群在做视觉化时就加了提示:“请注意,你如果看到这个图会恐慌的话,你就不要看!”意思是你可以有你的选择与判断。这个资料本身不是来自于官方单位,它是来自于社群量测的资料。在GOV的“零时空污网”,你可以看到GOV运用这些资料所做的视觉化呈现。
最后,从这三个公民科学计划中,我要分享五个事情。第一件事情是我们要怎么样构成社群?一个社群并不是由单一的一种人所构成。这三个公民科学计划都有一个特色,除了有很多不同背景或不同身份的志愿者加入之外,还有一个很重要的组成部分就是,三个计划都有该领域的专家在背后支持,但是虽然有专家在背后,但他们跟其他志愿者的身份是平等的。也因为平等,社群才没有变成权威式的,这样的社群才有可能成长起来。
第二点,这三个计划搜集到的资料都是开放的,这些资料并不是给特定的单位使用的,而是开放给所有人使用。所以,人们会自愿去收集资料,不是因为特定目的,而是真的想要让这个世界更美好。资料开放不只是开放而已,还要便于大家存取。此外,这些资料要是machine readable,机器能够读取的。开放资料不能只是把一张张表格扫描下来放在网上,只是开放一张一张的表格。这里涉及到两个部分,一个部分是资料的标准,资料如果没有标准化,就很难做到machine readable。第二部分是必须要有code of conduct,即行为准则。社群是人的群体,如果没有一个行为准则的话,很容易造成意见分歧,最后大家分崩离析,这种社群的结合问题很常见。
第三点是科技,科技在社群中最重要的作用是让搜集到资料很有效地转换成可以输出的资料。如果我们只是一直收集资料,而这个资料却是没办法使用的,那么这个社群是不会成长的,如果我们搜集到的资料很容易被应用,这个社群就很容易长大。譬如说OSM,为什么大家使用它,因为它的资料非常易用,很多公司和社群都在使用。第二个是,要把资料转换成有效的知识。从开放街图到路杀社到空气盒子都展示出,这些资料能够转换成知识,能够反映现实,而这就需要科技在后面支持。
第四个部分是沟通。以台湾来讲,很多时候大家是用脸书,必须要有类似这样的方式去联系大家,因为一个开放社群的成员不可能在同一个时间、同一个地点工作。多数的情况是大家在不同时间不同地点,有空就上去一下,做一些事情。所以必须有一个比较好的social networking去做协调和协作。
最后当然就是开放的文化。如果一个社群无法基于开放文化跟大家整合的话,最后会导致有人互相怀疑、互相猜忌,不知道对方在做什么,那么这个群体就很难成为一个开放合作的社群。如果我们根植在一个open ecosystem(开放的生态系统)的话,最后才有办法创新。因为一个open ecosystem,一定有一个很好的资料生产者,一个好的资料消费者,当你有需求的时候,你才可能从这个开放生态系统里面得到一个比较创新的应用。
这是我的经验,跟各位分享,谢谢各位!