2012年6月28日星期四

凤凰周刊:大陆研拟藏维文网络舆情监测系统 监控分裂风险



2012年06月25日 15:05
来源:凤凰周刊
作者:李光 钟雅琼
转自:凤凰网 (注:文字红色字体部分,红色为博主添加)

中国西藏网最终还是放弃了开通藏文博客的打算。网站的藏族编辑娜科告诉记者,由于内容监管方面的压力,藏文博客必须采取先审核后发布的管理方式,如果处理不及时,或者处理不好,网友会有很大意见。目前,藏文网站的内容监管仍处于人工阶段,开通藏文博客需要付出很大的人力成本。综合考虑之后,中国西藏网决定将这一计划暂缓。

作为国家重点新闻网站,同时也是大陆最大的涉藏网站,中国西藏网的担心并非多余。2012年2月以来,受到一系列藏人自焚事件的影响,大陆地区一些颇具人气的藏文博客被关闭。青海湖网的藏文博客一度发出公告称:“由于部分用户不按照此博客宗旨发表日志,暂时关闭此博客,敬请广大博友谅解。”

此前亦有境外媒体报道称,著名的藏文博客网站www.Sangdhor.com也曾被关停,“原因是该网站发表的诗歌《哀痛》描述了发生在西藏的自焚事件。”

目前,内地基于中文的网络舆情监测系统已经有较为成熟的研究成果,但由于少数民族语言文字信息化处理水平整体相对滞后,监管部门尚没有成熟的软件系统对少数民族文字的网站进行舆情监测,于是,在一些敏感事件发生之后,不得不关闭网站以应对日益复杂的网络舆情。

中央民族大学等机构正在进行《藏、维文网络敏感信息自动发现和预警技术》的课题研究,或许可以从一定程度上改变这种简单化的管理方式,也将缓解娜科等网站编辑在内容监管方面的工作压力。

藏文、维文网站是管理重点

中国互联网络信息中心(CNNIC)发布的《第28次中国互联网络发展状况统计报告》显示,截至2011年6月底,大陆网民数量已达4.85亿。在公众对中文网络的使用越来越熟练的同时,少数民族文字网站也提上官方管理日程。

赵小兵是中央民族大学信息工程学院教授,同时担任国家语言资源监测与研究中心少数民族语言分中心副主任。据他介绍,目前直接使用少数民族语言文字的网站并不多,主要有蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文、壮文、傣文等9个民族10种文字(傣文包含新傣文和老傣文两种文字)。根据该中心2011年的调查,大陆少数民族语言文字的网站总量在389个左右,其中维吾尔文网站175个、藏文网站109个。

1999年12月,世界首家藏文网站在西北民族学院建立,此后藏文网页的数量不断增长,

大量的藏文论坛和藏文博客涌现出来。藏文网站从2009年的45个发展到2012年的130个。与全国网民增长速度相比,藏族网民的增速较为突出,增幅达86%,远远高于全国平均增长速度。

网络的普及正在改变藏族民众的生活方式。一些藏传佛教寺庙里的佛学院也为修行的学僧开设了计算机课程,学习打字、排版和网页设计等内容,并将推出自己的网站。考虑到西藏民众使用藏语文的习惯,大陆官方也一直致力于藏语言文字与现代化的信息技术同步发展的研究。早在1997年,藏文字符计算机编码就成为中国第一个具有国际标准、获得全球信息高速公路通行证的少数民族文字。

1998年,新疆诞生了第一个维文网站——塔克拉玛干,经过十几年的发展,维吾尔文网站也形成了一定的规模。但是2009年乌鲁木齐市发生“7.5”打砸抢烧严重暴力事件之后,新疆网站数量明显下降。原因是新疆维吾尔自治区通信管理局对全区已备案网站主体信息进行人工电话核查,从7月到12月,依据《非经营性互联网信息服务备案管理办法》注销了包括中文和维文网站在内的4966家网站备案。

舆情检测的现实困境

少数民族网站在境内蓬勃发展的同时,境外网站数量也有显著增加。2008年西藏“3·14”事件发生之后,《环球时报》引述外媒的报道称,在过去几年内,有大量宣扬“藏独”的网站和网页出现,“‘西藏流亡政府’已将互联网当做了一个强有力的吸引藏人对抗中国的武器。”

一年之后,新疆乌鲁木齐“7·5”事件让官方再次注意到互联网的作用。“7·5”事件发生之前,有些维文网站大批转载广东韶关旭日玩具厂“6·26”聚众斗殴事件,利用网络论坛进行造谣煽动,直到7月4日晚,一些网民在QQ群、维吾尔文论坛和个人空间发帖,响应“世维会”在境外组织的游行示威。大陆学者撰文称,“从‘7·5’事件我们认识到,维吾尔文个人网站已经成为舆情的重要窗口。”“目前有些维吾尔文个人网站论坛转载境外信息,报道不实消息,在一定范围内造成了恶劣的影响。维文新闻信息,特别是时政类信息的宣传存在着极大的安全隐患。”

其后,随着越来越多的少数民族运用本民族的文字,通过互联网来表达自己的情绪、态度、意见及要求,形成了少数民族地区的网络舆情。许多研究机构和市场主体声称,他们可以为客户提供这类网络舆情的监测服务:其舆情监控系统可在短时间内实现对新闻、论坛、博客、贴吧等各类网络信息进行汇集、分类、整合、筛选,也可对定制关键词的相关主题进行实时监测,全面分析网络舆情发展趋势,提供基于网络舆情监测的决策参考和风险预警。

但政府部门对网络中藏文舆情监控尚处于传统的人工方式,人民网舆情监测室尽管能够提供蒙古、藏、维吾尔、哈萨克、朝鲜等少数民族语言的舆情报告,但也是通过人工检索进行分析,与中文舆情报告相比,欠缺科学的分析工具。

一些商业机构如谷尼国际软件公司,也开发了“谷尼互联网舆情监控系统(多语言版)”,支持维文、斯拉夫维文、拉丁维文的舆情服务。中科点击科技有限公司生产的“军犬网络舆情监测系统”,也声称“可有效监控藏文、维吾尔文、蒙古文、彝文、朝鲜文等少数民族语言舆情信息”。

谷尼国际软件公司副总邹鸿强告诉记者,针对少数民族语言舆情监测需求,在“3·14”事件和“7·5”事件后明显增多,客户不仅有宣传部门,还有公安机关和安全部门。

但是,谷尼国际软件公司提供的少数民族语言监测服务,目前仅能实现定向采集与全网搜索这两种监测方式,至于中文舆情监测中的内容情感分析、主题词自动提取、全文检索等服务则无法实现,主要原因是“没有少数民族语言的相关词库和知识库。”这些都有赖于相关学术机构提供基础性的研究成果。

预警敏感信息

目前大陆开展少数民族信息处理研究的学术机构并不多,主要集中在中央民族大学、新疆大学、西藏大学、内蒙古大学、西北民族大学、青海师范大学和中国社会科学院等高等院校和科研机构。随着少数民族网络舆情监控系统的应用需求越来越强烈,大陆近年来明显加强了这方面的研究投入。

中央民族大学承担的“藏、维文网络敏感信息自动发现和预警技术研究”课题,获得了国家民委的资助;西北民族大学中国民族信息技术研究院也开展了相关研究,其研究论文《基于藏文网页的网络舆情监控系统研究》获得了国家863项目“多语言基础资源库研制和共享”的基金资助。

赵小兵介绍说:“藏文信息处理技术的发展与中英文相比具有一定的滞后性,存在着编码方式不统一、藏文分词技术不成熟等问题,这样将对敏感词的监控以及话题的发现与跟踪造成极大的困难,很大程度上影响舆情监控的质量。”

中央民族大学信息工程学院副教授闫晓东是“藏、维文网络敏感信息自动发现和预警技术研究”课题负责人。她告诉记者,该项目到2013年结项,预期目的是能够针对各类敏感信息,提出不同级别的预警方案,“目前能做到敏感词的自动发现和跟踪。”

赵小兵补充说,如果仅仅依靠关键词匹配的方式进行网站管理,发现敏感词就进行过滤的话,非常容易产生误判,也会带来负面效果。“少数民族语言本身的含义非常丰富,它有很多同义词,一个所谓的敏感词放在一句话中也许表达的意思可能并不敏感,同样,一个非敏感词恰恰可以用来表达敏感的意思。这种语言的多义性与复杂性要求我们的检测软件更加智能,能够从词语的深层含义去判断它是否敏感,而不是简单地抓出一个表面形式上的词。这就要求我们的管理者不能将管理简单化,一定要人性化、智能化。”

西北民族大学研发的舆情监控系统目前据称可以“对藏文网页的‘敏感点’进行监控以及对‘热点’实现预警,有效地解决政府部门以传统人工方式对藏文进行舆情监测的实施难题,为政府掌握藏族地区的舆情状况以及网络文化安全作出贡献。”

另据记者了解,公安部门也在开发一套藏文舆情监测系统,其目的是掌握境内外藏文网络舆情,从源头上了解境外“三股势力”(敌对势力、民族分裂势力和暴力恐怖势力)的最新动向,在应对其可能对境内造成的影响时把握主动权。该软件目前已经在公安系统内部测试使用。

由于现有技术手段不够成熟,内地少数民族文字网站普遍面临较大的监管压力,对于用户创造内容的博客和微博业务,一般不会轻易涉足。即使开通了这一业务,也都采用先审核后发布的办法,以应对可能出现的内容风险。

天山网是目前大陆唯一一家开通维吾尔文微博的维文网站,由新疆维吾尔自治区党委宣传部主办。维文微博自2012年3月开通以来,注册用户数量已超过3万,每天发布的微博数量超过5000条,依靠3名管理员24个小时轮流值班进行审核,平均每个管理员每天审核1500多条微博。随着用户数量的增加,天山网只能依靠增加管理员的办法进行内容审核,保证网站运行安全。

(参考资料:江涛、于洪志等《基于藏文网页的网络舆情监控系统研究》,阿加提·依布拉音《新疆维吾尔文网站研究》等)(实习生黎凤对本文亦有贡献)

附:江涛、于洪志等《基于藏文网页的网络舆情监控系统研究》(转自百度文库








6 条评论:

  1. 第一句就不通,这也算论文?

    回复删除
  2. 于洪志是打着民族信息的名义,骗取国家科研经费的老手,她们所谓的那些项目也不过是一些套来套去的次品。她们被自以为是的是得过国家二等奖,但那是个基于汉字改写的同元藏文录入法和一个藏文静态网页。说到这两项:同元录入法只能说“被藏化的汉文录入法”,而且当时的市场价是1200余元。第二个,藏文静态网页,也不过四个面子工程,简单一些页面,直到今日没有任何更新。

    回复删除
  3. 中共花费大量资金控制信息,就是为了两个目的:1.不让内部的人民说话,用他们制造的谎言来洗脑.2.不让海外咨询传入内部,用他们制造的谎言来欺骗世界。

    回复删除
  4. 晚上在转经道上遇见几个超短裙的失足女子和便民站的警察在小屋里拍大腿说笑调情.....转到祖拉康正门又遇见6个年轻汉人男女在磕长头的前面打情骂俏,只听你一个男一女对话是;X你妈,男的说;不用X你妈直接X你吧....
    我快哭了.....这是什么世道呀,中国人疯了吗?

    回复删除
  5. 圣洁的西藏被汉人撕毁的千苍百洞.....汉族人也要为他们的行为遭到报应.....虚假的汉人社会,恐怖的慌虫子......

    回复删除
  6. 同意楼2说的,我被那个输入法骗走了一千多元,后来才知那是不兼容的混混,很快被淘汰了这个“国家科技二等奖”的输入法产品,我还过渡了很长时间才适应了新的藏文输入法。至于那个网站我没看过,正想看看国家级水平的网站是啥样?

    回复删除