当前位置: 首页 > 新闻动态 > 通用培训 > 著名教授论坛 > 正文
著名教授论坛

香港城市大学教授介绍语言信息化处理新成果

发布时间 : 2014-11-14 点击量:

本网讯 语言信息化处理的历史给我们带来了怎样的经验教训?研究语言信息化处理现今的过程中又如何设计实验、遴选工具?对此又有何展望?1112日上午1010-1130,“著名教授论坛249讲”在南校区图书馆二楼报告厅举行。来自香港城市大学的方称宇教授向大家介绍了基于文本的信息处理的历史发展,同时全面展现了自己最新的文本聚类实验成果。本次讲座由人事处、教师发展中心主办,思科信息学院、语言工程与计算广东省社会科学重点实验室承办。思科信息学院副院长蒋盛益主持讲座。

   

方称宇正在作讲座

陈述历史,总结经验

讲座伊始,方称宇先介绍了基于文本的信息处理技术的两个出发点:一是需要运用到计算手段,二是需要处理者拥有语言学认识。虽然经过了数十年的发展,但是仍然没有一个标准的语言处理手段。在定义了一些基本概念之后,方称宇以自己正在的研究的文本聚类领域为例,描述了近十年来的发展历程。目前,运用信息系统进行文本聚类的方法主要有两种,一是根据词义,但是此方法较难具体反映文本的内容;二是根据词性,但是根据词性进行聚类不易反映文本规律。

过去十余年间,两种方法的合理性实用性都被研究人员反复验证,相比而言,通过词性进行文本聚类的准确性更高一些。但是也存在结果不容易进行评估、词性与词义之间容易夹杂、实验中聚类类型少等问题。

设计实验,遴选工具

为了验证词性进行文本聚类的准确性,方称宇开展了研究工作。针对之前总结出的问题,他提出在实验中需要做到只对词性进行研究、丰富数据库的语言学信息、实验中采用更多类型的文本等要求。

语料库是运用信息系统进行文本聚类的基础,分类器会根据语料库的内容来对文本进行聚类。方称宇和他的团队在实验开始前用了半年时间对语料库、分类器进行遴选,最终选择了三个具有权威性的语料库。为了进行对照,三个语料库中有一个是以词性作为基础的,而其他两个语料库则分别包含复杂和简单的词性信息。而在分类器方面,方称宇团队选取了在业界具有一定权威性的NBNB-MN分类工具。

分析实验,展望未来

在经过多次的试验、对比之后,方称宇认为,从文本聚类的有效性来看,词性的作用要大于词义的作用,在一些文本分析中差距甚至能达到10%。同时,复杂词性语料库的聚类效果要好于简单词性语料库的聚类效果。此外,分类工具对聚类效果也存在影响,普遍看来,NB-MN工具的聚类效果更佳。

尽管得到了初步成果,方称宇仍认为自己的研究还有进步空间,下一步他将扩展研究的专业性,专攻医疗领域的文本,并将努力从研究结果中抽象出普遍特征。

  

蒋盛益向方称宇纪念品

讲座最后,蒋盛益代表学校向方称宇赠送纪念品。

 

附:方称宇(Alex Chengyu Fang)简介

方称宇(Alex Chengyu Fang)在University College London (UCL)获语言学博士学位,现在是香港城市大学语言学教授,对话系统实验室主任和创始人,同时是北京航空航天大学客座教授,以及中国全国术语标准化技术委员会成员。关注的领域包括计算语言学和自然语言处理等。

人事处、教师发展中心

20141114

关闭