学术报告  
  NLP工具  
   
   
 

 

 

 

 

汉英、汉日机器翻译

机器翻译主要研究方向:本体论、可计算理论、机器学习、算法设计和理论、语料库语言学、语义场及其构造理论与技术、基于实例的机器翻译系统、统计机器翻译技术、人工智能

话题检测与追踪( TDT )

话题检测与追踪( Topic Detection and Tracking, TDT ),即研究如何检测新发生的事件并追踪事件后继发展动态的信息智能获取技术。该技术能帮助人们把分散的信息有效地汇集并组织起来,从整体上了解一个事件的全部细节以及该事件与其它事件之间的相关性。 TDT 技术可以用来监控各种语言信息源,在新事件出现时发出警告,还可以用来追踪某个特定事件的来龙去脉。在信息安全、金融证券、行业调研、资讯服务等行业领域具有广阔的应用前景。

文本分割

文本线性分割技术研究(Linear Text Segmentation),将非结构化文本转化为一个语义段落有序序列,不同语义段落讨论不同子主题。该技术有助于改善文本处理技术的性能,包括信息检索、问答系统、文本挖掘、文本摘要等。

知识发现

研究方向为生物医学文献中的知识发现,采取的途径是根据文献记录中的元数据--主题词/副主题词的共现关系,运用聚类分析的方法挖掘出重要的主题词/副主题词之间关联规则,并且通过对这些关联规则的检验和解释发现各类主题之间潜在的未知的联系,同时定量总结各类研究主题之间已知的联系。

文本对齐

主要研究汉日双语多层次对齐语料库建设、面向文本对齐的知识发现、句对齐技术、词对齐技术、 Chunk 对齐技术

chunk抽取与NER研究

组块分析是句法分析的一个重要步骤。组块分析又被称为浅层分析(Shallow Parsing),
是一个自动抽取基本短语的处理过程。Abney首先提出把组块引入句法分析,然后Ramshaw和Marcus把组块分析问题转换成为系列标注的机器学习问题。目前已经有很多机器学习的方法运用于组块分析,比如支持向量机、条件随机场、基于记忆学习、隐马尔可夫模型等等,并取得很好的分析效果。
命名实体识别是信息抽取的一项重要任务。当前,命名实体主要包含:人名、地名、
组织机构名。命名实体识别作为MUC、ACE、SIGHAN的一项共享任务,已经得到很多研究
人员的关注。

中文分词

中文分词组以评测作为驱动,主要研究统计机器学习方法在中文分词、词性标注和命名实体识别中的应用。研究内容包括隐马尔科夫模型、最大熵模型、支持向量机、条件随机场等多个统计模型在中文序列标注中的应用和相关的特征选取技术。在此工作的基础上,分词组参加了第三届国际汉语分词评测大赛,在大赛提供的四种语料的封闭测试上取得了很好的成绩........

文本分类和聚类
垃圾邮件处理
 

 

版权所有: 东北大学自然语言处理实验室 2008 NEU NLP Lab | 关于我们 | 返回首页

更新时间: 2008年 3 月 1 日