免费论文
收费论文
发表论文
我要投稿
设为首页 招标网
联系我们
经济学|管理学|法学|计算机|医学|教育|文学|政治|艺术|哲学|更多 经济学|管理学|法律|计算机|医学|教育|文学|政治|艺术|哲学|更多
 论文搜索
  推荐服务: 论文发表 收费论文
期刊论文格式
毕业论文格式
期刊论文范文
毕业论文范文
论文致谢
毕业论文答辩
开题报告
论文选题
英文摘要书写
中文整句智能输入方法研究
中文名称: 中文整句智能输入方法研究
全文提供: 购买充值卡,就可下载本篇论文全文  
论文编号: 3101974收藏本论文】【我的收藏】【我要投稿
英文名称: Research on Chinese Sentential Intelligence Input Method
学位类型: 博士毕业论文
作者: 涉及隐私,隐去***  作者本人请参看权力声明>>
导师: 涉及隐私,隐去***
毕业学校: 涉及隐私,隐去***
专业: 计算机应用技术
毕业年份: 涉及隐私,隐去***
关键字: 整句输入法 统计语言模型 状态空间模型 智能输入 信道模型 中文 状态空间
简介目录: 点击此处 免费索取本论文简介和目录>>
全文提供: 购买充值卡,就可下载本篇论文全文  

       论文发表:快速、低价、包过!发表论文就找论文天下

论文简介:自从计算机进入我国,面临的首要问题是中文输入问题。经过20多年的研究,中文的键盘输入从最初的单字输入、词语输入,发展到整句输入,使得输入法越来越具有智能性,能够借助语言的特性提高输入法的性能。中文整句智能输入,实际上是将输入码转换成候选的中文字词,然后根据中文的习惯,选出最大可能的候选语句作为最终的结果。它具有连续输入、不打断用户思路等优点,但是整句转换正确率不高,修改起来比较麻烦,且占用系统资源,使用中不尽人意。本文以拼音输入为例,研究输入法的整句实现,根本目的在于给S&R中文笔画智能输入法增加整句功能,使其在竞争激烈的输入法领域占有一席之地。 中文整句智能输入问题可以使用信息论中的信源.信道模型进行描述。假设信源以概率p(S)生成语句S,噪声信道根据p(A|S)把文本的句子转换为拼音序列A。中文整句智能输入问题是根据给定噪声信道输出的拼音序列A,还原原始文本句子S,即选择具有最大后验概率p(S|A)作为输出结果。因此可以采用统计的方法实现中文整句智能输入。在N-gram模型中,把自然语言看成一个离散的马尔可夫模型,假设当前词的出现概率仅与前n-1个词有关,而与其他任何词都不相关。考虑到中文整句智能输入的系统实时性要求,采用二元模型。本文使用SRILM统计语言工具包进行了语料库一元组和二元组的统计,按照首字区位码进行排序,二分查找,有效的建立了便于搜索的统计语言模型。 中文整句拼音智能输入系统包括拼音预处理模块、状态空间生成模块和机器学习模块。拼音预处理模块采用最少分词算法将输入的连续拼音流进行切分,输出一个离散的拼音音节序列,送入状态空间生成模块。状态空间生成模块根据输入的音节构造状态空间,插入对应的候选字词节点,在插入的同时,利用Viterbi动态规划算法,将通用语言模型和用户语言模型通过加权结合起来,计算累积概率,最后由状态空间模型回溯算法得到最优语句候选。状态空间生成模块输出的句子经过用户的联机修正成为正确的句子。该模块修改用户学习的二元统计库的概率值,进行记忆学习,从而使系统的自适应能力越用越好。在状态空间模型中,对于插入操作,即用户在原来输入的基础上接着又输入一个拼音,这时只需对新增的拼音节点与前面的拼音节点可能产生的所有字词候选节点进行累积概率计算,插入到状态空间模型中,对于前面已插入的节点无需任何处理。对于删除操作,则更加方便,只需直接删除与拼音节点相关的候选字词节点即可。而当到达用户输入边界,可以依赖右指针域指向尾节点的候选字词节点累积概率最大者的父指针方便的回溯找到最优语句。基于以上的框架本文实现了一个基本的拼音整句输入法,利用网络上公布的有限资源,即切分好的1998年1月份《人民日报》作为统计语言模型的训练文本,采用线性插值平滑方法,测试数据取自自然语言处理平台上的文本分类语料库,领域涉及艺术、文学、教育、哲学、通讯、航空、能源、电子、医药、农业等,其整句的平均字转换正确率达到83.81%。为进一步提高转换的正确率,在统计中融入了语言知识,例如长词优先原则、部分语法规则等,平均字转换正确率提高到85.42%。 利用状态空间模型解决了拼音串切分歧义问题。拼音串如果不含分隔符号,则有可能存在歧义,采用一般的切分算法只能保留一种切分结果,而利用状态空间模型,可以将所有歧义组合均保留下来,参与整句拼音转换的竞争,得到全局最优解,而不会因为切分错误较早的将正确答案排除在外。为避免多次构造状态空间模型,进一步提出基于音素的整句实现方法,将音节切分融入整句转换之中,仍然使用状态空间模型,只不过每次插入的是一个音素,而不是切分好的音节,对插入的音素节点,往前搜索,直接将该音素与前面已经输入的音素能组合形成的所有拼音串对应的候选字词插入状态空间,参与整句转换,通过构造一次状态空间模型得到全局最优解。 最后还设计了本输入法和微软拼音输入法的测试程序,对二者的整句功能进行测试对比,不断查找转换错误的原因,对本输入法进行改进。 本文的主要工作: ⒈在没有任何原始积累的条件下,利用有限的资源构造了统计语言模型; ⒉在实现拼音字词输入法基础上,利用状态空间模型实现了整句输入功能,其转换正确率已基本接近微软拼音输入法; ⒊提出了基于状态空间模型的拼音串歧义切分算法,可以得到所有可能的切分组合; ⒋提出基于音素的整句实现方法,可大幅提高存在音节切分歧义的整句转换的正确率; ⒌实现了本输入法和微软拼音输入法的测试对比程序,便于对本输入法进行改进。
本类相关论文:
统计语言模型论文 状态空间模型论文
·规则与统计相结合的蒙古文编码转换的研究与实现
·大词汇量连续语音识别系统的统计语言模型应用研究
·统计和规则相结合的语言模型在中文输入法中的应用
·中文姓名自动识别系统的设计与实现
·统计中文词法分析及其强化学习机制的研究
·中国居民消费函数研究
·基于子空间辨识的预测控制方法研究
·我国货币政策的就业效应研究
·我国就业弹性的变化趋势及影响因素分析
·吉林省农村信贷效率的实证研究
信道模型论文 中文论文
·网络控制系统的量化反馈控制研究
·MIMO信道模型及信道估计技术的研究
·临近空间低仰角测控通信中的参数估计与波束形成方
·临近空间测控通信系统调制技术研究及仿真验证
·空间选择性衰落对超短波地面测向试验的影响研究
·英汉言语行为类话语标记语的认知语用阐释
·以色列特拉维夫地区的汉语教学现状调查研究
·中文命名实体识别及若干相关问题的研究
·试论基于“教师专业化”的师范院校中文师范专业学
·中文URL信息自动提取算法的研究与实现
状态空间论文  
·基于状态空间法的金融市场微结构非线性动力学建模
·子空间辨识算法在铁水硅含量中的建模研究
·基于耦合的小型无人直升机频域建模
·基于状态空间法的多机系统次同步谐振研究
·山西城乡居民消费问题研究
 
  推荐期刊投稿
·中国药物与临床
·广播歌选
·怀化医专学报
·绿风
·护理管理杂志
·实用口腔医学杂志
·房地产导刊
·中国仪器仪表
·沈阳农业大学学报
·浙江大学学报(理学版)
 
·中国图象图形学报
·红豆
·语文研究
·小溪流(成长校园)
·海军航空工程学院学报
·油气储运
·新疆新闻出版
·医药保健杂志
·中国乡镇企业会计
·建筑热能通风空调
 
·南京工程学院学报(自然科学版)
·改革与理论
·社会
·池州学院学报
·浙江国际海运职业技术学院学报
·中国林业
·曲阜师范大学学报(自然科学版)
·农业经济
·石油教育
·现代教育科学
   免费论文
公共管理 | 法学 | 理学 | 医药学
政治 | 社会学 | 文学 | 艺术 | 哲学
工学 | 计算机 | 文化 | 英语论文
经济学 | 财政 税收 | 证券金融
管理学 | 会计审计 | 工商管理 | 教育
财务管理 | 论文写作指导 | 应用文
   收费论文
马列毛邓 | 哲学宗教 | 社会科学
政治法律 | 军 事 | 经 济
文化科学教育体育 | 语言文字
文学 | 艺术 | 历史地理 | 自然科学
数理化 | 天文 | 生物科学 | 医药卫生
农业科学 | 工业技术 | 交通运输
航空航天 | 环境安全
   浏览历史

联系论文网 | 收费论文 | 发表论文 | 论文翻译 | 友情链接 | 全部分类 | 网站地图 | 期刊导航
版权所有 2008-2018 论文天下 www.lunwentianxia.com 京ICP备08104503号