灵玖软件:NLPIR语义技术深度挖掘中文信息应用
数据挖掘 大数据 人工智能
-
成交量
-
综合评价
-
-
好评率
应用场景 - 文字处理软件 、 软件插件开发 、 智能软件 、 安全与保密软件 、 医疗教育 、 金融贸易
随着科学技术的发展,中文信息处理已经深入到了社会生活的各方面。广泛的应用对中文信息处理技术也提出了较高的要求。
中文信息处理是有关中文信息的采集、存储、传输和利用,是指利用电子计算机和现代通信、照明、排版、等自动化技术对汉字信息进行输入输出整理、加工、转换、传输、复制、等各种处理的一项新兴的科学技术。其交叉性使之成为“信息科学”的分支;其综合性应用使之成为“系统工程”的一个实例。它涉及到语言文字学、计算机科学、信息科学、工程心理学、数理统计学、声学、自动识别技术、人工智能、网络技术、文献检索学等等。故可以说它是一门新兴的多边缘科学。
中文信息处理在许多方面有自己的特点。
1、汉字的特殊性
西方语言只有几十个字母。而汉字由于数量大且字形复杂,也给计算机处理带来了困难。汉字信息处理是中文信息处理的关键和基础,包括汉字信息的输入、汉字信息的加工和汉字信息的输出等方面,其难点是汉字编码问题。根据在汉字信息处理过程中的不同要求,汉字有多种编码,主要可以分为四类,即汉字输入编码,汉字标准编码,汉字内码和汉字形码。
2、书面汉语的特殊性
书面汉语中,词跟记号之间没有分隔标记,自动分词成为书面汉语分析的第一道难关。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。
3、汉语语音的特殊性
汉语语音的特点是音节结构简单,音节界限分明,但有声调和变调等问题,对于语音识别和语音合成来说,既有有利的一面, 也有不利的一面。
4、汉语语法的特殊性 汉语形态贫乏,难以凭借形态来确定词的句法功能,词序和虚词是主要的语法手段,句法歧义特别复杂,使得汉语语句自动分析这一关键技术迟迟不能取得突破。
另外,现有的自然语言处理理论和技术大多都是以英语为研究对象语言发展起来的。而汉语无论在语音、文字表示,还是在词汇、语法、语义及其语用等各个层面上,都与之存在着很大的差异。这使得无法直接套用西方已成熟的理论和技术,汉语无疑是计算模型比较不发达的语言。这对从事中文信息处理的研究者来说是一个巨大的挑战和压力。
北京理工大学大数据搜索与挖掘实验室张华平主任研发的NLPIR大数据语义智能分析技术是满足大数据挖掘对语法、词法和语义的综合应用。NLPIR大数据语义智能分析平台是根据中文数据挖掘的综合需求,融合了网络精准采集、自然语言理解、文本挖掘和语义搜索的研究成果,并针对互联网内容处理的全技术链条的共享开发平台。
NLPIR大数据语义智能分析平台主要有精准采集、文档转化、新词发现、批量分词、语言统计、文本聚类、文本分类、摘要实体、智能过滤、情感分析、文档去重、全文检索、编码转换等十余项功能模块,平台提供了客户端工具,云服务与二次开发接口等多种产品使用形式。各个中间件API可以无缝地融合到客户的各类复杂应用系统之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系统平台,可以供Java,Python,C,C#等各类开发语言使用。
数据挖掘技术及其应用是目前国际上的一个研究热点,并在许多行业中得到了很好的应用,尤其是在市场营销中获得了成功,初步体现了其优越性和发展潜力。在信息管理领域,综合应用数据挖掘技术和人工智能技术,获取用户知识、文献知识等各类知识,将是实现知识检索和知识管理发展的必经之路。
- 综合得分0.00
- 技术能力0.00
- 完成质量0.00
- 如期兑现0.00
- 响应速度0.00
- 沟通能力0.00
- 合作精神0.00