中文维基百科模糊查询实例(巧用维基百科接口Wikipedia API)

by shinichi_wtn 2009-11-26 19:40
本科生科研基金项目最近进入了实例化阶段,需要将之前的成果做一个展示的平台,也就是我之前提到的“校园维基百科模糊查询平台”,充分利用了我们项目的成果和维基百科的接口。下面谈谈这一个星期的一些进展:可以先到http://www.bnubaike.cn/wiki.aspx体验后再阅读下文 早在一年前,我就想过利用维基百科作为海量数据库的数据源,因为它的词条规模很大,中文有几十万级别,英文则达到千万级别。当时我想过制作离线维基,并下载了维基百科定期dump的xml文件,还自己写了个xml分割器将其分割成几千个小文件并建立索引,不过由于时间关系,最终没有付诸实践。 现在好... [More]

【模糊查询】之用VS的正则表达式替换工具标准化词典

by shinichi_wtn 2008-12-19 10:51
汉语是我们的母语,每天我们都不断地与它打交道。现代汉语大词典算是中国最权威的汉语词库了,为了进行实验,下载一个汉语词典的文本文件(txt)是有必要的,而网络上这类词典非常丰富,所以该资源很容易得到。而TXT文件中的内容并不是完全符合标准,不能直接导入ACCESS数据库,首先得对TXT中的文字进行字符串替换和标准化处理,运用正则表达式来处理非常方便和快捷。下面将介绍如何处理该文件 比如我下到的词典的最开头的样子如下图 它有几个很明显的规律:首先,单字两侧没有“【”和“】”而每个单字前面却是“*”,即现有的单字格式为&... [More]

【模糊查询】之创建拼音序列

by shinichi_wtn 2008-12-19 10:07
为了实现查询中的音模糊,需要建立词库wordlist中每个词语的拼音序列,现在仅有每个单字的读音表word,所以最简单的思想���是, 1)遍历word表中每个词语 2)对特定的词语分割为单字A[i],并在wordlist表里找到每个单字的读音B[i] 3)合并字符串B[i]得到读音序列B并添加至该词语的语音列 这个直接用SQL实现比较复杂,所以我们采用C#编程实现,编程思想就是如上的3条,最后发现执行效率非常高,创建近6万字的拼音序列不到3分钟,程序如下: using System; using System.Collections.Generic; using System.T... [More]

About

shinichi_wtnI'm Shinichi_wtn

Software Engineering Manager at Microsoft

[More...]


Month List