中文维基百科模糊查询实例（巧用维基百科接口Wikipedia API）

by shinichi_wtn 2009-11-26 19:40

本科生科研基金项目最近进入了实例化阶段，需要将之前的成果做一个展示的平台，也就是我之前提到的“校园维基百科模糊查询平台”，充分利用了我们项目的成果和维基百科的接口。下面谈谈这一个星期的一些进展：可以先到http://www.bnubaike.cn/wiki.aspx体验后再阅读下文早在一年前，我就想过利用维基百科作为海量数据库的数据源，因为它的词条规模很大，中文有几十万级别，英文则达到千万级别。当时我想过制作离线维基，并下载了维基百科定期dump的xml文件，还自己写了个xml分割器将其分割成几千个小文件并建立索引，不过由于时间关系，最终没有付诸实践。现在好... [More]

Tags: wikipedia, 维基百科, 模糊查询

网站

【模糊查询】之用VS的正则表达式替换工具标准化词典

by shinichi_wtn 2008-12-19 10:51

汉语是我们的母语，每天我们都不断地与它打交道。现代汉语大词典算是中国最权威的汉语词库了，为了进行实验，下载一个汉语词典的文本文件（txt）是有必要的，而网络上这类词典非常丰富，所以该资源很容易得到。而TXT文件中的内容并不是完全符合标准，不能直接导入ACCESS数据库，首先得对TXT中的文字进行字符串替换和标准化处理，运用正则表达式来处理非常方便和快捷。下面将介绍如何处理该文件比如我下到的词典的最开头的样子如下图它有几个很明显的规律：首先，单字两侧没有“【”和“】”而每个单字前面却是“*”，即现有的单字格式为&... [More]

Tags: 正则表达式, visual studio, 模糊查询

软件

【模糊查询】之创建拼音序列

by shinichi_wtn 2008-12-19 10:07

为了实现查询中的音模糊，需要建立词库wordlist中每个词语的拼音序列，现在仅有每个单字的读音表word，所以最简单的思想��是， 1）遍历word表中每个词语 2）对特定的词语分割为单字A[i]，并在wordlist表里找到每个单字的读音B[i] 3）合并字符串B[i]得到读音序列B并添加至该词语的语音列这个直接用SQL实现比较复杂，所以我们采用C#编程实现，编程思想就是如上的3条，最后发现执行效率非常高，创建近6万字的拼音序列不到3分钟，程序如下： using System; using System.Collections.Generic; using System.T... [More]

Tags: 模糊查询, 拼音

技术

Month List

2022
- February (3)
2017
- November (1)
- July (1)
- April (2)
- January (1)
2016
- October (1)
- August (1)
- July (1)
- June (1)
- May (2)
- April (1)
- January (1)
2015
- October (1)
- February (2)
- January (1)
2014
- October (1)
- September (1)
- August (1)
- April (2)
- January (1)
2013
- November (1)
- October (1)
- June (1)
- January (1)
2012
- December (1)
- September (3)
- August (1)
- July (1)
- May (2)
- January (1)
2011
- September (1)
- July (2)
- June (1)
- May (1)
- March (1)
- February (11)
- January (3)
2010
- December (1)
- November (2)
- October (9)
- September (4)
- August (5)
- July (3)
- June (3)
- May (4)
- April (5)
- March (5)
- February (6)
- January (6)
2009
- December (8)
- November (12)
- October (14)
- July (2)
- June (2)
- April (3)
- March (2)
- February (8)
- January (5)
2008
- December (3)
- November (2)
- October (2)
- September (4)
- August (9)
- July (7)
- June (2)
- May (2)
- April (2)
- March (1)
- February (3)
- January (2)
2007
- December (3)
- November (2)
- October (1)
- September (2)
- August (2)
- July (5)
- June (7)
- May (3)
- April (3)
- March (2)
- February (9)
- January (9)
2006
- December (11)
- November (5)
- October (8)
- September (11)
- August (7)
- January (1)

中文维基百科模糊查询实例（巧用维基百科接口Wikipedia API）

【模糊查询】之用VS的正则表达式替换工具标准化词典

【模糊查询】之创建拼音序列

About

Recent Tweets

Month List

Recent Posts

中文维基百科模糊查询实例（巧用维基百科接口Wikipedia API）

【模糊查询】之用VS的正则表达式替换工具标准化词典

【模糊查询】之创建拼音序列

About

Recent Tweets

Category list

Month List

Tag cloud

Recent Posts