词典数据库中的词条结构

在词典数据库中,单词含有两种类型的数据,即对应.csv文件的 baseextension

base 库的结构

base 库的结构中,同一个词条包含了一个或多个释义,释义即词类及其含义构成了的对象。(见图1):

(图1:base 数据库结构)

每个词条所包含的重要信息有:

  • 词头信息,即词典的lemma, 如:make, cake 等

  • 句法信息 即 词类(part of speech), 例如,名词,动词,形容词等。

  • 语义信息 即 含义。

Notice: 句法信息和语义信息构成了一组对象,某些单词若包含不同词类,则每个词类+相应的含义构成单独对象。 这些信息是如何分布在词条结构中,参见单词dream(见图2):

(图2:dream在数据库中的结构)

从上图可以看出,在base库中,所有对象都置于 explanation 标签下面,一组对象包含 pos 和meaning 两个字段。

extension 库的结构

首先,extension主要是针对动词,名词和形容词而言,在extension库中,单词被分为三种类型:

noun_extension

verbs_extension

adj_extension

着三种类型也对应.csv中的三个文件。

因此,extension库中的数据结构是单一型的,每个单词根据其类别只包含一个对象,即:

动词 extension:

  • 词头信息, 即词典的lemma, 例如:think, show 等

  • 形态信息,即动词第三人称单数,过去时,过去分词,现在分析

名词 extension:

  • 词头信息,即词典的lemma, 例如:computer,paper等等

  • 形态信息,即名词的单数和复数

形容词 extension:

  • 词头信息,即词典的lemma, 例如:small, big等等

  • 形态信息,即形容词的比较级和最高级

这些信息如何分布在词条结构中,参见 图3—图5 :

(图3:动词take 的extension结构)
(图4:名词computer 的extension 结构)
(图5:形容词dark 的extension 结构)

综上所述,在extension库中,对象包含在extension标签中,根据不同词类,对象包含不同的形态变化信息。

Last updated

Was this helpful?