Python中一些自然语言工具的使用的入门教程

2026-05-13 11:32:59

NLTK 是使用 Python 教学以及实践计算语言学的极好工具。此外，计算语言学与人工智能、语言/专门语言识别、翻译以及语法检查等领域关系密切。
NLTK 包括什么

NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上。那些熟悉人工语言（比如 Python）的文法和解析的读者来说，理解自然语言模型中类似的 —— 但更深奥的 —— 层不会有太大困难。
术语表

全集（Corpora）：相关文本的集合。例如，莎士比亚的作品可能被统称为一个文集（corpus）；而若干个作者的作品称为全集。

直方图（Histogram）：数据集中不同单词、字母或其他条目的出现频率的统计分布。

结构（Syntagmatic）：对语段的研究；也就是全集中字母、单词或短语连续出现的统计关系。

上下文无关语法（Context-free grammar）：由四类形式语法构成的 Noam Chomsky 层级中的第二类。参阅参考资料以获得详尽描述。

尽管 NLTK 附带了很多已经预处理（通常是手工地）到不同程度的全集，但是概念上每一层都是依赖于相邻的更低层次的处理。首先是断词；然后是为单词加上标签；然后将成组的单词解析为语法元素，比如名词短语或句子（取决于几种技术中的某一种，每种技术都有其优缺点）；最后对最终语句或其他语法单元进行分类。通过这些步骤，NLTK 让您可以生成关于不同元素出现情况的统计，并画出描述处理过程本身或统计合计结果的图表。

在本文中，您将看到关于低层能力的一些相对完整的示例，而对大部分高层次能力将只是进行简单抽象的描述。现在让我们来详细分析文本处理的首要步骤。

断词（Tokenization）

您可以使用 NLTK 完成的很多工作，尤其是低层的工作，与使用 Python 的基本数据结构来完成相比，并没有太大的区别。不过，NLTK 提供了一组由更高的层所依赖和使用的系统化的接口，而不只是简单地提供实用的类来处理加过标志或加过标签的文本。

具体讲， nltk.tokenizer.Token 类被广泛地用于存储文本的有注解的片断；这些注解可以标记很多不同的特性，包括词类（parts-of-speech）、子标志（subtoken）结构、一个标志（token）在更大文本中的偏移位置、语形词干（morphological stems）、文法语句成分，等等。实际上，一个 Token 是一种特别的字典 —— 并且以字典形式访问 —— 所以它可以容纳任何您希望的键。在 NLTK 中使用了一些专门的键，不同的键由不同的子程序包所使用。

让我们来简要地分析一下如何创建一个标志并将其拆分为子标志：
清单 1. 初识 nltk.tokenizer.Token 类

>>> from nltk.tokenizer import *
>>> t = Token(TEXT='This is my first test sentence')
>>> WSTokenizer().tokenize(t, addlocs=True) # break on whitespace
>>> print t['TEXT']
This is my first test sentence
>>> print t['SUBTOKENS']
[<This>@[0:4c], <is>@[5:7c], <my>@[8:10c], <first>@[11:16c],
<test>@[17:21c], <sentence>@[22:30c]]
>>> t['foo'] = 'bar'
>>> t
<TEXT='This is my first test sentence', foo='bar',
SUBTOKENS=[<This>@[0:4c], <is>@[5:7c], <my>@[8:10c], <first>@[11:16c],
<test>@[17:21c], <sentence>@[22:30c]]>
>>> print t['SUBTOKENS'][0]
<This>@[0:4c]
>>> print type(t['SUBTOKENS'][0])
<class 'nltk.token.SafeToken'>

概率（Probability）

对于语言全集，您可能要做的一件相当简单的事情是分析其中各种事件（events）的频率分布，并基于这些已知频率分布做出概率预测。NLTK 支持多种基于自然频率分布数据进行概率预测的方法。我将不会在这里介绍那些方法（参阅参考资料中列出的概率教程），只要说明您肯定会期望的那些与您已经知道的那些（不止是显而易见的缩放比例/正规化）之间有着一些模糊的关系就够了。

基本来讲，NLTK 支持两种类型的频率分布：直方图和条件频率分布（conditional frequency）。 nltk.probability.FreqDist 类用于创建直方图；例如，可以这样创建一个单词直方图：
清单 2. 使用 nltk.probability.FreqDist 创建基本的直方图

>>> from nltk.probability import *
>>> article = Token(TEXT=open('cp-b17.txt').read())
>>> WSTokenizer().tokenize(article)
>>> freq = FreqDist()
>>> for word in article['SUBTOKENS']:
...   freq.inc(word['TEXT'])
>>> freq.B()
1194
>>> freq.count('Python')
12

概率教程讨论了关于更复杂特性的直方图的创建，比如“以元音结尾的词后面的词的长度”。 nltk.draw.plot.Plot 类可用于直方图的可视化显示。当然，您也可以这样分析高层次语法特性或者甚至是与 NLTK 无关的数据集的频率分布。

条件频率分布可能比普通的直方图更有趣。条件频率分布是一种二维直方图 —— 它按每个初始条件或者“上下文”为您显示一个直方图。例如，教程提出了一个对应每个首字母的单词长度分布问题。我们就以这样分析：
清单 3. 条件频率分布：对应每个首字母的单词长度

>>> cf = ConditionalFreqDist()
>>> for word in article['SUBTOKENS']:
...   cf[word['TEXT'][0]].inc(len(word['TEXT']))
...
>>> init_letters = cf.conditions()
>>> init_letters.sort()
>>> for c in init_letters[44:50]:
...   print "Init %s:" % c,
...   for length in range(1,6):
...     print "len %d/%.2f," % (length,cf[c].freq(n)),
...   print
...
Init a: len 1/0.03, len 2/0.03, len 3/0.03, len 4/0.03, len 5/0.03,
Init b: len 1/0.12, len 2/0.12, len 3/0.12, len 4/0.12, len 5/0.12,
Init c: len 1/0.06, len 2/0.06, len 3/0.06, len 4/0.06, len 5/0.06,
Init d: len 1/0.06, len 2/0.06, len 3/0.06, len 4/0.06, len 5/0.06,
Init e: len 1/0.18, len 2/0.18, len 3/0.18, len 4/0.18, len 5/0.18,
Init f: len 1/0.25, len 2/0.25, len 3/0.25, len 4/0.25, len 5/0.25,

条件频率分布在语言方面的一个极好应用是分析全集中的语段分布 —— 例如，给出一个特定的词，接下来最可能出现哪个词。当然，语法会带来一些限制；不过，对句法选项的选择的研究属于语义学、语用论和术语范畴。

词干提取（Stemming）

nltk.stemmer.porter.PorterStemmer 类是一个用于从英文单词中获得符合语法的（前缀）词干的极其便利的工具。这一能力尤其让我心动，因为我以前曾经用 Python 创建了一个公用的、全文本索引的搜索工具/库（见 Developing a full-text indexer in Python 中的描述，它已经用于相当多的其他项目中）。

尽管对大量文档进行关于一组确切词的搜索的能力是非常实用的（ gnosis.indexer 所做的工作），但是，对很多搜索用图而言，稍微有一些模糊将会有所帮助。也许，您不能特别确定您正在寻找的电子邮件是否使用了单词 “complicated”、“complications”、“complicating”或者“complicates”，但您却记得那是大概涉及的内容（可能与其他一些词共同来完成一次有价值的搜索）。

NLTK 中包括一个用于单词词干提取的极好算法，并且让您可以按您的喜好定制词干提取算法：
清单 4. 为语形根（morphological roots）提取单词词干

>>> from nltk.stemmer.porter import PorterStemmer
>>> PorterStemmer().stem_word('complications')
'complic'

实际上，您可以怎样利用 gnosis.indexer 及其衍生工具或者完全不同的索引工具中的词干提取功能，取决于您的使用情景。幸运的是，gnosis.indexer 有一个易于进行专门定制的开放接口。您是否需要一个完全由词干构成的索引？或者您是否在索引中同时包括完整的单词和词干？您是否需要将结果中的词干匹配从确切匹配中分离出来？在未来版本的 gnosis.indexer 中我将引入一些种类词干的提取能力，不过，最终用户可能仍然希望进行不同的定制。

无论如何，一般来说添加词干提取是非常简单的：首先，通过特别指定 gnosis.indexer.TextSplitter 来从一个文档中获得词干；然后，当然执行搜索时，（可选地）在使用搜索条件进行索引查找之前提取其词干，可能是通过定制您的 MyIndexer.find() 方法来实现。

在使用 PorterStemmer 时我发现 nltk.tokenizer.WSTokenizer 类确实如教程所警告的那样不好用。它可以胜任概念上的角色，但是对于实际的文本而言，您可以更好地识别出什么是一个 “单词”。幸运的是， gnosis.indexer.TextSplitter 是一个健壮的断词工具。例如：
清单 5. 基于拙劣的 NLTK 断词工具进行词干提取

>>> from nltk.tokenizer import *
>>> article = Token(TEXT=open('cp-b17.txt').read())
>>> WSTokenizer().tokenize(article)
>>> from nltk.probability import *
>>> from nltk.stemmer.porter import *
>>> stemmer = PorterStemmer()
>>> stems = FreqDist()
>>> for word in article['SUBTOKENS']:
...   stemmer.stem(word)
...   stems.inc(word['STEM'].lower())
...
>>> word_stems = stems.samples()
>>> word_stems.sort()
>>> word_stems[20:40]
['"generator-bas', '"implement', '"lazili', '"magic"', '"partial',
'"pluggable"', '"primitives"', '"repres', '"secur', '"semi-coroutines."',
'"state', '"understand', '"weightless', '"whatev', '#', '#-----',
'#----------', '#-------------', '#---------------', '#b17:']

查看一些词干，集合中的词干看起来并不是都可用于索引。很多根本不是实际的单词，还有其他一些是用破折号连接起来的组合词，单词中还被加入了一些不相干的标点符号。让我们使用更好的断词工具来进行尝试：
清单 6. 使用断词工具中灵巧的启发式方法来进行词干提取

>>> article = TS().text_splitter(open('cp-b17.txt').read())
>>> stems = FreqDist()
>>> for word in article:
...   stems.inc(stemmer.stem_word(word.lower()))
...
>>> word_stems = stems.samples()
>>> word_stems.sort()
>>> word_stems[60:80]
['bool', 'both', 'boundari', 'brain', 'bring', 'built', 'but', 'byte',
'call', 'can', 'cannot', 'capabl', 'capit', 'carri', 'case', 'cast',
'certain', 'certainli', 'chang', 'charm']

在这里，您可以看到有一些单词有多个可能的扩展，而且所有单词看起来都像是单词或者词素。断词方法对随机文本集合来说至关重要；公平地讲，NLTK 捆绑的全集已经通过 WSTokenizer() 打包为易用且准确的断词工具。要获得健壮的实际可用的索引器，需要使用健壮的断词工具。

添加标签（tagging）、分块（chunking）和解析（parsing）

NLTK 的最大部分由复杂程度各不相同的各种解析器构成。在很大程度上，本篇介绍将不会解释它们的细节，不过，我愿意大概介绍一下它们要达成什么目的。

不要忘记标志是特殊的字典这一背景 —— 具体说是那些可以包含一个 TAG 键以指明单词的语法角色的标志。NLTK 全集文档通常有部分专门语言已经预先添加了标签，不过，您当然可以将您自己的标签添加到没有加标签的文档。

分块有些类似于“粗略解析”。也就是说，分块工作的进行，或者基于语法成分的已有标志，或者基于您手工添加的或者使用正则表达式和程序逻辑半自动生成的标志。不过，确切地说，这不是真正的解析（没有同样的生成规则）。例如：
清单 7. 分块解析/添加标签：单词和更大的单位

>>> from nltk.parser.chunk import ChunkedTaggedTokenizer
>>> chunked = "[ the/DT little/JJ cat/NN ] sat/VBD on/IN [ the/DT mat/NN ]"
>>> sentence = Token(TEXT=chunked)
>>> tokenizer = ChunkedTaggedTokenizer(chunk_node='NP')
>>> tokenizer.tokenize(sentence)
>>> sentence['SUBTOKENS'][0]
(NP: <the/DT> <little/JJ> <cat/NN>)
>>> sentence['SUBTOKENS'][0]['NODE']
'NP'
>>> sentence['SUBTOKENS'][0]['CHILDREN'][0]
<the/DT>
>>> sentence['SUBTOKENS'][0]['CHILDREN'][0]['TAG']
'DT'
>>> chunk_structure = TreeToken(NODE='S', CHILDREN=sentence['SUBTOKENS'])
(S:
 (NP: <the/DT> <little/JJ> <cat/NN>)
 <sat/VBD>
 <on/IN>
 (NP: <the/DT> <mat/NN>))

所提及的分块工作可以由 nltk.tokenizer.RegexpChunkParser 类使用伪正则表达式来描述构成语法元素的一系列标签来完成。这里是概率教程中的一个例子：
清单 8. 使用标签上的正则表达式进行分块

>>> rule1 = ChunkRule('<DT>?<JJ.*>*<NN.*>',
...        'Chunk optional det, zero or more adj, and a noun')
>>> chunkparser = RegexpChunkParser([rule1], chunk_node='NP', top_node='S')
>>> chunkparser.parse(sentence)
>>> print sent['TREE']
(S: (NP: <the/DT> <little/JJ> <cat/NN>)
 <sat/VBD> <on/IN>
 (NP: <the/DT> <mat/NN>))

真正的解析将引领我们进入很多理论领域。例如，top-down 解析器可以确保找到每一个可能的产品，但可能会非常慢，因为要频繁地（指数级）进行回溯。Shift-reduce 效率更高，但是可能会错过一些产品。不论在哪种情况下，语法规则的声明都类似于解析人工语言的语法声明。本专栏曾经介绍了其中的一些： SimpleParse 、 mx.TextTools 、 Spark 和 gnosis.xml.validity （参阅参考资料）。

甚至，除了 top-down 和 shift-reduce 解析器以外，NLTK 还提供了“chart 解析器”，它可以创建部分假定，这样一个给定的序列就可以继而完成一个规则。这种方法可以是既有效又完全的。举一个生动的（玩具级的）例子：
清单 9. 为上下文无关语法定义基本的产品

>>> from nltk.parser.chart import *
>>> grammar = CFG.parse('''
...  S -> NP VP
...  VP -> V NP | VP PP
...  V -> "saw" | "ate"
...  NP -> "John" | "Mary" | "Bob" | Det N | NP PP
...  Det -> "a" | "an" | "the" | "my"
...  N -> "dog" | "cat" | "cookie"
...  PP -> P NP
...  P -> "on" | "by" | "with"
...  ''')
>>> sentence = Token(TEXT='John saw a cat with my cookie')
>>> WSTokenizer().tokenize(sentence)
>>> parser = ChartParser(grammar, BU_STRATEGY, LEAF='TEXT')
>>> parser.parse_n(sentence)
>>> for tree in sentence['TREES']: print tree
(S:
 (NP: <John>)
 (VP:
  (VP: (V: <saw>) (NP: (Det: <a>) (N: <cat>)))
  (PP: (P: <with>) (NP: (Det: <my>) (N: <cookie>)))))
(S:
 (NP: <John>)
 (VP:
  (V: <saw>)
  (NP:
   (NP: (Det: <a>) (N: <cat>))
   (PP: (P: <with>) (NP: (Det: <my>) (N: <cookie>))))))

probabilistic context-free grammar（或者说是 PCFG）是一种上下文无关语法，它将其每一个产品关联到一个概率。同样，用于概率解析的解析器也捆绑到了 NLTK 中。

您在等待什么？

NLTK 还有其他本篇简短介绍中不能涵盖的重要功能。例如，NLTK 有一个完整的框架，用于通过类似于“naive Bayesian” 和“maximum entropy”等模型的统计技术进行文本分类。即使还有篇幅，现在我也还不能解释其本质。不过，我认为，即使是 NLTK 较低的层，也可以成为一个既可用于教学应用程序也可用于实际应用程序的实用框架。

python入门之语句(if语句、while语句、for语句)

python入门之语句,包括if语句.while语句.for语句,供python初学者参考. //if语句例子 name = 'peirong'; if name == 'peirong': print 'this is peirong'; elif name== 'maojun': print 'this is maojun'; else: print 'others'; //while语句 i = 0; a = range(10); while i < a.__len__(): print
通过C++学习Python

我会随便说,C++ 近年来开始"抄袭" Python 么?我只会说,我在用 C++ 来学习 Python. 不信?来跟着我学? 字面量 Python 早在 2.6 版本中就支持将二进制作为字面量了1, 最近 C++14 逐步成熟,刚刚支持这么干2: 复制代码代码如下: static const int primes = 0b10100000100010100010100010101100; 更不用说 Python 在 1.5 时代就有了 raw string literals 的概念
Python中字典和JSON互转操作实例

JSON是一种轻量级的数据交换格式,各种语言都有良好的支持.字典是Python的一种数据结构.可以看成关联数组. 有些时候我们需要设计到字典转换成JSON序列化到文件,或者从文件中读取JSON.简单备忘一下. Dict转JSON写入文件复制代码代码如下: #!/usr/bin/env python # coding=utf-8 import json d = {'first': 'One', 'second':2} json.dump(d, open('/tmp/result.txt', '
Python中一些自然语言工具的使用的入门教程

NLTK 是使用 Python 教学以及实践计算语言学的极好工具.此外,计算语言学与人工智能.语言/专门语言识别.翻译以及语法检查等领域关系密切. NLTK 包括什么 NLTK 会被自然地看作是具有栈结构的一系列层,这些层构建于彼此基础之上.那些熟悉人工语言(比如 Python)的文法和解析的读者来说,理解自然语言模型中类似的 -- 但更深奥的 -- 层不会有太大困难. 术语表全集(Corpora):相关文本的集合.例如,莎士比亚的作品可能被统称为一个文集(corpus): 而若干个作者
Python中强大的命令行库click入门教程

前言我们的游戏资源处理工具是Python实现的,功能包括csv解析,UI材质处理,动画资源解析.批处理,Androd&iOS自动打包等功能.该项目是由其他部门继承过来的,由于绝大部分代码不符合我们的业务需求,所以进行了大重构.删除了所有业务代码,仅保留了python代码框架.项目中命令行参数解析是自己实现的,极其不优雅,也忍了这么久.打算找时间用click重写.所以最近学习了click,下面本文的内容是click的入门教程,初学者们可以来一起学习学习. 官网镜像地址: http://click
使用Python中的线程进行网络编程的入门教程

引言对于 Python 来说,并不缺少并发选项,其标准库中包括了对线程.进程和异步 I/O 的支持.在许多情况下,通过创建诸如异步.线程和子进程之类的高层模块,Python 简化了各种并发方法的使用.除了标准库之外,还有一些第三方的解决方案,例如 Twisted.Stackless 和进程模块.本文重点关注于使用 Python 的线程,并使用了一些实际的示例进行说明.虽然有许多很好的联机资源详细说明了线程 API,但本文尝试提供一些实际的示例,以说明一些常见的线程使用模式. 全局解释器锁 (G
详解Python中的测试工具

当我们在写程序的时候,我们需要通过测试来验证程序是否出错或者存在问题,但是,编写大量的测试来确保程序的每个细节都没问题会显得很繁琐.在Python中,我们可以借助一些标准模块来帮助我们自动完成测试过程,比如: unittest: 一个通用的测试框架: doctest: 一个更简单的模块,是为检查文档而设计的,但也非常适合用来编写单元测试. 下面,笔者将会简单介绍这两个模块在测试中的应用. doctest doctest模块会搜索那些看起来像是python交互式会话中的代码片段,然后尝试执行并验证
Python中zipfile压缩文件模块的基本使用教程

zipfile Python 中 zipfile 模块提供了对 zip 压缩文件的一系列操作. f=zipfile.ZipFile("test.zip",mode="") //解压是 r , 压缩是 w 追加压缩是 a mode的几种: 解压:r 压缩:w 追加压缩:a 压缩一个文件创建一个压缩文件 test.zip(如果test.zip文件不存在) ,然后将 test.txt 文件加入到压缩文件 test.zip 中,如果原来的压缩文件中有内容,会清除原有的内容
Python中的Numeric包和Numarray包使用教程

要了解 Numerical Python 软件包的第一件事情是,Numerical Python 不会让您去做标准 Python 不能完成的任何工作.它只是让您以快得多的速度去完成标准 Python 能够完成的相同任务.实际上不仅仅如此:许多数组操作用 Numeric 或者 Numarray 来表达比起用标准 Python 数据类型和语法来表达要优雅得多.不过,惊人的速度才是吸引用户使用 Numerical Python 的主要原因. 其实,Numerical Python 只是实现了一个新的
python中open函数对文件处理的使用教程

目录 1.open() 1.1 参数1 1.2 参数2 1.3 参数3 2.with open() as 3.open函数常用的方法 3.1 读 3.2 写 3.3 获取文件读写类型 3.4 指针移动 3.5 当前指针位置 3.6 truncate 总结在python中使用open函数对文件进行处理. 1.open() python打开文件使用open()函数,返回一个指向文件的指针.该函数常用以下三个参数. 1.1 参数1 目标文件的路径+名字.最好使用r"路径"这种原始字符串写法
Python编程使用matplotlib挑钻石seaborn画图入门教程

目录 scatter_plot lmplot jointplot 挑钻石第二弹 seaborn是matplotlib的补充包,提供了一系列高颜值的figure,并且集成了多种在线数据集,通过sns.load_dataset()进行调用,可供学习,如果网络不稳定,可下载到本地,然后在调用的时候使用把cache设为True. scatter_plot 官方的示例就很不错,绘制了diamonds数据集中的钻石数据.diamonds中总共包含十项数据,分别是重量/克拉.切割水平.颜色.透明度.深度.ta
进一步了解Python中的XML 工具

模块:xmllib xmllib 是一个非验证的低级语法分析器.应用程序员使用的 xmllib 可以覆盖 XMLParser 类,并提供处理文档元素(如特定或类属标记,或字符实体)的方法.从 Python 1.5x 到 Python 2.0+ 以来, xmllib 的使用方法并没变化:在绝大多数情况下更好的选择是使用 SAX 技术,它也是种面向流的技术,对语言和开发者来说更为标准. 本文中的示例与原来专栏中的相同:包括一个叫做 quotations.dtd 的 DTD 以及这个 DTD 的文档
Python自然语言处理 NLTK 库用法入门教程【经典】

本文实例讲述了Python自然语言处理 NLTK 库用法.分享给大家供大家参考,具体如下: 在这篇文章中,我们将基于 Python 讨论自然语言处理(NLP).本教程将会使用 Python NLTK 库.NLTK 是一个当下流行的,用于自然语言处理的 Python 库. 那么 NLP 到底是什么?学习 NLP 能带来什么好处? 简单的说,自然语言处理( NLP )就是开发能够理解人类语言的应用程序和服务. 我们生活中经常会接触的自然语言处理的应用,包括语音识别,语音翻译,理解句意,理解特定词语的

Python中一些自然语言工具的使用的入门教程

相关推荐

随机推荐