皮皮网

皮皮网

【图片视频源码】【ppyoloe源码】【大象源码】difflib源码

时间:2024-11-23 10:35:19 分类:焦点

1.snownlp和nltk什么关系
2.python基础教程 10-11例子如何执行

difflib源码

snownlp和nltk什么关系

       æ²¡ä»€ä¹ˆå…³ç³»å§ã€‚ SnowNLP的开发者在GitHub描述中提到是受TextBlobd的启发才写的SnowNLP,而这两个类库的最大区别就是SnowNLP具体实现的时候没有用nltk,主要针对中文文本处理。

python基础教程 -例子如何执行

       . 模块相关

       Python的标准安装包包括一组模块,称为标准库(standard library)。

       .1 模块

       .1.1 模块是程序

       # hello.pyprint "Hello, world!"# 保存放在C:\python# 告诉解释器在哪里寻找模块>>> import sys>>> sys.path.append('c:/python')# 这样,解释器除了从默认的目录中寻找之外,还需要从目录c:\python中寻找模块>>> import hello

       Hello, world!

       导入模块多次和导入一次的效果是一样的。如果坚持重新载入模块,图片视频源码可以使用内建的reload函数。

       .1.2 模块用于定义

       在模块中定义函数

       # hello2.pydef hello():

       print "Hello, world# 使用import hello2

       hello2.hello()

       在模块中增加测试代码

       为 “告知” 模块本身是作为程序运行还是导入到其他程序,需要使用__name__变量:

       # hello4.pydef hello():

       print "Hello, world!"def test():

       hello()if __name__ == '__main__': test()

       .1.3 让模块可用

       将模块放置在正确位置

       # 下面命令列出的路径都可以放置,但site-packages目录是最佳选择>>> import sys, pprint>>> pprint.pprint(sys.path)

       告诉编译器去哪里找

       除了编辑sys.path外,更通用的方法是设置环境变量PYTHONPATH

       .1.4 包

       当模块存储在文件中时(扩展名.py),包就是模块所在的目录。为了让Python将其作为包对待,它必须包含一个命名为__init__py的文件(模块)。如果将它作为普通模块导入的ppyoloe源码话,文件的内容就是包的内容。

       vim constants/__init__.py

       PI=3.# 别的地方引用import constantsprint constants.PI

       .2 探究模块

       .2.1 模块中有什么

       使用dir

       查看模块包含的内容,它会将对象(以及模块的所有函数、类、变量等)的所有特性列出。

       # 导入模块

       import copy# 列表推导式是个包含dir(copy)中所有不以下划线开头的名字的列表。

       [n for n in dir(copy)] if not n.startwith('_')]

       __all__变量

       这个变量包含一个列表,该列表与上一节的列表类似。

       copy.__all__1

       它定义了模块的共有接口,在编写模块的时候,像设置__all__这样的技术是相当有用的。

       __all__ = ["Error", "copy", "deepcopy"]1

       .2.2 用help获取帮助

       使用help函数,获得帮助文本。

       help(copy.copy)1

       .2.3 文档

       参考

       .2.4 使用源代码

       方案一:检查sys.path,大象源码然后自己找。

       方案二:检查模块的__file__属性

       .3 标准库

       .3.1 sys

       sys这个模块能够访问与Python解释器联系紧密的变量和函数。部分重要函数和变量如下:

       函数/变量

       描述

       argv    命令行参数,包括传递到Python解释器的参数,脚本名称    

       exit([arg])    退出当前的程序,可选参数为给定的返回值或错误信息    

       modules    映射模块名字到载入模块的字典    

       path    查找模块所在目录的目录名列表    

       platform    类似sunos5或win的平台标识符    

       stdin    标准输入流——一个类文件(file-like)对象    

       stdout    标准输出流    

       stderr    标准错误流    

       .3.2 os

       os模块提供了访问多个操作系统服务的功能。下表列出一些最有用的函数和变量。另外,os和它的子模块os.path还包含一些用于检查、构造、删除目录和文件的函数,以及一些处理路径的函数(例如,os.path.split和os.path.join让你在大部分情况下都可以忽略os.pathsep)。

       函数/变量

       描述

       environ    对环境变量进行映射    

       system(command)    在子shell中执行操作系统命令    

       sep    路径中的红心源码分隔符    

       pathsep    分隔路径的分隔符    

       linesep    行分隔符    

       urandom(n)    返回n个字节的加密强随机数据    

       .3.3 fileinput

       fileinput模块能够轻松地遍历文本文件的所有行。

       函数/变量

       描述

       input([files[, inplace[, backup]]])    便于遍历多个输入流中的行    

       filename()    返回当前文件的名称    

       lineno()    返回当前(累计)的行数    

       filelineno()    返回当前文件的行数    

       isfirstline()    检查当前行是否是文件的第一行    

       isstdin()    检查最后一行是否来自sys.stdin    

       nextfile()    关闭当前文件,移动到下一个文件    

       close()    关闭序列    

       为Python脚本添加行号

       # numberlines.pyimport fileinputfor line in fileinput.input(inplcae=True)  line = line.rstrip()  num = fileinput.lineno()

       print '%-s # %2i' % (line, num)

       .3.4 集合、堆和双端队列

       集合

       Set类位于sets模块中。非重复、无序的序列。

       堆

       堆(heap)是优先队列的一种。使用优先队列能够以任意顺序增加对象,并且能在任何时间找到最小的元素,也就是说它比用于列表的min方法要有效率得多。下面是heapq模块中重要的函数:

       函数

       描述

       heappush(heap, x)    将x入堆    

       heappop(heap)    将堆中最小的元素弹出    

       heapify(heap)    将heap属性强制应用到任意一个列表,将其转换为合法的堆    

       heapreplace(heap, x)    将堆中最小的元素弹出,同时将x入堆    

       nlargest(n, iter)    返回iter中第n大的元素    

       nsmallest(n, iter)    返回iter中第n小的元素    

       元素虽然不是严格排序的,但是也有规则:i位置处的元素总比2*i以及2*i+1位置处的元素小。这是dcn源码底层堆算法的基础,而这个特性称为堆属性(heap property)。

       双端队列(以及其他集合类型)

       双端队列(Double-ended queue)在需要按照元素增加的顺序来移除元素时非常有用。它能够有效地在开头增加和弹出元素,这是在列表中无法实现的,除此之外,使用双端队列的好处还有:能够有效地旋转(rotate)元素。deque类型包含在collections模块。

       .3.5 time

       time模块所包含的函数能够实现以下功能:获得当前时间、操作时间和日期、从字符串读取时间以及格式化时间为字符串。日期可以用实数或者包含有9个整数的元组。元组意义如下:

       索引

       字段

       值

       0    年    比如等    

       1    月    范围1~    

       2    日    范围1~    

       3    时    范围0~    

       4    分    范围0~    

       5    秒    范围0~(应付闰秒和双闰秒)    

       6    周    当周一为0时,范围0~6    

       7    儒历日    范围1~    

       8    夏令日    0、1、-1    

       time的重要函数:

       函数

       描述

       asctime([tuple])    将时间元组转换为字符串    

       localtime([secs])    将秒数转换为日期元组,以本地时间为准    

       mktime(tuple)    将时间元组转换为本地时间    

       sleep(secs)    休眠secs秒    

       strptime(string[, format])    将字符串解析为时间元组    

       time()    当前时间(新纪元开始后的秒数,以UTC为准)    

       .3.6 random

       random模块包括返回随机数的函数,可以用于模拟或者用于任何产出随机输出的程序。

       如果需要真的随机数,应该使用os模块的urandom函数。random模块内的SystemRandom类也是基于同样功能。

       函数

       描述

       random()    返回0 <= n < 1之间的随机实数n,其中0 < n <=1    

       getrandbits(n)    以长整型形式返回n个随机位    

       uniform(a, b)    返回随机实数n,其中 a <= n < b    

       randrange([start], stop, [step])    返回range(start, stop, step)中的随机数    

       choice(seq)    从序列seq中返回随机元素    

       shuffle(seq[, random])    原地指定序列seq    

       sample(seq, n)    从序列seq中选择n个随机且独立的元素    

       示例一:

       from random import *from time import

*

       date1 = (, 1, 1, 0, 0, 0, -1, -1, -1)

       time1 = mktime(date1)

       date2 = (, 1, 1, 0, 0, 0, -1, -1, -1)

       time2 = mktime(date2)

       random_time = uniform(time1, time2)print asctime(localtime(random_time))

       .3.7 shelve

       提供一个存储方案。shelve的open函数返回一个Shelf对象,可以用它来存储内容。只需要把它当做普通的字典来操作即可,在完成工作之后,调用close方法。

       import shelve

       s = shelve.open('test.dat')

       s['x'] = ['a', 'b', 'c']# 下面代码,d的添加会失败# s['x'].append('d')# s['x']# 正确应该使用如下方法:temp = s['x']

       temp.append('d')

       s['x'] = temp

       .3.8 re

       re模块包含对正则表达式的支持。

       正则表达式

       .号只能匹配一个字符(除换行符外的任何单个字符)。

       \为转义字符

       字符集:使用[]括起来,例如[a-zA-Z0-9],使用^反转字符集

       选择符(|)和子模式():例如'p(ython|erl)'

       可选项(在子模式后面加上问号)和重复子模式:例如r'(pile(pattern[, flags])    根据包含正则表达式的字符串创建模式对象    

       search(pattern, string[, flags])    在字符串中寻找模式    

       match(pattern, string[, flags])    在字符串的开始处匹配模式    

       split(pattern, string[, maxsplit=0])    根据模式的匹配项来分隔字符串    

       findall(pattern, string)    列出字符串中模式的所有匹配项    

       sub(pat, repl, string[, count=0])    将字符串中所有pat的匹配项用repl替换    

       escape(string)    将字符串中所有特殊正则表达式字符转义    

       匹配对象和组

       对于re模块中那些能够对字符串进行模式匹配的函数而言,当能找到匹配项时,返回MatchObject对象。包含了哪个模式匹配了子字符串的哪部分的信息。——这些“部分”叫做组。

       组就是放置在圆括号内的子模式。组的序号取决于它左侧的括号数。组0就是整个模式。

       re匹配对象的一些方法:

       方法

       描述

       group([group1, …])    获取给定子模式(组)的匹配项    

       start([group])    返回给定组的匹配项的开始位置    

       end([group])    返回给定组的匹配项的结束位置(和分片一样,不包括组的结束位置)    

       span([group])    返回一个组的开始和结束位置    

       作为替换的组号和函数

       示例:假设要把'*something*'用<em>something</em>替换掉:

emphasis_pattern = r'\*([^\*]+)\*'# 或者用VERBOSE标志加注释,它允许在模式中添加空白。emphasis_pattern = re.compile(r'''

                \*      # 开始的强调标签

                (       # 组开始

                [^\*]+  # 除了星号的所有字符

                )       # 组结束

                \*      # 结束的强调标签

                ''', re.VERBOSE)

       re.sub(emphasis_pattern, r'<em>\1</em>', 'Hello, *world*!')# 结果'Hello, <em>world</em>!'

       找出Email的发信人

# 示例一# 匹配内容:From: Foo Fie <foo@bar.baz># find_sender.pyimport fileinput, re

       pat = re.compile('From: (.*) <.*?>$')for line in fileinput.input():

        m = pat.match(line)  if m: print m.group(1)# 执行$ python find_sender.py message.eml# 示例二# 列出所有Email地址import fileinput, re

       pat = re.compile(r'[a-z\-\.]+@[a-z\-\.]+', re.IGNORECASE)

       addresses = set()for line in fileinput.input():  for address in pat.findall(line):

          addresses.add(address)for address in sorted(addresses):  print address

       模板系统示例

       模板是一种通过放入具体值从而得到某种已完成文本的文件。

       示例:把所有'[somethings]'(字段)的匹配项替换为通用Python表达式计算出来的something结果

'The sum of 7 and 9 is [7 + 9].'

       应该翻译成'The sum of 7 and 9 is .'

       同时,可以在字段内进行赋值

       '[name="Mr. Gumby"]Hello, [name]'

       应该翻译成'Hello, Mr. Gumby'

       代码如下

# templates.py#!/usr/bin/python# -*- coding: utf-8 -*-import fileinput, re# 匹配中括号里的字段field_pat = re.compile(r'\[(.+?)\]')# 我们将变量收集到这里scope = { }# 用于re.sub中def replacement(match):

        code = match.group(1)  try:    # 如果字段可以求值,返回它:

          return str(eval(code, scope))  except SyntaxError:    # 否则执行相同作用域内的赋值语句......

          exec code in scope    # ......返回空字符串

          return ''# 将所有文本以一个字符串的形式获取lines = []for line in fileinput.input():

        lines.append(line)

       text = ''.join(lines)# 将field模式的所有匹配项都替换掉print field_pat.sub(replacement, text)

       .3.9 其他标准模块

       functools:能够通过部分参数来使用某个函数(部分求值),稍后再为剩下的参数提供数值。

       difflib:可以计算两个序列的相似程度。还能从一些序列中(可供选择的序列列表)找出和提供的原始序列“最像”的那个。可以用于创建简单的搜索程序。

       hashlib:可以通过字符串计算小“签名”。

       csv:处理CSV文件

       timeit、profile和trace:timeit(以及它的命令行脚本)是衡量代码片段运行时间的工具。它有很多神秘的功能,应该用它代替time模块进行性能测试。profile模块(和伴随模块pstats)可用于代码片段效率的全面分析。trace模块(和程序)可以提供总的分析(覆盖率),在写测试代码时很有用。

       datetime:支持特殊的日期和时间对象,比time的接口更直观。

       itertools:有很多工具用来创建和联合迭代器(或者其他可迭代对象),还包括实现以下功能的函数:将可迭代的对象链接起来、创建返回无限连续整数的迭代器(和range类似,但没有上限),从而通过重复访问可迭代对象进行循环等等。

       logging:输出日志文件。

       getopt和optparse:在UNIX中,命令行程序经常使用不同的选项或开关运行。getopt为解决这个问题的。optparse则更新、更强大。

       cmd:可以编写命令行解释器。可以自定义命令。

       .4 新函数

       函数

       描述

       dir(obj)    返回按字母顺序排序的属性名称列表    

       help([obj])    

       reload(module)    

       . 文件

       .1 打开文件

       open函数用来打开文件,语法如下:

open(name[, mode[, buffering]])1

       .1.1 文件模式

       默认只读打开。

       值

       描述

       ‘r’    读模式    

       ‘w’    写模式    

       ‘a’    追加模式    

       ‘b’    二进制模式(可添加到其他模式中使用)    

       ‘+’    读/写模式(可添加到其他模式中使用)    

       .1.2 缓存

       open函数的第三个参数(可选)控制文件的缓冲。有缓冲时,只有使用flush或close时才会更新硬盘上的数据。

       值

       描述

       0或False    无缓冲    

       1或True    有缓冲    

       大于1的数字    缓冲区大小(字节)    

       -1或负数    默认的缓冲区大小    

       .2 基本文件方法

       .2.1 读和写

>>> f = open('somefile.txt', 'w')>>> f.write('Hello, ')>>> f.write('World!')>>> f.close()>>> f = open('somefile.txt', 'r')>>> f.read(4)  # 读取的字符数(字节)'Hell'>>> f.read()'o, World!'

       .2.2 管式输出

# somescript.pyimport systext = sys.stdin.read()words = text.split()

       wordcount = len(words)