torchtext的用法介绍

这篇文章主要讲解了“torchtext的用法介绍”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“torchtext的用法介绍”吧！

成都创新互联公司从2013年开始，先为和布克赛尔蒙古等服务建站，和布克赛尔蒙古等地企业，进行企业商务咨询服务。为和布克赛尔蒙古企业网站制作PC+手机+微官网三网同步一站式服务解决您的所有建站问题。

torchtext包含以下组件

Field :主要包含以下数据预处理的配置信息，比如指定分词方法，是否转成小写，起始字符，结束字符，补全字符以及词典等等

Dataset :继承自pytorch的Dataset，用于加载数据，提供了TabularDataset可以指点路径，格式，Field信息就可以方便的完成数据加载。同时torchtext还提供预先构建的常用数据集的Dataset对象，可以直接加载使用，splits方法可以同时加载训练集，验证集和测试集。

Iterator : 主要是数据输出的模型的迭代器，可以支持batch定制。

Field

Field 包含一写文本处理的通用参数的设置，同时还包含一个词典对象，可以把文本数据表示成数字类型，进而可以把文本表示成需要的tensor类型

以下是Field对象包含的参数：

sequential: 是否把数据表示成序列，如果是False, 不能使用分词默认值: True.

use_vocab: 是否使用词典对象. 如果是False 数据的类型必须已经是数值类型. 默认值: True.

init_token: 每一条数据的起始字符默认值: None.

eos_token: 每条数据的结尾字符默认值: None.

fix_length: 修改每条数据的长度为该值，不够的用pad_token补全. 默认值: None.

tensor_type: 把数据转换成的tensor类型默认值: torch.LongTensor.

preprocessing:在分词之后和数值化之前使用的管道默认值: None.

postprocessing: 数值化之后和转化成tensor之前使用的管道默认值: None.

lower: 是否把数据转化为小写默认值: False.

tokenize: 分词函数. 默认值: str.split.

include_lengths: 是否返回一个已经补全的最小batch的元组和和一个包含每条数据长度的列表 . 默认值: False.

batch_first: Whether to produce tensors with the batch dimension first. 默认值: False.

pad_token: 用于补全的字符. 默认值: "".

unk_token: 不存在词典里的字符. 默认值: "".

pad_first: 是否补全第一个字符. 默认值: False.

重要的几个方法：

pad(minibatch): 在一个batch对齐每条数据

build_vocab(): 建立词典

numericalize(): 把文本数据数值化，返回tensor

简单的栗子如下，建一个Field对象

TEXT = data.Field(tokenize=data.get_tokenizer('spacy'), 
                  init_token='', eos_token='',lower=True)

Dataset

torchtext的Dataset是继承自pytorch的Dataset，提供了一个可以下载压缩数据并解压的方法（支持.zip, .gz, .tgz）

splits方法可以同时读取训练集，验证集，测试集

TabularDataset可以很方便的读取CSV, TSV, or JSON格式的文件，例子如下：

train, val, test = data.TabularDataset.splits(path='./data/', train='train.tsv',validation='val.tsv', test='test.tsv', format='tsv',fields=[('Text', TEXT), ('Label', LABEL)])

加载数据后可以建立词典，建立词典的时候可以使用预训练的word vector

TEXT.build_vocab(train, vectors="glove.6B.100d")

Iterator

Iterator是torchtext到模型的输出，它提供了我们对数据的一般处理方式，比如打乱，排序，等等，可以动态修改batch大小，这里也有splits方法可以同时输出训练集，验证集，测试集

参数如下：

dataset: 加载的数据集

batch_size: Batch 大小.

batch_size_fn: 产生动态的batch大小的函数

sort_key: 排序的key

train: 是否是一个训练集

repeat: 是否在不同epoch中重复迭代

shuffle: 是否打乱数据

sort: 是否对数据进行排序

sort_within_batch: batch内部是否排序

device: 建立batch的设备 -1:CPU ；0,1 ...：对应的GPU

使用方式如下：

train_iter, val_iter, test_iter = data.Iterator.splits((train, val, test), sort_key=lambda x: len(x.Text),batch_sizes=(32, 256, 256), device=-1)

其它

torchtext提供常用文本数据集，并可以直接加载使用：

train,val,test = datasets.WikiText2.splits(text_field=TEXT)

现在包含的数据集包括：

Sentiment analysis: SST and IMDb
Question classification: TREC
Entailment: SNLI
Language modeling: WikiText-2
Machine translation: Multi30k, IWSLT, WMT14

完整例子如下，短短几行就把词典和数据batch做好了。

import spacyimport torchfrom torchtext import data, datasetsspacy_en = spacy.load('en')def tokenizer(text): # create a tokenizer functionreturn [tok.text for tok in spacy_en.tokenizer(text)]TEXT = data.Field(sequential=True, tokenize=tokenizer, lower=True, fix_length=150)LABEL = data.Field(sequential=False, use_vocab=False)train, val, test = data.TabularDataset.splits(path='./data/', train='train.tsv',validation='val.tsv', test='test.tsv', format='tsv',fields=[('Text', TEXT), ('Label', LABEL)])TEXT.build_vocab(train, vectors="glove.6B.100d")train_iter, val_iter, test_iter = data.Iterator.splits((train, val, test), sort_key=lambda x: len(x.Text),batch_sizes=(32, 256, 256), device=-1)vocab = TEXT.vocab

感谢各位的阅读，以上就是“torchtext的用法介绍”的内容了，经过本文的学习后，相信大家对torchtext的用法介绍这一问题有了更深刻的体会，具体使用情况还需要大家实践验证。这里是创新互联，小编将为大家推送更多相关知识点的文章，欢迎关注！

网页题目：torchtext的用法介绍
当前地址：http://chengdu.cdxwcx.cn/article/jgsgee.html

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

首页

网站建设

网站制作案例

解决方案

网站设计报价

网站制作动态

关于我们

联系我们

成都网站建设设计将想法与焦点和您一起共享

torchtext的用法介绍

torchtext包含以下组件

Field

Dataset

Iterator

其它

其他资讯

美国高防云服务器,美国15t高防服务器2022年更新（美国1.5t高防服务器）

创新互联Python教程：写Python代码用什么软件

IIS备份自动备份IIS设置和恢复IIS设置(自动还原Web服务器)

深入探索：Linux的神秘反射机制(linux反射)

Redis实现的分布式注册中心（redis的注册中心）

甜橘子，专注成都网站制作网站设计与营销型网站建设与优化

成都网站建设设计 将想法与焦点和您一起共享

torchtext的用法介绍

torchtext包含以下组件

Field

Dataset

Iterator

其它

其他资讯

美国高防云服务器,美国15t高防服务器2022年更新（美国1.5t高防服务器）

创新互联Python教程：写Python代码用什么软件

IIS备份自动备份IIS设置和恢复IIS设置(自动还原Web服务器)

深入探索：Linux的神秘反射机制(linux反射)

Redis实现的分布式注册中心（redis的注册中心）

成都网站建设设计将想法与焦点和您一起共享