Tag: nltk

在Python中创build一个简单的点图

我应该在一个语料库中计算n-gram,并创build一个点图,显示单词的等级和他们的计数,作为validationZipf定律的练习。 最终的结果应该是这样的: 我使用nltk来提取分布(这里仅用于unigrams): import nltk with open(r'./1.txt', 'r') as file: text = file.read() file.close() tokens = nltk.word_tokenize(text) tokens = [token.lower() for token in tokens if len(token) > 1] fdist = nltk.FreqDist(tokens) ranks = fdist.most_common() 这给了我一个所有的单词和他们的计数从最常见到最less的2元组长列表。 我想知道如何从这里出发。 我只需要在双轴飞机上绘制它。 我没有安装matpotlib / numpy,在这些库中没有任何经验。 不过,我有Microsoft Excel,所以我想知道如果我能以某种可读的格式导出这些数据并将其绘制在那里。