批处理统计词频实现代码(统计重复行的数量/每行重复出现的次数)

请问批处理可以统计词频吗?
4字一行,只统计4字词组出现的频率。
如:

一丘之貉
一丝不挂
一丝不苟
一事无成
一亲对老
一分身又
一叶知秋
一叶知秋
一叶障目
一叶障目
一往无前
一往无前
一往无前

实现如下:

一丘之貉 1
一丝不挂 1
一丝不苟 1
一事无成 1
一亲对老 1
一分身又 1
一叶知秋 2
一叶障目 2
一往无前 3

解决代码

@echo off & setlocal enabledelayedexpansion
for /f "delims=" %%a in ('type "测试.txt"') do set /a "#%%a#+=1"
for /f "tokens=1* delims=#=" %%a in ('set #') do echo %%a %%b
pause

win7以上系统

powershell -c "gc '测试.txt'|group $_|%%{$_.name+' '+$_.count}"
pause

到此这篇关于批处理统计词频实现代码(统计重复行的数量/每行重复出现的次数)的文章就介绍到这了,更多相关bat统计词频内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!

时间: 2021-09-13

PHP递归统计系统中代码行数

本文实例为大家分享了PHP递归统计系统中代码行数的具体代码,供大家参考,具体内容如下 1.统计代码行数,必然用到的两个关键的知识点:函数递归以及文件读取. 函数递归无非就是在函数的代码中调用本身的函数名,以此形成递归循环 function A($param){ if('condition') A($param_son); else return $result; } 在文件读取中,有很多读取方式,采用了file()读取,按行读取,形成一个数组. $file_open = file($file);

iOS 统计Xcode项目代码行数的实例

1.打开终端 2.cd 到项目文件,例如: cd MerchantPay-iOS 3.回车来到项目目录下 运行下面指令 find . -name "*.m" -or -name "*.h" -or -name "*.xib" -or -name "*.c" |xargs wc -l 回车,执行--这条指令是获取每个文件内的代码行数,并在最后统计出一共的代码行数[注释也统计在代码量之内] 下面这条指令是获取代码总行数,去掉空行.

git log根据特定条件查询日志并统计修改的代码行数

前言 随着年龄的增长和知识的积累,最近常常有种豁然开朗的感觉,或者对一个已经存在的事物突然有了新的认识,比如统计这个词很早就接触了,从没考虑过它是什么意思,而这篇总结的题目中用了统计一词,第一感觉应该是汇总.记录的意思,后来去查了词条定义,也确实就是类似的解释,从没有刻意去学这个词的含义,但是在每天的生活中已经潜移默化地归纳.总结出来了. 想要统计就得有数据源,而 git log 命令恰恰就能提供这个数据源,git log 本身就是一个显示日志的命令,日志记录的是代码库变化的数据,类似于描述代码

python写程序统计词频的方法

在李笑来所著<时间当作朋友>中有这么一段: 可问题在于,当年我在少年宫学习计算机程序语言的时候,怎么可能想象得到,在20多年后的某一天,我需要先用软件调取语料库中的数据,然后用统计方法为每个单词标注词频,再写一个批处理程序从相应的字典里复制出多达20MB的内容,重新整理-- 在新书<自学是门手艺>中,他再次提及: 又过了好几年,我去新东方教书.2003 年,在写词汇书的过程中,需要统计词频,C++ 倒是用不上,用之前学过它的经验,学了一点 Python,写程序统计词频 --<

Python 合并多个TXT文件并统计词频的实现

需求是:针对三篇英文文章进行分析,计算出现次数最多的 10 个单词 逻辑很清晰简单,不算难, 使用 python 读取多个 txt 文件,将文件的内容写入新的 txt 中,然后对新 txt 文件进行词频统计,得到最终结果. 代码如下:(在Windows 10,Python 3.7.4环境下运行通过) # coding=utf-8 import re import os # 获取源文件夹的路径下的所有文件 sourceFileDir = 'D:\\Python\\txt\\' filenames

Python实现代码统计工具(终极篇)

本文对于先前系列文章中实现的C/Python代码统计工具(CPLineCounter),通过C扩展接口重写核心算法加以优化,并与网上常见的统计工具做对比.实测表明,CPLineCounter在统计精度和性能方面均优于其他同类统计工具.以千万行代码为例评测性能,CPLineCounter在Cpython和Pypy环境下运行时,比国外统计工具cloc1.64分别快14.5倍和29倍,比国内SourceCounter3.4分别快1.8倍和3.6倍. 运行测试环境 本文基于Windows系统平台,运行和

NCC Tools(never code counter tools) V1.0.1发布代码-代码统计工具

界面如下图:把源代码存为(hta)文件,因为hta文件没有状态栏,所以我这里建议大家存为html文件,这样可以在状态栏下看到 NCC扫描的进度,我这里把NCC的maxloop设置为3000,所以文件统计到3000的时候,会自动终止,以防文件夹中文件太多造成运行的负担. 如果大家喜欢这样的代码,就请关注"Never Modules" 主要功能有- 1.可自己选择文件夹,或者单个文件. 2.自己选择文件后缀名进行统计 3.output information输出的数据有: 文件个数, 文件

iOS统计项目的代码总行数

如果要统计ios开发代码,包括头文件的,CD到项目目录下,命令如下 ① 列出每个文件的行数 复制代码 代码如下: find . -name "*.m" -or -name "*.h" -or -name "*.xib" -or -name "*.c" |xargs wc -l ② 列出代码行数总和 复制代码 代码如下: find . -name "*.m" -or -name "*.h"

python利用多种方式来统计词频(单词个数)

python的思维就是让我们用尽可能少的代码来解决问题.对于词频的统计,就代码层面而言,实现的方式也是有很多种的.之所以单独谈到统计词频这个问题,是因为它在统计和数据挖掘方面经常会用到,尤其是处理分类问题上.故在此做个简单的记录. 统计的材料如下: document = [ 'look', 'into', 'my', 'eyes', 'look', 'into', 'my', 'eyes', 'the', 'eyes', 'the', 'eyes', 'the', 'eyes', 'not',

python tkinter图形界面代码统计工具

本文为大家分享了python tkinter图形界面代码统计工具,供大家参考,具体内容如下 #encoding=utf-8 import os,sys,time from collections import defaultdict from tkinter import * import tkinter.messagebox from tkinter import ttk from tkinter import scrolledtext root= Tk() root.title("有效代码统