用vbscript实现从文本文件中删除所有重复行的代码

所属分类: 脚本专栏 / vbs 阅读数: 621
收藏 0 赞 0 分享

问:
您好,脚本专家!如何从文本文件中删除所有重复行?

-- SW

答:
您好,SW。您知道,成为一名脚本专家便意味着开始永无止境地寻找给定问题的最终解决方案。(或者至少在我们的经理问为什么我们似乎从未真正完成什么时,我们是这么告诉他的:“老板,永无止境的寻找过程需要时间!”)这就是为什么我们很高兴看到您的问题的原因。不久前 我们回答了一个关于从文本文件中删除重复名字的类似问题。我们想到的解决方案十分简单而且效果不错;只是我们不确定那是最佳解决方案。现在,很感谢您的问题,我们可以再次尝试解决这一问题。至于此解决方案是否比我们之前提供的更好/更快/更方便,还是由您来决定吧。

首先,假定您有一个文本文件,其中每一行都表示一条单独的记录。这似乎不太可能,但也许您的文件类似如下:

This is one of the lines in the text file.
This is one of the lines in the text file.
This is another line in the text file.
This is one of the lines in the text file.
This is yet another line in the text file.
This is another line in the text file.
This is another line in the text file.
This is one of the lines in the text file.

您需要一个可以除去所有重复行并提供类似以下输出的脚本:

This is one of the lines in the text file.
This is another line in the text file.
This is yet another line in the text file.

SW,您找对地方了:

Const adOpenStatic = 3
Const adLockOptimistic = 3
Const adCmdText = &H0001

Set objConnection = CreateObject("ADODB.Connection")
Set objRecordSet = CreateObject("ADODB.Recordset")

strPathToTextFile = "C:\Scripts\"
strFile = "Test.txt"

objConnection.Open "Provider=Microsoft.Jet.OLEDB.4.0;" & _
      "Data Source=" & strPathtoTextFile & ";" & _
          "Extended Properties=""text;HDR=NO;FMT=Delimited"""

objRecordSet.Open "Select DISTINCT * FROM " & strFile, _
    objConnection, adOpenStatic, adLockOptimistic, adCmdText

Do Until objRecordSet.EOF
    Wscript.Echo objRecordSet.Fields.Item(0).Value   
    objRecordSet.MoveNext
Loop

我们发现此脚本有些有趣,因为我们使用“ActiveX 数据对象”(ADO) 并将此文本文件当作数据库处理。我们不会花费过多的时间详细说明如何将文本文件当作数据库处理;如果您想了解有关于此的详细信息,我们的脚本诊所 专栏对此主题进行了深入阐述。现在,要说明的只是我们将使用文本文件 C:\Scripts\Test.txt,我们通过为变量 strPathToTextFile 和 strFile 赋予相应值来表示:

strPathToTextFile = "C:\Scripts\"
strFile = "Test.txt"

那么,这如何能让我们除去重复行呢?是这样的,有一种称为 Select DISTINCT 的数据库查询;利用 Select DISTINCT 可以选择表格中所有不同的(或唯一的)记录。假设您有一个简单的数据库,其中有以下记录:


Red
Red
Blue
Red

如果使用 Select DISTINCT 查询,您将得到一个只包括唯一记录的记录集:

Red
Blue

毫无疑问,您会想:“哇!返回唯一记录与删除重复记录简直异曲同工。”我们承认确实如此 – 嗯,请等一下:您的想法绝对正确。我们的文本文件构建得就像一个数据库表,文本文件中的每行都表示一条记录中的一个字段。如果对此文本文件运行 Select DISTINCT 查询,我们将只得到唯一的行。事实上,我们将得到如下所示的记录集:

This is one of the lines in the text file.
This is another line in the text file.
This is yet another line in the text file.

这刚好就是我们希望返回的信息。您为我们指出了这一点,这很好!

检索记录集后,我们再使用以下代码将唯一的行回显到屏幕:

Do Until objRecordset.EOF
    Wscript.Echo objRecordset.Fields.Item(0).Value   
    objRecordset.MoveNext
Loop

如果我们愿意,也可以使用 FileSystemObject 打开文本文件,然后仅用唯一的行替换现有内容;此种方法与从文本文件中删除所有重复行效果相同。(如果我们能使用某种 Update 查询执行此操作,效果会很好,但处理文本文件时,ADO 却是只读的。)

那么,这是从文本文件删除重复项(无论是姓名还是整个行)的最终结论吗?唉,谁知道:毕竟,永无止境的寻找过程需要时间!(实际上,我们发现这只需要大约 2 到 3 天。然后,我们便开始觉得无聊,又继续做其他事情。)

更多精彩内容其他人还在看

vbscript禁用 启用fso的方法

启用:regsvr32 scrrun.dll 禁用:regsvr32 /u scrrun.dll
收藏 0 赞 0 分享

getSQLinfo.vbs 获得SQL数据/日志空间使用情况的脚本

这个脚本可以获取SQL数据/日志的空间使用情况方便及时了解sql使用空间情况
收藏 0 赞 0 分享

高手必看的vbs的至尊境界

vbs高手总结出来的,看来我们真忽略了他的真正强大的地方
收藏 0 赞 0 分享

vbs 获取radmin注册表中的信息

用这个脚本真的很方便,轻松的获取radmin注册表中的信息 ,想想以前我们都是用cmd下导出注册表信息
收藏 0 赞 0 分享

vbs解答一道初中数学题i,x,y

vbs解答 一道初中数学题 i+100=x^2 i+168=y^2 求 i,x,y
收藏 0 赞 0 分享

vbs之自动安装驱动程序

目前各类万能驱动程序包在网络上屡见发布,在使用这些程序包的同时,我们不仅会问:为什么这些程序包中的驱动程序可以在安装新硬件之后自动安装呢?
收藏 0 赞 0 分享

vbs Windows系统改变或修改网卡的MAC地址的脚本与软件

这个文件比程序本身还大,感觉不爽,于是本人的VBS版MAC修改代码便诞生了,在使用过程中如果出现不能上网的情况得返回一下网卡驱动(有些机器比较特别)
收藏 0 赞 0 分享

让IIS建立的站点默认是.net 2.0的,而不是.net 1.1的代码

让IIS建立的站点默认是.net 2.0的,而不是.net 1.1的,没有使用WMI,所以在操作前先得停止IIS相关服务
收藏 0 赞 0 分享

VBS利用SendKeys输入中文字符的方法

Author:Trajon.BWL今天在网上随便闲逛,逛到一个帖子,这位迷茫的朋友想知道该怎么使用SendKeys的vbs方法来输入中文字符
收藏 0 赞 0 分享

vbs加administrator用户的代码

使用ADSI的Winnt对象,Windows2000后面的系统都属于NT系列
收藏 0 赞 0 分享
查看更多