怡贝湾项目介绍:如何在一篇文章中查找每个单词出现的次数(算法)

来源:百度文库 编辑:杭州交通信息网 时间:2024/04/27 16:08:26
如何在一篇文章中查找每个单词出现的次数(算法):
主要是对一篇很长的文章统计每个单词出现的次数,请问大家给个效率比较高的算法,谢谢了!
用vc给个具体的实现代码,假设这篇文章的每个单词已经存储到数组里了,再假设这篇文章共计20000个单词。
CString wordstr[20000];// 单词已经在数组里
下面的兄弟,不是人为的输入查找,而是自动统计每个单词出现的次数

数据量大了你要累死计算机啊
package HashTable;

/**
* 统计一篇给定的文章中,各个单词出现的次数的算法。
* 用HashMap 来存放出现的单词的次数,Key 是要统计的单词,Value 是单词出现的次数。
* 最后再按照 Key 的升序排列出来。
*/

import java.util.*;
import java.io.*;

public class CountOccurrenceOfWords {

public static void main(String[] args) throws Exception {
Map hashMap = null;
BufferedReader infile = null;
StringTokenizer st = null;
String filename = "Test.txt";
String string;
String file = null;
infile = new BufferedReader(new FileReader(filename));
while ((string = infile.readLine()) != null) {
file += string; // 都出整篇文章,存入String中。
}

hashMap = new HashMap();

// 取出文章中的单词,"," "." "!" " " 为各个单词的分界符。
st = new StringTokenizer(file, " ,.!");

while (st.hasMoreTokens()) {
String key = st.nextToken();
if (hashMap.get(key) != null) { //当key不为空的时候,value加一
int value = ((Integer) hashMap.get(key)).intValue();
value++;
hashMap.put(key, new Integer(value));

} else { //当key值为空的时候,将value设置为1
hashMap.put(key, new Integer(1));
}
}
//这个是没有排序的
Set entrySet2 = hashMap.entrySet();
Iterator iter = entrySet2.iterator();
while(iter.hasNext()){
System.out.println(iter.next());
}

// 按照单词的字母次序输出。
Map treeMap = new TreeMap(hashMap);
Set entrySet = treeMap.entrySet();

Iterator iterator = entrySet.iterator();

while (iterator.hasNext()) {

System.out.println(iterator.next());
}

}

}

struct mystruct{
char strWord[20];
int nNum;
mystruct* pNext;
}
1。从文件中逐个读字符,遇到空格或回车将字符归为一个单词
2。从头指针开始,比较链表中的单词,可以用strcmp.
3。如果相同,在这个节点下的nNum++。把这个节点位置前移,放到nNum比它小的节点前面。
4。如果不同,继续2
5。链表找完还是没有,new 一个节点,记录单词, nNum为1,放在链表的末尾。继续1

直到文件结束
这样,文件一遍读下来,其中的单词都被存放再链表中,频率高的单词在前。

你可以先把你的图片在ps里面处理啊!然后在添加到你的博客里面不就可以了吗!
试试看看吧!
希望你可以!

不知道你对stl熟悉不,在C++ stl中有一个map类型,通过map的特性和泛形算法,很容易满足你的要求,如果要是非得自己写算法另说了就,也很容易啊。

都在数组里了那就遍历数组呗

除非你肯定总量小,否则把单词都赋给数组没效率的