C语言中压缩字符串的简单算法小结

更新时间：2016年03月15日 14:35:20 作者：wuzhekai1985

这篇文章主要介绍了C语言中可用于实现字符串压缩的简单算法小结,列举了包括哈夫曼算法等三个核心的程序实现算法,需要的朋友可以参考下

应用中，经常需要将字符串压缩成一个整数，即字符串散列。比如下面这些问题：
（1）搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来，每个查询串的长度为1-255字节。请找出最热门的10个检索串。
（2）有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16字节，内存限制大小是1M。返回频数最高的100个词。
（3）有10个文件，每个文件1G，每个文件的每一行存放的都是用户的query，每个文件的query都可能重复。要求你按照query的频度排序。
（4）给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url。
（5）一个文本文件，大约有一万行，每行一个词，要求统计出其中最频繁出现的前10个词。

这些问题都需要将字符串压缩成一个整数，或者说是散列到某个整数 M 。然后再进行取余操作，比如 M%16，就可以将该字符串放到编号为M%16的文件中，相同的字符串肯定是在同一个文件中。通过这种处理，就可以将一个大文件等价划分成若干小文件，而对于小文件，就可以用常规的方法处理，内排序、hash_map等等。最后将这些小文件的处理结果综合起来，就可以求得原问题的解。
下面介绍一些字符串压缩的算法。

方法1：最简单就是将所有字符加起来，代码如下：

unsigned long HashString(const char *pString, unsigned long tableSize)
{
 unsigned long hashValue = 0;
 while(*pString)
    hashValue += *pString++;
 return hashValue % tableSize;
}

分析：如果字符串的长度有限，而散列表比较大的话，浪费比较大。例如，如果字符串最长为16字节，那么用到的仅仅是散列表的前16*127=2032。假如散列表含2729项，那么2032以后的项都用不到。

方法2：将上次计算出来的hash值左移5位（乘以32），再和当前关键字相加，能得到较好的均匀分布的效果。

unsigned long HashString(const char *pString,unsigned long tableSize)
{
 unsigned long hashValue = 0;
 while (*pString)
 hashValue = (hashValue << 5) + *pString++;
 return hashValue % tableSize;
}

分析：这种方法需要遍历整个字符串，如果字符串比较大，效率比较低。

方法3：利用哈夫曼算法，假设只有0-9这十个字符组成的字符串，我们借助哈夫曼算法，直接来看实例：

#define Size 10 
int freq[Size]; 
string code[Size]; 
string word; 
struct Node 
{ 
 int id; 
 int freq; 
 Node *left; 
 Node *right; 
 Node(int freq_in):id(-1), freq(freq_in) 
 { 
  left = right = NULL; 
 } 
}; 
struct NodeLess 
{ 
 bool operator()(const Node *a, const Node *b) const 
 { 
  return a->freq < b->freq; 
 } 
}; 
 
void init() 
{ 
 for(int i = 0; i < Size; ++i) 
  freq[i] = 0; 
 for(int i = 0; i < word.size(); ++i) 
  ++freq[word[i]]; 
} 
void dfs(Node *root, string res) 
{ 
 if(root->id >= 0) 
  code[root->id] = res; 
 else 
 { 
  if(NULL != root->left) 
   dfs(root->left, res+"0"); 
  if(NULL != root->right) 
   dfs(root->right, res+"1"); 
 } 
} 
 
void deleteNodes(Node *root) 
{ 
 if(NULL == root) 
  return ; 
 if(NULL == root->left && NULL == root->right) 
  delete root; 
 else 
 { 
  deleteNodes(root->left); 
  deleteNodes(root->right); 
  delete root; 
 } 
} 
void BuildTree() 
{ 
 priority_queue<Node*, vector<Node*>, NodeLess> nodes; 
 for(int i = 0; i < Size; ++i) 
 { 
//0 == freq[i] 的情况未处理 
    Node *newNode = new Node(freq[i]); 
  newNode->id = i; 
  nodes.push(newNode); 
 } 
 while(nodes.size() > 1) 
 { 
  Node *left = nodes.top(); 
  nodes.pop(); 
  Node *right = nodes.top(); 
  nodes.pop(); 
  Node *newNode = new Node(left->freq + right->freq); 
    newNode->left = left; 
    newNode->right = right; 
    nodes.push(newNode); 
 } 
 Node *root = nodes.top(); 
 dfs(root, string("")); 
 deleteNodes(root); 
}

您可能感兴趣的文章:

C语言实现停车场项目
这篇文章主要为大家详细介绍了C语言实现停车场项目，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2022-03-03
C++11如何实现无锁队列
这篇文章主要介绍了C++11如何实现无锁队列,本文通过实例代码给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-08-08
C语言开发实现井字棋及电脑落子优化示例详解
以前上课经常和同桌玩起井字棋，那么我们就当我们回忆童年，现在也用C语言来实现井字棋，本次代码相对于初阶的井字棋，在电脑下棋代码部分做了优化，使得电脑更加具有威胁
2021-11-11
C语言实现栈的示例代码
栈是一种特殊的线性表，只允许从一端进出数据，称为后进先出，先进后出。本文主要为大家介绍了C语言实现栈的示例代码，感兴趣的可以了解一下
2022-06-06
C语言函数的基本使用和递归详解
一个函数在它的函数体内调用它自身称为递归调用。这种函数称为递归函数。Ｃ语言允许函数的递归调用。在递归调用中，主调函数又是被调函数。执行递归函数将反复调用其自身，每调用一次就进入新的一层
2021-09-09
如何通过wrap malloc定位C/C++的内存泄漏问题
用C/C++开发的程序执行效率很高，但却经常受到内存泄漏的困扰。本文提供一种通过wrap malloc查找memory leak的思路。
2021-05-05
C++深入探究类与对象之友元与运算符重载
友元就是让一个函数或者类，访问另一个类中的私有成员；打个比方，这相当于是说：朋友是值得信任的，所以可以对他们公开一些自己的隐私，运算符重载的实质就是函数重载或函数多态，运算符重载是一种形式的C++多态，目的在于让人能够用同名的函数来完成不同的基本操作
2022-04-04
C/C++实现segy文件的读取详解
SEGY是地震数据一般以地震道为单位进行组织，采用SEG-Y文件格式存储。标准SEGY文件一般包括三部分：卷头、道头与地震道数据。本文将介绍利用C++读取segy文件的方法，感兴趣的可以了解一下
2022-03-03
C语言结课设计之计算器功能
这篇文章主要为大家详细介绍了C语言结课设计之计算器功能，文中示例代码介绍的非常详细，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2020-02-02
图解AVL树数据结构输入与输出及实现示例
这篇文章主要为大家介绍了C++图解AVL树数据结构输入与输出操作示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-05-05

C语言中压缩字符串的简单算法小结

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具