微博中的短地址ShortURL是怎么实现的

看看各大微博的短地址是如何实现的
服务器君一共花费了234.143 ms进行了4次数据库查询,努力地为您提供了这个页面。
试试阅读模式?希望听取您的建议

短网址应用已经在全国各大微博上开始流行了起来。例如QQ微博的url.cn,新郎的sinaurl.cn等。

我们在QQ微博上发布网址的时候,微博会自动判别网址,并将其转换,例如:http://url.cn/2hytQx

为什么要这样做的,原因我想有这样几点:

  1. 微博限制字数为140字一条,那么如果我们需要发一些连接上去,但是这个连接非常的长,以至于将近要占用我们内容的一半篇幅,这肯定是不能被允许的,所以短网址应运而生了。
  2. 短网址可以在我们项目里可以很好的对开放级URL进行管理。有一部分网址可以会涵盖色情,暴力,广告等信息,这样我们可以通过用户的举报,完全管理这个连接将不出现在我们的应用中,应为同样的URL通过加密算法之后,得到的地址是一样的。
  3. 我们可以对一系列的网址进行流量,点击等统计,挖掘出大多数用户的关注点,这样有利于我们对项目的后续工作更好的作出决策。

其实以上三点纯属个人观点,因为在我接下来的部分项目中会应用到,所以就了解了一下,下面先来看看短网址映射算法的理论(网上找到的资料):

  1. 将长网址md5生成32位签名串,分为4段,每段8个字节;
  2. 对这四段循环处理,取8个字节,将他看成16进制串与0x3fffffff(30位1)与操作,即超过30位的忽略处理;
  3. 这30位分成6段,每5位的数字作为字母表的索引取得特定字符,依次进行获得6位字符串;
  4. 总的md5串可以获得4个6位串;取里面的任意一个就可作为这个长url的短url地址;

很简单的理论,我们并不一定说得到的URL是唯一的,但是我们能够取出4组URL,这样几乎不会出现太大的重复。

下面来看看程序部分:

public static string[] ShortUrl(string url)
{
	//可以自定义生成MD5加密字符传前的混合KEY
	string key = "Leejor";
	//要使用生成URL的字符
	string[] chars = new string[]{
 		"a","b","c","d","e","f","g","h",
     	"i","j","k","l","m","n","o","p",
		"q","r","s","t","u","v","w","x",
   		"y","z","0","1","2","3","4","5",
 		"6","7","8","9","A","B","C","D",
  		"E","F","G","H","I","J","K","L",
  		"M","N","O","P","Q","R","S","T",
		"U","V","W","X","Y","Z"
	};
 
 	//对传入网址进行MD5加密
  	string hex = System.Web.Security.FormsAuthentication.HashPasswordForStoringInConfigFile(key + url, "md5");
	string[] resUrl = new string[4];
	for (int i = 0; i < 4; i++)
	{
		//把加密字符按照8位一组16进制与0x3FFFFFFF进行位与运算
    	int hexint = 0x3FFFFFFF & Convert.ToInt32("0x" + hex.Substring(i * 8, 8), 16);
		string outChars = string.Empty;
   		for (int j = 0; j < 6; j++)
    	{
        	//把得到的值与0x0000003D进行位与运算,取得字符数组chars索引
        	int index = 0x0000003D & hexint;
       		//把取得的字符相加
     		outChars += chars[index];
  			//每次循环按位右移5位
       		hexint = hexint >> 5;
    	}
		//把字符串存入对应索引的输出数组
 		resUrl[i] = outChars;
 	}
	return resUrl;
}

现在可以直接使用该方法,可以等到下面四组值:

ShortUrl(http://www.me3.cn)[0];  //得到值fAVfui
ShortUrl(http://www.me3.cn)[1];  //得到值3ayQry
ShortUrl(http://www.me3.cn)[2];  //得到值UZzyUr
ShortUrl(http://www.me3.cn)[3];  //得到值36rQZn

在存放这个URL的数据方面,我个人推荐TTServer,有的朋友可以没有听说过,下面是这个数据库的介绍:

Tokyo Cabinet 是日本人 Mikio Hirabayashi(平林幹雄)のページ 开发的一款DBM数据库(注:大名鼎鼎的DBM数据库qdbm就是他开发的),该数据库读写非常快。insert:0.4sec/1000000 recordes(2500000qps),写入100万数据只需要0.4秒。search:0.33sec/1000000 recordes (3000000 qps),读取100万数据只需要0.33秒。

可以看到对于字典类型的数据Key/Value的查询,这个数据库可以说是我目前见过效率非常高的,况且他如此的小巧,用来对short url/long url的配对再好不过。

本文地址:http://www.nowamagic.net/librarys/veda/detail/425,欢迎访问原出处。

不打个分吗?

转载随意,但请带上本文地址:

http://www.nowamagic.net/librarys/veda/detail/425

如果你认为这篇文章值得更多人阅读,欢迎使用下面的分享功能。
小提示:您可以按快捷键 Ctrl + D,或点此 加入收藏

阅读一百本计算机著作吧,少年

很多人觉得自己技术进步很慢,学习效率低,我觉得一个重要原因是看的书少了。多少是多呢?起码得看3、4、5、6米吧。给个具体的数量,那就100本书吧。很多人知识结构不好而且不系统,因为在特定领域有一个足够量的知识量+足够良好的知识结构,系统化以后就足以应对大量未曾遇到过的问题。

奉劝自学者:构建特定领域的知识结构体系的路径中再也没有比学习该专业的专业课程更好的了。如果我的知识结构体系足以囊括面试官的大部分甚至吞并他的知识结构体系的话,读到他言语中的一个词我们就已经知道他要表达什么,我们可以让他坐“上位”毕竟他是面试官,但是在知识结构体系以及心理上我们就居高临下。

所以,阅读一百本计算机著作吧,少年!

《php和mysql web开发(原书第4版)》 Luke Welling (作者), Laura Thomson (作者), 武欣 (译者)

《php和mysql web开发(原书第4版)》将PHP开发与MySQL应用相结合,分别对PHP和MySQL做了深入浅出的分析,不仅介绍PHP和MySQL的一般概念,而且对PHP和MySQL的Web应用做了较全面的阐述,并包括几个经典且实用的例子。《php和mysql web开发(原书第4版)》是第4版,经过了全面的更新、重写和扩展,包括PHP 5.3最新改进的特性(例如,更好的错误和异常处理),MySQL的存储过程和存储引擎,Ajax技术与Web 2.0以及Web应用需要注意的安全问题。

更多计算机宝库...