2010年的6月9日是一个圣战的日子,零点一到就有人开始,好戏也如约在晚上7点发生。人人网战场是SJ的公共主页:http://page.renren.com/sj
对不同人,这个日子意味着不同,滋味也不同。作为人人网技术团队,我们要保证服务能力、用户体验能够应付得了这个挑战。
某一个服务器的能力总有限,为了应付突然增长的读写量,web服务架构、内部服务架构、数据库架构等要能够轻松通过服务器调配来满足。就web服务器而言,我们增加了1倍的机器。现在再回头来看监控的数据,一切显得美好。这个期间整个服务做到了服务能力没有中断。除此之外,在这次圣战中,其中还有一项我们独有的技术起到了重要的作用:rose portal ,下面作一个介绍:
这是sj的主页:
这个页面分为三列:
在后台,这些被分解为不同的模块,我们称之为”window”。这每一个window都意味着可能连接一个独立的服务集群,比如基本信息服务、留言服务、好友服务、相册服务等等。这样,一个公共主页就等于多个独立的、可配置的window模块组成,如下图:
随着伟大圣战的深入,这个页面就变成这样(右边的栏目不见了):
产品同学看到此情此景,仍然很开心:“只要留言的window能在,其它的没在不要紧”
但是不一会,继续恶化:
甚至:
黄晶看着公共主页呈现出这种状况时,笑着形容这样的图“缺胳膊少腿”:“怎么还没加机器”。当公共主页技术团队把机器逐步增加一倍的时候,这种情况变少了,甚至就没有了。
虽然这些页面看起来“缺胳膊少腿”,但要知道在以前,这种情况,我们整个页面的某个模块堵了可会导致用户浏览器长期空白,直至最后提示网页不可显示。这给用户带来很不好的体验,同时因为网页一直不释放连接,恶性循环导致web服务器最后全哑了。
好在,早在半年前我们开发了rose po