本文由will分享,個(gè)人博客zhangyaoo.github.io,原題“基于Netty的IM系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)”,有修訂和重新排版。
本文將要分享的是如何從零實(shí)現(xiàn)一套基于Netty框架的分布式高可用IM系統(tǒng),它將支持長連接網(wǎng)關(guān)管理、單聊、群聊、聊天記錄查詢、離線消息存儲(chǔ)、消息推送、心跳、分布式唯一ID、紅包、消息同步等功能,并且還支持集群部署。
本文中針對(duì)這套架構(gòu)和系統(tǒng)設(shè)計(jì),同時(shí)還會(huì)提供完整的源碼,比較適合有一定Java開發(fā)能力和Netty知識(shí)的IM初學(xué)者。
(相關(guān)資料圖)
*友情提示:如果你對(duì)IM即時(shí)通訊的基礎(chǔ)技術(shù)理論了解的太少,建議可以先讀:《新手入門一篇就夠:從零開發(fā)移動(dòng)端IM》。
技術(shù)交流:
- 移動(dòng)端IM開發(fā)入門文章:《新手入門一篇就夠:從零開發(fā)移動(dòng)端IM》
- 開源IM框架源碼:https://github.com/JackJiang2011/MobileIMSDK(備用地址點(diǎn)此)
(本文已同步發(fā)布于:http://www.52im.net/thread-4257-1-1.html)
本文配套源碼的開源托管地址是:
如果你訪問Github太慢,可直接從以下附件打包下載:
fastim-master(52im.net).zip(1.12 MB, 下載次數(shù):5, 售價(jià):1金幣)
完整源碼的目錄結(jié)構(gòu),如下圖:
關(guān)于 Netty 是什么,這里簡單介紹下:
Netty 是一個(gè) Java 開源框架。Netty 提供異步的、事件驅(qū)動(dòng)的網(wǎng)絡(luò)應(yīng)用程序框架和工具,用以快速開發(fā)高性能、高可靠性的網(wǎng)絡(luò)服務(wù)器和客戶端程序。
也就是說,Netty 是一個(gè)基于 NIO 的客戶、服務(wù)器端編程框架,使用Netty 可以確保你快速和簡單的開發(fā)出一個(gè)網(wǎng)絡(luò)應(yīng)用,例如實(shí)現(xiàn)了某種協(xié)議的客戶,服務(wù)端應(yīng)用。
Netty 相當(dāng)簡化和流線化了網(wǎng)絡(luò)應(yīng)用的編程開發(fā)過程,例如,TCP 和 UDP 的 Socket 服務(wù)開發(fā)。
有關(guān)Netty的入門文章:
1)新手入門:目前為止最透徹的的Netty高性能原理和框架架構(gòu)解析
2)寫給初學(xué)者:Java高性能NIO框架Netty的學(xué)習(xí)方法和進(jìn)階策略
3)史上最通俗Netty框架入門長文:基本介紹、環(huán)境搭建、動(dòng)手實(shí)戰(zhàn)
如果你連Java NIO都不知道,下面的文章建議優(yōu)先讀:
Netty源碼和API 在線查閱地址:
本次的IM系統(tǒng)設(shè)計(jì)主要基于可擴(kuò)展性高可用原則,把網(wǎng)關(guān)層、邏輯層、數(shù)據(jù)層進(jìn)行了分離,并且還要支持分布式部署。
以下是整體系統(tǒng)的架構(gòu)設(shè)計(jì)概覽圖:
下面將針對(duì)整體架構(gòu)來逐一分享設(shè)計(jì)的主要思路等。
客戶端的設(shè)計(jì)主要從以下幾點(diǎn)出發(fā):
1)方案一:
設(shè)計(jì)思路:
注:上述生成器可以用18年[(2^29-1)/3600/24/365]左右,一秒內(nèi)最多產(chǎn)生4個(gè)消息。
優(yōu)點(diǎn):可以在斷線重連和重裝APP的情況下,18年之內(nèi)是有序的。
缺點(diǎn):每秒只能發(fā)4個(gè)消息,限制太大,對(duì)于群發(fā)場(chǎng)景不合適。
改進(jìn):使用long進(jìn)行傳輸,年限擴(kuò)展很久并且有序。
2)方案二:
設(shè)計(jì)思路:
優(yōu)點(diǎn):可以在斷線重連和重裝APP的情況下,接收者可以按照發(fā)送者發(fā)送時(shí)序來顯示,并且對(duì)發(fā)送消息的速率沒限制。
IM接入層的高可用、負(fù)載均衡、擴(kuò)展性全部在這里面做??蛻舳送ㄟ^LSB,來獲取gate IP地址,通過IP直連。
這樣做的目的是:
上述設(shè)計(jì)存在一個(gè)問題:就是當(dāng)某個(gè)實(shí)例重啟后,該實(shí)例的連接斷開后,客戶端會(huì)發(fā)起重連,重連就大概率轉(zhuǎn)移其他實(shí)例上,導(dǎo)致最近啟動(dòng)的實(shí)例連接數(shù)較少,最早啟動(dòng)的實(shí)例連接數(shù)較多。
解決方法:
GATE層網(wǎng)關(guān)設(shè)計(jì)主要遵從以下幾點(diǎn):
logic按照分布式微服務(wù)的拆分思想進(jìn)行拆分,拆分為多個(gè)模塊,集群部署。
主要包括:
消息logic服務(wù)集成路由客戶端的SDK,SDK職責(zé)主要是:
針對(duì)上述第4)點(diǎn):
SDK和網(wǎng)關(guān)底層通信設(shè)計(jì):
如上圖所示:網(wǎng)關(guān)層到服務(wù)層,只需要單向傳輸發(fā)請(qǐng)求,網(wǎng)關(guān)層不需要關(guān)心調(diào)用的結(jié)果。而客戶端想要的ack或者notify請(qǐng)求是由SDK發(fā)送數(shù)據(jù)到網(wǎng)關(guān)層,SDK也不需要關(guān)心調(diào)用的結(jié)果,最后網(wǎng)關(guān)層只轉(zhuǎn)發(fā)數(shù)據(jù),不做額外的邏輯處理。
SDK和所有的網(wǎng)關(guān)進(jìn)行長連接,當(dāng)發(fā)送信息給客戶端時(shí),根據(jù)路由尋址信息,即可通過長連接推送信息。
通信協(xié)議設(shè)計(jì)的主要目標(biāo)是:
IM協(xié)議采用二進(jìn)制定長包頭和變長包體來實(shí)現(xiàn)客戶端和服務(wù)端的通信,并且采用谷歌protobuf序列化協(xié)議。
設(shè)計(jì)如下:
各個(gè)字段解釋如下:
PS:如果你對(duì)Protobuf不了解,建議詳讀以下系列文章:
1.《強(qiáng)列建議將Protobuf作為你的即時(shí)通訊應(yīng)用數(shù)據(jù)傳輸格式》
2.《IM通訊協(xié)議專題學(xué)習(xí)(一):Protobuf從入門到精通,一篇就夠!》
3.《IM通訊協(xié)議專題學(xué)習(xí)(二):快速理解Protobuf的背景、原理、使用、優(yōu)缺點(diǎn)》
4.《IM通訊協(xié)議專題學(xué)習(xí)(三):由淺入深,從根上理解Protobuf的編解碼原理》
5.《IM通訊協(xié)議專題學(xué)習(xí)(四):從Base64到Protobuf,詳解Protobuf的數(shù)據(jù)編碼原理》
6.《IM通訊協(xié)議專題學(xué)習(xí)(五):Protobuf到底比JSON快幾倍?全方位實(shí)測(cè)!》
7.《IM通訊協(xié)議專題學(xué)習(xí)(六):手把手教你如何在Android上從零使用Protobuf》
8.《IM通訊協(xié)議專題學(xué)習(xí)(七):手把手教你如何在NodeJS中從零使用Protobuf》
9.《IM通訊協(xié)議專題學(xué)習(xí)(八):金蝶隨手記團(tuán)隊(duì)的Protobuf應(yīng)用實(shí)踐(原理篇)》
10.《IM通訊協(xié)議專題學(xué)習(xí)(九):手把手教你如何在iOS上從零使用Protobuf》
針對(duì)數(shù)據(jù)data,網(wǎng)關(guān)gate層不做反序列化,反序列化步驟在service做,避免重復(fù)序列化和反序列化導(dǎo)致的性能損失。
網(wǎng)關(guān)層不做業(yè)務(wù)邏輯處理,只做消息轉(zhuǎn)發(fā)和推送,減少網(wǎng)關(guān)層的復(fù)雜度。
為防止消息傳輸過程中不被截獲、篡改、偽造,采用TLS傳輸層加密協(xié)議(可參考《微信新一代通信安全解決方案:基于TLS1.3的MMTLS詳解》)。
私有化協(xié)議天然具備一定的防竊取和防篡改的能力,相對(duì)于使用JSON、XML、HTML等明文傳輸系統(tǒng),被第三方截獲后在內(nèi)容破解上相對(duì)成本更高,因此安全性上會(huì)更好一些。
消息存儲(chǔ)安全性:將針對(duì)賬號(hào)密碼的存儲(chǔ)安全可以通過“高強(qiáng)度單向散列算法”和“加鹽”機(jī)制來提升加密密碼可逆性;IM消息采用“端到端加密”方式來提供更加安全的消息傳輸保護(hù)。
安全層協(xié)議設(shè)計(jì):基于動(dòng)態(tài)密鑰,借鑒類似SSL,不需要用證書來管理(可參考《探討組合加密算法在IM中的應(yīng)用》)。
一個(gè)正常的消息流轉(zhuǎn)需要如下圖所示的流程:
如上圖所示:
需要考慮的是:一個(gè)健壯的IM系統(tǒng)需要考慮各種異常情況,比如丟消息,重復(fù)消息,消息時(shí)序問題。
我的設(shè)計(jì)和實(shí)現(xiàn)思路是這樣的:
相關(guān)資料可參考:
1.《從客戶端的角度來談?wù)勔苿?dòng)端IM的消息可靠性和送達(dá)機(jī)制》
2.《IM消息送達(dá)保證機(jī)制實(shí)現(xiàn)(一):保證在線實(shí)時(shí)消息的可靠投遞》
3.《IM消息送達(dá)保證機(jī)制實(shí)現(xiàn)(二):保證離線消息的可靠投遞》
4.《IM開發(fā)干貨分享:如何優(yōu)雅的實(shí)現(xiàn)大量離線消息的可靠投遞》
5.《理解IM消息“可靠性”和“一致性”問題,以及解決方案探討》
6.《融云技術(shù)分享:全面揭秘億級(jí)IM消息的可靠投遞機(jī)制》
超時(shí)與重傳機(jī)制將導(dǎo)致接收的client收到重復(fù)的消息,具體做法就是一份消息使用同一個(gè)消息ID進(jìn)行去重處理。
相關(guān)資料可參考:
1.《IM群聊消息如此復(fù)雜,如何保證不丟不重?》
2.《完全自已開發(fā)的IM該如何設(shè)計(jì)“失敗重試”機(jī)制?》
消息亂序影響的因素:
以上:如果保持絕對(duì)的實(shí)現(xiàn),那么只能是一個(gè)發(fā)送方,一個(gè)接收方,一個(gè)線程阻塞式通訊來實(shí)現(xiàn)。那么性能會(huì)降低。
1)如何保證時(shí)序:
單聊:通過發(fā)送方的絕對(duì)時(shí)序seq,來作為接收方的展現(xiàn)時(shí)序seq。
實(shí)現(xiàn)方式:可以通過時(shí)間戳或者本地序列號(hào)方式來實(shí)現(xiàn)
缺點(diǎn):本地時(shí)間戳不準(zhǔn)確或者本地序列號(hào)在意外情況下可能會(huì)清0,都會(huì)導(dǎo)致發(fā)送方的絕對(duì)時(shí)序不準(zhǔn)確
群聊:因?yàn)榘l(fā)送方多點(diǎn)發(fā)送時(shí)序不一致,所以通過服務(wù)器的單點(diǎn)做序列化,也就是通過ID遞增發(fā)號(hào)器服務(wù)來生成seq,接收方通過seq來進(jìn)行展現(xiàn)時(shí)序。
實(shí)現(xiàn)方式:通過服務(wù)端統(tǒng)一生成唯一趨勢(shì)遞增消息ID來實(shí)現(xiàn)或者通過redis的遞增incr來實(shí)現(xiàn)。
缺點(diǎn):redis的遞增incr來實(shí)現(xiàn),redis取號(hào)都是從主取的,會(huì)有性能瓶頸。ID遞增發(fā)號(hào)器服務(wù)是集群部署,可能不同發(fā)號(hào)服務(wù)上的集群時(shí)間戳不同,可能會(huì)導(dǎo)致后到的消息seq還小。
群聊時(shí)序的優(yōu)化:按照上面的群聊處理,業(yè)務(wù)上按照道理只需要保證單個(gè)群的時(shí)序,不需要保證所有群的絕對(duì)時(shí)序,所以解決思路就是同一個(gè)群的消息落到同一個(gè)發(fā)號(hào)service上面,消息seq通過service本地生成即可。
2)客戶端如何保證順序:
為什么要保證順序?因?yàn)橄⒓词拱凑枕樞虻竭_(dá)服務(wù)器端,也會(huì)可能出現(xiàn):不同消息到達(dá)接收端后,可能會(huì)出現(xiàn)“先產(chǎn)生的消息后到”“后產(chǎn)生的消息先到”等問題。所以客戶端需要進(jìn)行兜底的流量整形機(jī)制
如何保證順序?可以在接收方收到消息后進(jìn)行判定,如果當(dāng)前消息序號(hào)大于前一條消息的序號(hào)就將當(dāng)前消息追加在會(huì)話里。否則繼續(xù)往前查找倒數(shù)第二條、第三條等消息,一直查找到恰好小于當(dāng)前推送消息的那條消息,然后插入在其后展示。
相關(guān)資料可參考:
《零基礎(chǔ)IM開發(fā)入門(四):什么是IM系統(tǒng)的消息時(shí)序一致性?》
《一套億級(jí)用戶的IM架構(gòu)技術(shù)干貨(下篇):可靠性、有序性、弱網(wǎng)優(yōu)化等》
《如何保證IM實(shí)時(shí)消息的“時(shí)序性”與“一致性”?》
《一個(gè)低成本確保IM消息時(shí)序的方法探討》
整體消息推送和拉取的時(shí)序圖如下:
本系統(tǒng)是通過推拉結(jié)合來進(jìn)行服務(wù)器端消息的推送和客戶端的拉取。我們知道單pull和單push有以下缺點(diǎn)。
對(duì)于單pull:
對(duì)于單push:
對(duì)于推拉結(jié)合:
為什么做隔離?
如果客戶端一邊正在拉取數(shù)據(jù),一邊有新的增量消息push過來。
如何做隔離?
本地設(shè)置一個(gè)全局的狀態(tài),當(dāng)客戶端拉取完離線消息后設(shè)置狀態(tài)為1(表示離線消息拉取完畢)。當(dāng)客戶端收到拉取實(shí)時(shí)消息,會(huì)啟用一個(gè)輪詢監(jiān)聽這個(gè)狀態(tài),狀態(tài)為1后,再去向服務(wù)器拉取消息。
如果是push消息過來(不是主動(dòng)拉?。敲磿?huì)先將消息存儲(chǔ)到本地的消息隊(duì)列中,等待客戶端上一次拉取數(shù)據(jù)完畢,然后將數(shù)據(jù)進(jìn)行合并即可。
相關(guān)資料可參考:
《阿里IM技術(shù)分享(六):閑魚億級(jí)IM消息系統(tǒng)的離線推送到達(dá)率優(yōu)化》
《阿里IM技術(shù)分享(七):閑魚IM的在線、離線聊天數(shù)據(jù)同步機(jī)制優(yōu)化實(shí)踐》
以下是我設(shè)計(jì)的場(chǎng)景:
根據(jù)以上業(yè)務(wù)情況,來設(shè)計(jì)分布式ID:
優(yōu)點(diǎn):
缺點(diǎn):當(dāng)并發(fā)度不高的時(shí)候,時(shí)間跨毫秒的消息,區(qū)分不出來消息的先后順序。因?yàn)闀r(shí)間跨毫秒的消息生成的ID后面的最后一位都是0,后續(xù)如果按照消息ID維度進(jìn)行分庫分表,會(huì)導(dǎo)致數(shù)據(jù)傾斜。
兩種解決方案:
相關(guān)資料可參考:
《微信的海量IM聊天消息序列號(hào)生成實(shí)踐(算法原理篇)》
《微信的海量IM聊天消息序列號(hào)生成實(shí)踐(容災(zāi)方案篇)》
《解密融云IM產(chǎn)品的聊天消息ID生成策略》
《深度解密美團(tuán)的分布式ID生成算法》
《開源分布式ID生成器UidGenerator的技術(shù)實(shí)現(xiàn)》
《深度解密滴滴的高性能ID生成器(Tinyid)》
實(shí)現(xiàn)思路大致如下:
分布式鎖保證總未讀數(shù)和會(huì)話未讀數(shù)一致:
14.2群聊消息未讀數(shù)的難點(diǎn)和優(yōu)化思路
對(duì)于群聊來說,消息未讀數(shù)的技術(shù)難點(diǎn)主要是:一個(gè)群聊每秒幾百的并發(fā)聊天,比如消息未讀數(shù),相當(dāng)于每秒W級(jí)別的寫入redis,即便redis做了集群數(shù)據(jù)分片+主從,但是寫入還是單節(jié)點(diǎn),會(huì)有寫入瓶頸。
我的優(yōu)化思路是:按群ID分組或者用戶ID分組,批量寫入,寫入的兩種方式:定時(shí)flush和滿多少消息進(jìn)行flush。
本套IM系統(tǒng)在設(shè)計(jì)時(shí),將網(wǎng)關(guān)分為了接入層網(wǎng)關(guān)和應(yīng)用層網(wǎng)關(guān)兩種。
我的設(shè)計(jì)目標(biāo)是:
主要技術(shù)要點(diǎn):
設(shè)計(jì)方案(一個(gè)Notify包的數(shù)據(jù)經(jīng)網(wǎng)關(guān)的線程模型圖):
我的設(shè)計(jì)目標(biāo)是:
主要技術(shù)要點(diǎn):
設(shè)計(jì)方案(一個(gè)請(qǐng)求包的數(shù)據(jù)經(jīng)網(wǎng)關(guān)的架構(gòu)圖):
主要從以下幾個(gè)方面入手:
技術(shù)難點(diǎn)主要是:消息扇出大,比如每秒群聊有50條消息,群聊2000人,那么光一個(gè)群對(duì)系統(tǒng)并發(fā)就有10W的消息扇出。
優(yōu)化思路:
相關(guān)資料:
1.《網(wǎng)易云信技術(shù)分享:IM中的萬人群聊技術(shù)方案實(shí)踐總結(jié)》
2.《企業(yè)微信的IM架構(gòu)設(shè)計(jì)揭秘:消息模型、萬人群、已讀回執(zhí)、消息撤回等》
3.《融云IM技術(shù)分享:萬人群聊消息投遞方案的思考和實(shí)踐》
具體的代碼優(yōu)化思路就是:本地會(huì)話信息由一個(gè)hashmap保持,導(dǎo)致鎖機(jī)制嚴(yán)重,按照用戶標(biāo)識(shí)進(jìn)行hash,講會(huì)話信息存在多個(gè)map中,減少鎖競(jìng)爭(zhēng)。同時(shí)利用雙buffer機(jī)制,避免未讀計(jì)數(shù)寫入阻塞。
背景:消息下發(fā)到群聊服務(wù)后,需要發(fā)送拉取通知給接收者,具體邏輯是群聊服務(wù)同步消息到路由層,路由層發(fā)送消息給接收者,接收者再來拉取消息。
問題:如果消息連續(xù)發(fā)送或者對(duì)同一個(gè)接收者連續(xù)發(fā)送消息頻率過高,會(huì)有許多的通知消息發(fā)送給路由層,消息量過大,可能會(huì)導(dǎo)致logic線程堆積,請(qǐng)求路由層阻塞。
解決:發(fā)送者發(fā)送消息到邏輯層持久化后,將通知消息先存放一個(gè)隊(duì)列中,相同的接收者接收消息通知消息后,更新相應(yīng)的最新消息通知時(shí)間,然后輪訓(xùn)線程會(huì)輪訓(xùn)隊(duì)列,將多個(gè)消息會(huì)合并為一個(gè)通知拉取發(fā)送至路由層,降低了客戶端與服務(wù)端的網(wǎng)絡(luò)消耗和服務(wù)器內(nèi)部網(wǎng)絡(luò)消耗。
好處:保證同一時(shí)刻,下發(fā)線程一輪只會(huì)向同一用戶發(fā)送一個(gè)通知拉取,一輪的時(shí)間可以自行控制。
主要是:
智能心跳策略:比如正在發(fā)包的時(shí)候,不需要發(fā)送心跳。等待發(fā)包完畢后在開啟心跳。并且自適應(yīng)心跳策略調(diào)整。
相關(guān)資料:
《為何基于TCP協(xié)議的移動(dòng)端IM仍然需要心跳保活機(jī)制?》
《一文讀懂即時(shí)通訊應(yīng)用中的網(wǎng)絡(luò)心跳包機(jī)制:作用、原理、實(shí)現(xiàn)思路等》
《微信團(tuán)隊(duì)原創(chuàng)分享:Android版微信后臺(tái)保活實(shí)戰(zhàn)分享(進(jìn)程?;钇?》
《微信團(tuán)隊(duì)原創(chuàng)分享:Android版微信后臺(tái)?;顚?shí)戰(zhàn)分享(網(wǎng)絡(luò)保活篇)》
《融云技術(shù)分享:融云安卓端IM產(chǎn)品的網(wǎng)絡(luò)鏈路?;罴夹g(shù)實(shí)踐》
《移動(dòng)端IM實(shí)踐:實(shí)現(xiàn)Android版微信的智能心跳機(jī)制》
《萬字長文:手把手教你實(shí)現(xiàn)一套高效的IM長連接自適應(yīng)心跳保活機(jī)制》
背景:高峰期系統(tǒng)壓力大,偶發(fā)的網(wǎng)絡(luò)波動(dòng)或者機(jī)器過載,都有可能導(dǎo)致大量的系統(tǒng)失敗。加上IM系統(tǒng)要求實(shí)時(shí)性,不能用異步處理實(shí)時(shí)發(fā)過來的消息。所以有了柔性保護(hù)機(jī)制防止雪崩。
柔性保護(hù)機(jī)制開啟判斷指標(biāo),當(dāng)每個(gè)指標(biāo)不在平均范圍內(nèi)的時(shí)候就開啟。
這些判斷指標(biāo)主要是:
當(dāng)開啟了柔性保護(hù)機(jī)制,那么會(huì)返回失敗,用戶端體驗(yàn)不友好,如何優(yōu)化?
以下是我的優(yōu)化思路:
gate層重啟升級(jí)或者意外down機(jī)有以下問題:
解決方案如下:
Redis的作用背景:
如果Redis宕機(jī),會(huì)造成下面結(jié)果:
Redis宕機(jī)兜底處理策略:
核心設(shè)計(jì)要點(diǎn):
群用戶消息表 t_group_user_msg:
群消息表 t_group_msg:
參考資料:
1.《一套海量在線用戶的移動(dòng)端IM架構(gòu)設(shè)計(jì)實(shí)踐分享(含詳細(xì)圖文)》
2.《基于Netty,從零開發(fā)一個(gè)IM服務(wù)端》
搶紅包的大致核心邏輯如下:
相關(guān)資料:
《社交軟件紅包技術(shù)解密(一):全面解密QQ紅包技術(shù)方案——架構(gòu)、技術(shù)實(shí)現(xiàn)等》
《社交軟件紅包技術(shù)解密(二):解密微信搖一搖紅包從0到1的技術(shù)演進(jìn)》
《社交軟件紅包技術(shù)解密(三):微信搖一搖紅包雨背后的技術(shù)細(xì)節(jié)》
《社交軟件紅包技術(shù)解密(四):微信紅包系統(tǒng)是如何應(yīng)對(duì)高并發(fā)的》
《社交軟件紅包技術(shù)解密(五):微信紅包系統(tǒng)是如何實(shí)現(xiàn)高可用性的》
《社交軟件紅包技術(shù)解密(六):微信紅包系統(tǒng)的存儲(chǔ)層架構(gòu)演進(jìn)實(shí)踐》
《社交軟件紅包技術(shù)解密(七):支付寶紅包的海量高并發(fā)技術(shù)實(shí)踐》
《社交軟件紅包技術(shù)解密(八):全面解密微博紅包技術(shù)方案》
《社交軟件紅包技術(shù)解密(九):談?wù)勈諵紅包的功能邏輯、容災(zāi)、運(yùn)維、架構(gòu)等》
《社交軟件紅包技術(shù)解密(十):手Q客戶端針對(duì)2020年春節(jié)紅包的技術(shù)實(shí)踐》
《社交軟件紅包技術(shù)解密(十一):解密微信紅包隨機(jī)算法(含代碼實(shí)現(xiàn))》
《社交軟件紅包技術(shù)解密(十二):解密抖音春節(jié)紅包背后的技術(shù)設(shè)計(jì)與實(shí)踐》
假設(shè)是用戶A發(fā)消息給用戶B ,以下是完整的業(yè)務(wù)流程。
1)A打包數(shù)據(jù)發(fā)送給服務(wù)端,服務(wù)端接收消息后,根據(jù)接收消息的sequence_id來進(jìn)行客戶端發(fā)送消息的去重,并且生成遞增的消息ID,將發(fā)送的信息和ID打包一塊入庫,入庫成功后返回ACK,ACK包帶上服務(wù)端生成的消息ID。
2)服務(wù)端檢測(cè)接收用戶B是否在線,在線直接推送給用戶B。
3)如果沒有本地消息ID則存入,并且返回接入層ACK信息;如果有則拿本地sequence_id和推送過來的sequence_id大小對(duì)比,并且去重,進(jìn)行展現(xiàn)時(shí)序進(jìn)行排序展示,并且記錄最新一條消息ID。最后返回接入層ack。
4)服務(wù)端接收ACK后,將消息標(biāo)為已送達(dá)。
5)如果用戶B不在線,首先將消息存入庫中,然后直接通過手機(jī)通知來告知客戶新消息到來。
6)用戶B上線后,拿本地最新的消息ID,去服務(wù)端拉取所有好友發(fā)送給B的消息,考慮到一次拉取所有消息數(shù)據(jù)量大,通過channel通道來進(jìn)行分頁拉取,將上一次拉取消息的最大的ID,作為請(qǐng)求參數(shù),來請(qǐng)求最新一頁的比ID大的數(shù)據(jù)。
假設(shè)是用戶A發(fā)消息給群G,以下是完整的業(yè)務(wù)流程。
1)登錄,TCP連接,token校驗(yàn),名詞檢查,sequence_id去重,生成遞增的消息ID,群消息入庫成功返回發(fā)送方ACK。
2)查詢?nèi)篏所有的成員,然后去redis中央存儲(chǔ)中找在線狀態(tài)。離線和在線成員分不同的方式處理。
3)在線成員:并行發(fā)送拉取通知,等待在線成員過來拉取,發(fā)送拉取通知包如丟失會(huì)有兜底機(jī)制。
4)在線成員過來拉取,會(huì)帶上這個(gè)群標(biāo)識(shí)和上一次拉取群的最小消息ID,服務(wù)端會(huì)找比這個(gè)消息ID大的所有的數(shù)據(jù)返回給客戶端,等待客戶端ACK。一段時(shí)間沒ack繼續(xù)推送。如果重試幾次后沒有回ack,那么關(guān)閉連接和清除ack等待隊(duì)列消息。
5)客戶端會(huì)更新本地的最新的消息ID,然后進(jìn)行ack回包。服務(wù)端收到ack后會(huì)更新群成員的最新的消息ID。
6)離線成員:發(fā)送手機(jī)通知欄通知。離線成員上線后,拿本地最新的消息ID,去服務(wù)端拉取群G發(fā)送給A的消息,通過channel通道來進(jìn)行分頁拉取,每一次請(qǐng)求,會(huì)將上一次拉取消息的最大的ID,作為請(qǐng)求參數(shù)來拉取消息,這里相當(dāng)于第二次拉取請(qǐng)求包是作為第一次拉取的ack包。
7)分頁的情況下,客戶端在收到上一頁請(qǐng)求的的數(shù)據(jù)后更新本地的最新的消息ID后,再請(qǐng)求下一頁并且?guī)舷D。上一頁請(qǐng)求的的數(shù)據(jù)可以當(dāng)作為ack來返回服務(wù)端,避免網(wǎng)絡(luò)多次交互。服務(wù)端收到ack后會(huì)更新群成員的最新的消息ID。
主要是在線狀態(tài)維護(hù)。
相比于HTTP請(qǐng)求的業(yè)務(wù)系統(tǒng),接入層有狀態(tài),必須維持心跳和會(huì)話狀態(tài),加大了系統(tǒng)設(shè)計(jì)復(fù)雜度。
請(qǐng)求通信模型不一樣。相比于HTTP請(qǐng)求一個(gè)request等待一個(gè)response通信模型,IM系統(tǒng)則是一個(gè)數(shù)據(jù)包在全雙工長連接通道雙傳輸,客戶端和服務(wù)端消息交互的信令數(shù)據(jù)包設(shè)計(jì)復(fù)雜。
MQ作為解耦可以有以下好處:
但是缺點(diǎn)也有:
綜上:是否考慮使用MQ需要架構(gòu)師去考量,比如考慮業(yè)務(wù)是否允許、或者系統(tǒng)的流量、或者高可用設(shè)計(jì)等等影響因素。本項(xiàng)目基于使用成本、耦合成本和運(yùn)維成本考慮,采用Netty作為底層自定義通信方案來實(shí)現(xiàn),也能同樣實(shí)現(xiàn)層級(jí)調(diào)用。
參考資料:《阿里IM技術(shù)分享(九):深度揭密RocketMQ在釘釘IM系統(tǒng)中的應(yīng)用實(shí)踐》。
可以有以下好處:
因?yàn)門CP Keepalive狀態(tài)無法反應(yīng)應(yīng)用層狀態(tài)問題,如進(jìn)程阻塞、死鎖、TCP緩沖區(qū)滿等情況。
并且要注意心跳的頻率,頻率小則可能及時(shí)感知不到應(yīng)用情況,頻率大可能有一定的性能開銷。
參考資料:《為何基于TCP協(xié)議的移動(dòng)端IM仍然需要心跳?;顧C(jī)制?》、《徹底搞懂TCP協(xié)議層的KeepAlive?;顧C(jī)制》。
IM消息是非常龐大的,比如說群聊相關(guān)業(yè)務(wù)、推送,對(duì)于一些業(yè)務(wù)上可以忍受的場(chǎng)景,盡量使用MQ來解耦和通信,來降低同步通訊的服務(wù)器壓力。
我的設(shè)計(jì)是存1份,讀擴(kuò)散。
存多份的話(也就是寫擴(kuò)散)下同一條消息存儲(chǔ)了很多次,對(duì)磁盤和帶寬造成了很大的浪費(fèi)??梢栽诩軜?gòu)上和業(yè)務(wù)上進(jìn)行優(yōu)化,來實(shí)現(xiàn)讀擴(kuò)散。
當(dāng)然,對(duì)于IM是使用讀擴(kuò)散還是寫擴(kuò)散來實(shí)現(xiàn),這需要根據(jù)IM產(chǎn)品的業(yè)務(wù)定位來決定。比如微信就是寫擴(kuò)散(詳見《企業(yè)微信的IM架構(gòu)設(shè)計(jì)揭秘:消息模型、萬人群、已讀回執(zhí)、消息撤回等》),而釘釘卻是讀擴(kuò)散(詳見《深度解密釘釘即時(shí)消息服務(wù)DTIM的技術(shù)設(shè)計(jì)》)。
嚴(yán)格遞增會(huì)有單點(diǎn)性能瓶頸,比如MySQL auto increments。
redis性能好但是沒有業(yè)務(wù)語義,比如缺少時(shí)間因素,還可能會(huì)有數(shù)據(jù)丟失的風(fēng)險(xiǎn),并且集群環(huán)境下寫入ID也屬于單點(diǎn),屬于集中式生成服務(wù)。
小型IM可以根據(jù)業(yè)務(wù)場(chǎng)景需求直接使用redis的incr命令來實(shí)現(xiàn)IM消息唯一ID。
本項(xiàng)目采用snowflake算法實(shí)現(xiàn)唯一趨勢(shì)遞增ID,即可實(shí)現(xiàn)IM消息中,時(shí)序性,重復(fù)性以及查找功能。
關(guān)于消息ID的生成,可以參考下面的系列文章:
《微信的海量IM聊天消息序列號(hào)生成實(shí)踐(算法原理篇)》
《微信的海量IM聊天消息序列號(hào)生成實(shí)踐(容災(zāi)方案篇)》
《解密融云IM產(chǎn)品的聊天消息ID生成策略》
《深度解密美團(tuán)的分布式ID生成算法》
《開源分布式ID生成器UidGenerator的技術(shù)實(shí)現(xiàn)》
《深度解密滴滴的高性能ID生成器(Tinyid)》
gate會(huì)接收客戶端的連接請(qǐng)求(被動(dòng)),需要外網(wǎng)監(jiān)聽端口;entry會(huì)主動(dòng)給logic發(fā)請(qǐng)求(主動(dòng));entry會(huì)接收服務(wù)端給它的通知請(qǐng)求(被動(dòng)),需要內(nèi)網(wǎng)監(jiān)聽端口。一個(gè)端口對(duì)內(nèi),一個(gè)端口對(duì)外。
維護(hù)在每個(gè)msg層內(nèi)存中有狀態(tài):多級(jí)緩存避免和中間件多次交互,并發(fā)高。
維護(hù)在中央存儲(chǔ)的redis中,msg層無狀態(tài),redis壓力大,每次交互IO網(wǎng)絡(luò)請(qǐng)求大。
業(yè)務(wù)初期為了減少復(fù)雜度,可以維護(hù)在Redis中。
網(wǎng)關(guān)層到服務(wù)層,只需要單向傳輸發(fā)請(qǐng)求,網(wǎng)關(guān)層不需要關(guān)心調(diào)用的結(jié)果。
而客戶端想要的ack或者notify請(qǐng)求是由SDK發(fā)送數(shù)據(jù)到網(wǎng)關(guān)層,SDK也不需要關(guān)心調(diào)用的結(jié)果,最后網(wǎng)關(guān)層只轉(zhuǎn)發(fā)數(shù)據(jù),不做額外的邏輯處理。
SDK和所有的網(wǎng)關(guān)進(jìn)行長連接,當(dāng)發(fā)送信息給客戶端時(shí),根據(jù)路由尋址信息,即可通過長連接推送信息
本地TCP寫操作成功,但數(shù)據(jù)可能還在本地寫緩沖區(qū)中、網(wǎng)絡(luò)鏈路設(shè)備中、對(duì)端讀緩沖區(qū)中,并不代表對(duì)端應(yīng)用讀取到了數(shù)據(jù)。
如果你還不理解,可以讀讀這篇文章《從客戶端的角度來談?wù)勔苿?dòng)端IM的消息可靠性和送達(dá)機(jī)制》。
主要是從以下方面考慮:
在保證消息實(shí)時(shí)性的前提下,對(duì)于單聊,直接推送。
對(duì)于群聊,由于群聊人數(shù)多,推送的話一份群消息會(huì)對(duì)群內(nèi)所有的用戶都產(chǎn)生一份推送的消息,推送量巨大。
解決辦法是按需拉取,當(dāng)群消息有新消息時(shí)候發(fā)送時(shí)候,服務(wù)端主動(dòng)推送新的消息數(shù)量,然后客戶端分頁按需拉取數(shù)據(jù)。
IM協(xié)議簡單最好,如果讓其他的業(yè)務(wù)請(qǐng)求混進(jìn)IM協(xié)議中,會(huì)讓其IM變的更復(fù)雜,比如查找離線消息記錄拉取走h(yuǎn)ttp通道避免tcp 通道壓力過大,影響即時(shí)消息下發(fā)效率。
在比如上傳圖片和大文件,可以利用HTTP的斷點(diǎn)上傳和分段上傳特性。
主要有:
《跟著源碼學(xué)IM(一):手把手教你用Netty實(shí)現(xiàn)心跳機(jī)制、斷線重連機(jī)制》
《跟著源碼學(xué)IM(二):自已開發(fā)IM很難?手把手教你擼一個(gè)Andriod版IM》
《跟著源碼學(xué)IM(三):基于Netty,從零開發(fā)一個(gè)IM服務(wù)端》
《跟著源碼學(xué)IM(四):拿起鍵盤就是干,教你徒手開發(fā)一套分布式IM系統(tǒng)》
《跟著源碼學(xué)IM(五):正確理解IM長連接、心跳及重連機(jī)制,并動(dòng)手實(shí)現(xiàn)》
《跟著源碼學(xué)IM(六):手把手教你用Go快速搭建高性能、可擴(kuò)展的IM系統(tǒng)》
《跟著源碼學(xué)IM(七):手把手教你用WebSocket打造Web端IM聊天》
《跟著源碼學(xué)IM(八):萬字長文,手把手教你用Netty打造IM聊天》
《跟著源碼學(xué)IM(九):基于Netty實(shí)現(xiàn)一套分布式IM系統(tǒng)》
《跟著源碼學(xué)IM(十):基于Netty,搭建高性能IM集群(含技術(shù)思路+源碼)》
《跟著源碼學(xué)IM(十一):一套基于Netty的分布式高可用IM詳細(xì)設(shè)計(jì)與實(shí)現(xiàn)(有源碼)》(* 本文)
《SpringBoot集成開源IM框架MobileIMSDK,實(shí)現(xiàn)即時(shí)通訊IM聊天功能》
[1]史上最通俗Netty框架入門長文:基本介紹、環(huán)境搭建、動(dòng)手實(shí)戰(zhàn)
[2]強(qiáng)列建議將Protobuf作為你的即時(shí)通訊應(yīng)用數(shù)據(jù)傳輸格式
[3]IM通訊協(xié)議專題學(xué)習(xí)(一):Protobuf從入門到精通,一篇就夠!
[4]微信新一代通信安全解決方案:基于TLS1.3的MMTLS詳解
[5]探討組合加密算法在IM中的應(yīng)用
[6]從客戶端的角度來談?wù)勔苿?dòng)端IM的消息可靠性和送達(dá)機(jī)制
[7]IM消息送達(dá)保證機(jī)制實(shí)現(xiàn)(一):保證在線實(shí)時(shí)消息的可靠投遞
[8]理解IM消息“可靠性”和“一致性”問題,以及解決方案探討
[9]融云技術(shù)分享:全面揭秘億級(jí)IM消息的可靠投遞機(jī)制
[10]IM群聊消息如此復(fù)雜,如何保證不丟不重?
[11]零基礎(chǔ)IM開發(fā)入門(四):什么是IM系統(tǒng)的消息時(shí)序一致性?
[12]一套億級(jí)用戶的IM架構(gòu)技術(shù)干貨(下篇):可靠性、有序性、弱網(wǎng)優(yōu)化等
[13]如何保證IM實(shí)時(shí)消息的“時(shí)序性”與“一致性”?
[14]阿里IM技術(shù)分享(六):閑魚億級(jí)IM消息系統(tǒng)的離線推送到達(dá)率優(yōu)化
[15]微信的海量IM聊天消息序列號(hào)生成實(shí)踐(算法原理篇)
[16]社交軟件紅包技術(shù)解密(一):全面解密QQ紅包技術(shù)方案——架構(gòu)、技術(shù)實(shí)現(xiàn)等
[17]網(wǎng)易云信技術(shù)分享:IM中的萬人群聊技術(shù)方案實(shí)踐總結(jié)
[18]企業(yè)微信的IM架構(gòu)設(shè)計(jì)揭秘:消息模型、萬人群、已讀回執(zhí)、消息撤回等
[19]融云IM技術(shù)分享:萬人群聊消息投遞方案的思考和實(shí)踐
[20]為何基于TCP協(xié)議的移動(dòng)端IM仍然需要心跳?;顧C(jī)制?
[21]一文讀懂即時(shí)通訊應(yīng)用中的網(wǎng)絡(luò)心跳包機(jī)制:作用、原理、實(shí)現(xiàn)思路等
[22]微信團(tuán)隊(duì)原創(chuàng)分享:Android版微信后臺(tái)?;顚?shí)戰(zhàn)分享(網(wǎng)絡(luò)?;钇?
[23]融云技術(shù)分享:融云安卓端IM產(chǎn)品的網(wǎng)絡(luò)鏈路保活技術(shù)實(shí)踐
[24]阿里IM技術(shù)分享(九):深度揭密RocketMQ在釘釘IM系統(tǒng)中的應(yīng)用實(shí)踐
[25]徹底搞懂TCP協(xié)議層的KeepAlive?;顧C(jī)制
[26]深度解密釘釘即時(shí)消息服務(wù)DTIM的技術(shù)設(shè)計(jì)
(本文已同步發(fā)布于:http://www.52im.net/thread-4257-1-1.html)