當(dāng)前的時(shí)代背景下,理解懷念過去是可以理解的,但我們正處在這樣的環(huán)境里,因此,可觀測(cè)性永遠(yuǎn)不會(huì)和從前一樣了。
最近,可觀測(cè)性變得越來越復(fù)雜,肯定比IT監(jiān)控的早期階段要復(fù)雜得多,那時(shí)所有的事物都是在大型主機(jī)上運(yùn)行,日志和所有可用的監(jiān)控?cái)?shù)據(jù)都可以輕松地收集和可視化。
即使在更近期應(yīng)用成為大多數(shù)組織的核心之后,情況也簡(jiǎn)單得多。然而,在我們當(dāng)前的Kubernetes、微服務(wù)和無服務(wù)器的世界,情況看起來大不相同。想象一下用錘子擊碎過去那可以輕松觀測(cè)的流動(dòng),看著它分解成上百塊碎片;但是,所有這些小碎片仍必須保持緊密相連并持續(xù)交流。
本質(zhì)上,這種情況是由初期引入的抽象化和虛擬化所造成的。然后Kubernetes出現(xiàn)了,它的短暫、快速變化和分布式特性增加了許多復(fù)雜度。在這里,一切都變得更加難以管理,也更難監(jiān)控和故障排除;許多人感到不知所措,納悶自己陷入了什么狀況。我們可能會(huì)問自己——是否一切真的需要這么復(fù)雜?
理解懷念過去是可以理解的,但我們正處在這樣的環(huán)境里,因此,可觀測(cè)性永遠(yuǎn)不會(huì)和從前一樣了。
重新審視“現(xiàn)代”可觀測(cè)性的界限
首先,讓我們退一步,介紹一些基本原則,從定義開始。在我們的云基礎(chǔ)設(shè)施和應(yīng)用程序的背景下,可觀測(cè)性是檢查軟件并做出基于數(shù)據(jù)的決策來監(jiān)控和修復(fù)生產(chǎn)系統(tǒng)的藝術(shù)。關(guān)鍵是要注意,這些決策應(yīng)該專注于特定的結(jié)果和服務(wù)級(jí)別目標(biāo),而不僅僅是持續(xù)的監(jiān)控、報(bào)警和故障排除。
然后,讓我們考慮在當(dāng)今世界設(shè)計(jì)一個(gè)可靠的可觀測(cè)性系統(tǒng)的藝術(shù)——在編碼或基礎(chǔ)設(shè)施問題已經(jīng)發(fā)展成大數(shù)據(jù)問題的地方——這現(xiàn)在還需要找到方法來提高這些現(xiàn)代可觀測(cè)性系統(tǒng)的計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)需求的效率。更多的數(shù)據(jù)不意味著更好的洞見。
事實(shí)證明,抽象化、虛擬化和微服務(wù)只是冰山一角。隨著人工智能工具的出現(xiàn)和持續(xù)采用,比如Copilot、Code Whisperer等,人類處理、分析和關(guān)聯(lián)數(shù)十億個(gè)不同的事件來理解他們編寫的代碼是否按預(yù)期運(yùn)行,這實(shí)際上成為一個(gè)無法解決的問題。再次,可觀測(cè)性成為一個(gè)迫在眉睫的大數(shù)據(jù)難題。
即使工程師具有理解可觀測(cè)性信號(hào)以及如何分析遙測(cè)數(shù)據(jù)的技能——這是難以獲取的人才——要分類的海量數(shù)據(jù)也是不現(xiàn)實(shí)的,甚至是驚人的。事實(shí)是,大量數(shù)據(jù)中絕大部分對(duì)洞察關(guān)鍵業(yè)務(wù)系統(tǒng)的性能沒有特別大的用處。
更多不等于更好。與此同時(shí),大多數(shù)流行的可觀測(cè)性解決方案表明,需要通過使用大量復(fù)雜的功能和額外的工具來解決龐大的數(shù)據(jù)流和復(fù)雜性這個(gè)大數(shù)據(jù)問題——所有這些都需要一個(gè)高昂的價(jià)格標(biāo)簽,與數(shù)據(jù)膨脹相匹配。但還是有希望的。
迎接人工智能可觀測(cè)性時(shí)代
在微服務(wù)和人工智能生成代碼的現(xiàn)代可觀測(cè)性時(shí)代,可觀測(cè)性不必過于復(fù)雜或昂貴,是的——日益增長的人工智能應(yīng)用提供了巨大的希望。驅(qū)動(dòng)人工智能驅(qū)動(dòng)代碼的大語言模型(LLM)為可觀測(cè)性提供了一種新的方法。
這是如何工作的?LLM正在變得善于處理、學(xué)習(xí)和識(shí)別大規(guī)模重復(fù)文本數(shù)據(jù)中的模式——這正是高度分布式和動(dòng)態(tài)系統(tǒng)中的日志數(shù)據(jù)和其他遙測(cè)的本質(zhì)特征。LLM知道如何回答基本問題并得出有用的推斷、假設(shè)和預(yù)測(cè)。
這種方法并不完美,因?yàn)長LM模型還不是為實(shí)時(shí)設(shè)計(jì)的,在確定完整的上下文范圍以解決所有可觀測(cè)性難題方面也不夠準(zhǔn)確。然而,與人類在合理的時(shí)間內(nèi)理解和建立大量機(jī)器生成的數(shù)據(jù)的上下文相比,首先用LLM建立一個(gè)基線,了解發(fā)生了什么并獲得有益的建議要容易得多。
因此,LLM對(duì)解決可觀測(cè)性問題非常相關(guān)。它們旨在用于基于文本的系統(tǒng),以及分析和提供見解。這可以通過集成輕松地應(yīng)用于可觀測(cè)性,以提供有意義的建議。
我們認(rèn)為,在這方面LLM的最大價(jià)值之一是更好地支持可能沒有很高技術(shù)熟練度的從業(yè)者,并使他們能夠處理必須解決的大量復(fù)雜數(shù)據(jù)。大多數(shù)需要恢復(fù)的生產(chǎn)問題都有足夠的時(shí)間讓LLM根據(jù)歷史上下文數(shù)據(jù)提供幫助。通過這種方式,LLM能夠使可觀測(cè)性更簡(jiǎn)單、更經(jīng)濟(jì)高效。
與此同時(shí),盡管人工智能在可觀測(cè)性方面正在變得日益強(qiáng)大,但未來還有更有趣、更具顛覆性的機(jī)會(huì)。接下來的是可以用自然語言書寫和調(diào)查的LLM,而不是晦澀難懂的查詢語言——這對(duì)所有級(jí)別的用戶來說都是巨大的福音,但對(duì)那些比較缺乏實(shí)踐經(jīng)驗(yàn)的人尤其如此,包括業(yè)務(wù)部門的管理人員。
用戶不再需要掌握所有相關(guān)信息的專家,現(xiàn)在人們能夠編寫與常見參數(shù)相關(guān)的查詢,最重要的是業(yè)務(wù)部門主管使用的自然語言,而不僅僅是生產(chǎn)工程師。這為廣泛的新流程和利益相關(guān)者解鎖了可觀測(cè)性,不僅僅是生產(chǎn)工程師。
在Logz.io,我們已經(jīng)開始與LLM集成,現(xiàn)在正在平臺(tái)上努力開發(fā)令人興奮的新功能,目的是利用這些新興的人工智能能力。我們相信,這是為面臨大數(shù)據(jù)挑戰(zhàn)的尋求必要可觀測(cè)性的組織提供下一波關(guān)鍵創(chuàng)新的手段。雖然成本和復(fù)雜性的緊迫問題在市場(chǎng)上仍然存在,但我們相信這給了每個(gè)人許多保持樂觀的理由。