北京時間8月12日消息,據(jù)國外媒體報道,今年是大數(shù)據(jù)(Big Data)發(fā)展史上一個重要年份,由技術(shù)圈進入了主流市場。
大數(shù)據(jù)是瑞士達沃斯世界經(jīng)濟論壇上一個重要主題,與會者發(fā)布了題為《大數(shù)據(jù),大影響》(Big Data, Big Impact)。3月份,美國聯(lián)邦政府公布了一項耗資2億美元的大數(shù)據(jù)計算研究計劃。
《紐約時報》在文章標題中也采用了“Big Data”這一術(shù)語,例如“The Age of Big Data”(大數(shù)據(jù)的時代)。大數(shù)據(jù)概念普及的一個確定跡象出現(xiàn)在上個月,斯科特·亞當斯(Scott Adams)創(chuàng)作的《Dilbert》漫畫中,一幅漫畫的文字內(nèi)容為,“它無所不在,無所不知”(It comes from everywhere. It knows all),下一幅漫畫的內(nèi)容是,“這就是大數(shù)據(jù)”(its name is Big Data)。
“大數(shù)據(jù)”術(shù)語成功的原因有兩個,其一是術(shù)語本身技術(shù)性不強,其二是術(shù)語包含著“前程遠大”的一系列不斷進步的技術(shù)。
大數(shù)據(jù)是一個速寫符號,意味著將人工智能工具——例如機器學(xué)習,用于處理非標準數(shù)據(jù)庫中的數(shù)據(jù),其中包括用戶上網(wǎng)瀏覽習慣資料、社交網(wǎng)絡(luò)用戶信息、傳感器數(shù)據(jù)和監(jiān)視數(shù)據(jù)。
海量數(shù)據(jù)和智能軟件算法的結(jié)合為企業(yè)捕捉新商機提供了可能。例如,谷歌(微博)和Facebook都是大數(shù)據(jù)公司。IBM的Watson超級計算機去年在問答節(jié)目《Jeopardy》中戰(zhàn)勝人類是大數(shù)據(jù)計算的勝利。從理論上說,大數(shù)據(jù)能改進商業(yè)和醫(yī)療等過程中的決策,使決策越來越信賴于數(shù)據(jù)和分析而非直覺和經(jīng)驗。
康奈爾大學(xué)計算機科學(xué)家喬恩·克萊因伯格(Jon Kleinberg)稱,“大數(shù)據(jù)這個術(shù)語本身很模糊,但在某些方面卻又非常具體。大數(shù)據(jù)是可能改造一切的一種過程的標簽。”
一直以來,不斷增長的數(shù)據(jù)都是一項挑戰(zhàn)。19世紀末,人口普查員不知道如何統(tǒng)計和分類快速增長的美國人口。1890年的人口普查中出現(xiàn)了一項創(chuàng)新性突破,那就是由赫爾曼·霍勒瑞斯(Herman Hollerith)發(fā)明的可以由機器處理的穿孔卡片,這項技術(shù)成為IBM的基礎(chǔ)。
大數(shù)據(jù)是一個修辭學(xué)意義上的詞匯,在數(shù)據(jù)方面,“大”(big)是一個快速發(fā)展的術(shù)語。據(jù)數(shù)名計算機科學(xué)家和業(yè)內(nèi)高管稱,2008年“大數(shù)據(jù)”這一術(shù)語開始在技術(shù)圈內(nèi)出現(xiàn)?!哆B線》發(fā)表了一篇文章,中肯地闡述了數(shù)據(jù)泛濫帶來的機遇和挑戰(zhàn)。《連線》稱,大數(shù)據(jù)是“Petabyte時代”的開端。這是一篇很好的文章,但“Petabyte”技術(shù)性過強,很難在主流市場上流行開來。人類將會創(chuàng)建比petabyte量級更多的數(shù)據(jù)——exabyte、zettabyte和yottabyte。
起初,許多科學(xué)家和工程師都嘲笑“大數(shù)據(jù)”只不過是一個營銷術(shù)語。2008年末,“大數(shù)據(jù)”得到部分美國知名計算機科學(xué)研究人員的認可,業(yè)界組織“計算社區(qū)聯(lián)盟”(Computing Community Consortium)發(fā)表了一份有影響力的白皮書《大數(shù)據(jù)計算:在商務(wù)、科學(xué)和社會領(lǐng)域創(chuàng)建革命性突破》,作者是一位知名計算機科學(xué)家,卡耐基·梅隆大學(xué)的蘭道爾·布賴恩特(Randal E. Bryant)、加利福尼亞大學(xué)伯克利分校蘭迪·卡茲(Randy H. Katz)、華盛頓大學(xué)的愛德華·拉佐斯加(Edward D. Lazowska)。
他們的認可對“大數(shù)據(jù)”術(shù)語提供了智力支持。IBM技術(shù)專家、新興互聯(lián)網(wǎng)技術(shù)副總裁洛德·史密斯(Rod A. Smith)表示,他喜歡“大數(shù)據(jù)”這個術(shù)語,因為它使人們的思維不僅局限于數(shù)據(jù)處理的機器,“大數(shù)據(jù)真正重要的是新用途和新見解,而非數(shù)據(jù)本身”。
IBM在營銷中使用了“大數(shù)據(jù)”術(shù)語,尤其是在與客戶溝通后。2008年,史密斯的團隊建立了一個網(wǎng)站,解釋“大數(shù)據(jù)”的概念,該網(wǎng)站的內(nèi)容已經(jīng)得到極大豐富。2011年,IBM引進了Twitter標簽——#IBMbigdata。IBM還建立了大數(shù)據(jù)郵件列表,今年1月份出版了一本標題為《理解大數(shù)據(jù)》(Understanding Big Data)的電子書。
創(chuàng)辦于1976年的SAS Institute(以下簡稱“SAS”)開發(fā)了遍歷數(shù)據(jù)庫、獲取有價值信息的軟件。SAS所處的業(yè)務(wù)領(lǐng)域出現(xiàn)了許多術(shù)語,其中包括“數(shù)據(jù)挖掘”(data mining)、“商業(yè)智能”(business intelligence)和“數(shù)據(jù)分析”(data analytics)。
最初,SAS首席營銷官吉姆·戴維斯(Jim Davis)認為“大數(shù)據(jù)”不過是業(yè)界的另一個營銷用語而已,“最初我對它不感興趣”,他指出,數(shù)十年來,SAS的大企業(yè)客戶——例如銀行和保險公司,一直在“挖掘”海量數(shù)據(jù)。
但是,大數(shù)據(jù)技術(shù)能利用企業(yè)數(shù)據(jù)庫之外的全部Web數(shù)據(jù)。隨著SAS的技術(shù)能夠利用這些互聯(lián)網(wǎng)時代的海量數(shù)據(jù),其營銷也隨之發(fā)生了變化。去年,SAS開始使用“大數(shù)據(jù)”、“大數(shù)據(jù)分析”(Big Data analytics)術(shù)語。多年來,SAS一直使用“高性能分析”(high-performance analytics)術(shù)語。5月份,SAS任命了一名負責大數(shù)據(jù)業(yè)務(wù)的副總裁保羅·肯特(Paul Kent)。戴維斯說,“我們必須‘人云亦云’。”
“大數(shù)據(jù)”也有負面意義,因為“Big Brother”、“Big Oil”、“Big Government”等詞匯帶有貶義。大數(shù)據(jù)技術(shù)的支持者稱,使用“大數(shù)據(jù)”術(shù)語的好處大于風險。 |