翻譯耳機這個新賽道,當巨頭還在做「功能」,這家公司已在定義「體驗」。
作者|張勇毅
編輯|鄭玄
科幻小說中的「巴別魚」一直是人類對跨語言溝通的終極想象,一個能塞入耳中、即時消弭語言鴻溝的生命體。而在現(xiàn)實世界,將這一夢想變?yōu)楝F(xiàn)實的漫長征途,早在 2017 年便由一家名為時空壺的公司開啟。
那一年,當整個行業(yè)還未將目光聚焦于此時,時空壺就發(fā)布了全球第一款翻譯耳機,率先向這個看似遙不可及的目標發(fā)起了沖擊。他們的核心理念從始至終都無比清晰:要讓機器翻譯普及,關(guān)鍵在于打破專業(yè)同傳的交互壁壘,讓技術(shù)服務(wù)于人類最自然、最無感的交流方式。
這種開創(chuàng)性的思路,不僅定義了時空壺此后多年的產(chǎn)品路徑,也讓這家公司在全球市場悄然占據(jù)了「隱形冠軍」的位置。自 2019 年第一代產(chǎn)品在海外發(fā)售至今,時空壺已在這條專用賽道上深耕了超過六年。從最初的拓荒者變成如今定義產(chǎn)品功能與形態(tài)的獨角獸。
在 2025 年 9 月,德國柏林的 IFA 展會期間,時空壺攜其最新旗艦 W4 AI 同傳翻譯耳機登場亮相,再次用一種極致的務(wù)實主義,回應(yīng)了那個最初的夢想——「AI 翻譯,首先得讓對方聽清你說什么」。同時也借此直指行業(yè)最核心,也最容易被忽視的痛點:在真實世界的嘈雜與混亂中,如何保證輸入信號的純凈無暇。
01
硬件優(yōu)先
時空壺的創(chuàng)始人兼 CEO 田力在介紹 W4 的過程中,并未將重點放在描繪遙遠的 AI 未來,而是選擇直面那個最基礎(chǔ)卻也最致命的行業(yè)難題:噪音干擾下的語音識別。面對展會現(xiàn)場鼎沸的人聲與背景音樂,大多數(shù)音頻設(shè)備束手無策,而 W4 卻能實現(xiàn)驚人的清晰度。
其秘密武器,并非復(fù)雜的軟件算法,而是一項看似「返璞歸真」的硬件創(chuàng)新——一套被命名為「骨聲紋傳感器捕捉技術(shù)」的多麥克風(fēng)融合系統(tǒng)。
這套系統(tǒng)的核心,是一顆定制的骨傳導(dǎo)傳感器,它不依賴空氣作為介質(zhì),而是通過捕捉用戶說話時頭骨的振動來拾取聲音。這意味著,無論周圍環(huán)境多么嘈雜,無論是地鐵的轟鳴、餐廳的喧囂,還是展會的吵嚷,這些通過空氣傳播的噪聲都無法干擾到信號的采集。
與此同時,W4 的每只耳機還配備了兩顆傳統(tǒng)的氣導(dǎo)麥克風(fēng),用于收集聲音中的環(huán)境信息和部分細節(jié)。最終,通過時空壺自研的融合算法,將來自骨骼振動和空氣傳導(dǎo)的兩種信號進行整合,精準地提取出佩戴者最純粹的人聲,從物理源頭就「保護」了一個干凈的音頻信號。
這種理念與主流的軟件降噪有著本質(zhì)區(qū)別。傳統(tǒng)的降噪技術(shù)是一種「減法」,它首先錄制一個混雜了人聲和噪音的音頻,再試圖通過算法將噪音「減去」,這個過程不可避免地會損傷人聲的細節(jié),甚至產(chǎn)生失真。
而時空壺的方案則更像是一種「加法」或「保護」,它從一開始就獲得了一個幾乎不受污染的人聲音源,保證了后續(xù)翻譯環(huán)節(jié)的輸入質(zhì)量。田力對此解釋道:「我們很多的東西其實是在硬件和一些算法上,而它不是一個大家意義上的這種 AI 的純粹的云端的翻譯。真正決定用戶那個交互體驗的東西,不光是翻譯引擎那一刻,而是前面的很多環(huán)節(jié)?!?/p>
這款 W4 耳機在外觀設(shè)計上也貫徹了這種務(wù)實的哲學(xué)。它看上去與普通的 TWS 耳機差別不大,沒有夸張的科技元素。其設(shè)計語言低調(diào)而優(yōu)雅,充電盒手感溫潤,耳機本體則通過人體工學(xué)設(shè)計,確保了長時間佩戴的舒適性。將所有核心的智能模塊、電池都收納于小巧的機身之中,體現(xiàn)了對用戶日常使用體驗的深刻理解。
02
「隱形冠軍」的專注與耐心
推出這款產(chǎn)品的時空壺,早已不是一家初出茅廬的創(chuàng)業(yè)公司。但他們的成長路徑,在中國硬件公司中顯得頗為「非典型」。
早在眾多企業(yè)將「出?!棺鳛閼?zhàn)略口號之前,時空壺就已經(jīng)在海外市場默默耕耘。他們選擇先在美國市場發(fā)力,初期海外與國內(nèi)的銷量占比一度達到懸殊的 9:1。這種策略讓他們得以在最成熟、競爭最激烈的市場中打磨產(chǎn)品,并直接服務(wù)于那些對跨語言溝通有著最迫切需求的用戶——游客、商務(wù)人士以及跨國生活的家庭。
時空壺將自己的核心用戶定義為「專業(yè)型消費者 Prosumer」,田力認為這與大疆無人機的早期用戶畫像頗為相似。他們購買產(chǎn)品并非為了嘗鮮,而是為了解決一個專業(yè)且剛性的需求。如今,隨著全球用戶累計突破 100 萬,國內(nèi)市場的認知度也逐漸打開,時空壺的銷售比例也調(diào)整至更為均衡的「七三開」。
這種穩(wěn)健風(fēng)格的背后,是田力對公司經(jīng)營原則的堅持。他本人并非典型的硅谷式創(chuàng)業(yè)者,公司不依賴一輪又一輪的融資維持生命線,團隊規(guī)模也保持著克制,從 2023 年的幾十人穩(wěn)步增長至如今的一百多人。
「我們早已實現(xiàn)凈利潤為正」田力在專訪中坦言,「我們不是那種等著救命錢來干活的公司」因此他們更愿意將資源和精力投入到產(chǎn)品本身的迭代與打磨中,保持著一種在當下創(chuàng)投環(huán)境中略顯「緩慢」的節(jié)奏。
03
Babel OS:打造全棧AI引擎
隨著用戶量突破百萬,在真實嘈雜環(huán)境中進行清晰、流暢跨語言對話的需求已清晰可見,W4 項目應(yīng)運而生。除了在收音清晰度上的硬件突破,時空壺更是在系統(tǒng)和算法層面構(gòu)筑了堅實的核心壁壘。這套自研的系統(tǒng)被命名為「巴別系統(tǒng)」(Babel OS),它集成了時空壺多年來在翻譯領(lǐng)域的經(jīng)驗與技術(shù)沉淀。
Babel OS 的第一個支柱,是解決同傳中「速度」與「準確」矛盾的關(guān)鍵技術(shù)——「AI語義切分」。田力解釋道,同傳領(lǐng)域有一個經(jīng)典難題:傳統(tǒng)的機器翻譯同樣需要等待一個完整的句子或語義單元,延遲因此產(chǎn)生。而時空壺的技術(shù),能通過大模型實時分析語義,判斷一個意群是否完整,從而做出預(yù)判性的翻譯,先把主干意思傳遞出去,后續(xù)再快速修正。這正是用技術(shù)去無限逼近一個優(yōu)秀同傳譯員的判斷力。
田力補充道,「行業(yè)標準里,真人同傳譯員的準確率也并非 100%,大約是 80% 多,因為他們追求的是快和流暢。我們做的,就是用技術(shù)實現(xiàn)這種平衡。」
Babel OS 的第二個支柱,則是利用大語言模型(LLM)實現(xiàn)「語境感知翻譯」。這是解決翻譯準確性,尤其是處理多義詞和近音詞的關(guān)鍵。例如,在英語中,「to, too, two」或「there, their, they're」等詞語,如果脫離上下文,機器很難準確判斷。時空壺通過其自研的「TurboFast AI 翻譯引擎」和 LLM 的強大能力,讓系統(tǒng)能夠理解對話的整體語境,從而在這些細微之處做出精準的判斷,極大地提升了翻譯的自然度和準確性。
「我們最開始也用谷歌、微軟的引擎,但很快發(fā)現(xiàn),要達到理想的用戶體驗,必須親自動手去改造模型,」田力說。如今,無論是谷歌還是三星,都選擇將翻譯作為其旗艦耳機的一項附加功能。而時空壺的全棧自研模式,則展現(xiàn)了截然不同的決心。田力指出,大廠的翻譯引擎在很多小語種上表現(xiàn)不佳,例如阿拉伯語、越南語等,存在大量未被解決的「角落案例」。
對此,時空壺的結(jié)論是:只有自研才能實現(xiàn)端云一體的深度優(yōu)化,例如通過前端對聲音進行特殊編解碼,再喂給云端專門訓(xùn)練過的模型,從而極大提升速度和魯棒性。這種覆蓋硬件、固件、系統(tǒng)到 AI 模型的全棧能力,讓時空壺更像一家專注的通信設(shè)備公司,而非純粹的 AI 軟件公司。
04
定義同傳翻譯標準
在時空壺內(nèi)部,他們用一個 L1 到 L5 的框架來定義「好的跨語言交流」,本次隨著 W4 發(fā)布,這一類似自動駕駛行業(yè)標準的「同傳翻譯行業(yè)標準」也一并向外界揭曉。
L1,是電子詞典級別的「詞對詞」翻譯。
L2,是谷歌翻譯 App 式的「句對句」翻譯,交互是斷續(xù)的。
田力認為,市面上大部分產(chǎn)品,包括巨頭們推出的功能,其交互方式——例如兩人輪流對著手機講話——決定了體驗只做到了L2.5,這并非人類自然的交流方式。
而時空壺努力做到的,是L3——自由對話。為了實現(xiàn)這一目標,W4 提供了多種精心設(shè)計的翻譯模式。核心的「雙語對話」模式,允許兩個人各佩戴一只耳機,進行近乎實時的、面對面的自然交流,翻譯結(jié)果會直接在各自的耳機中播放。此外,還有適用于聽講座的「聽譯模式」,以及為問路等快速場景設(shè)計的「問答模式」。這些模式覆蓋了用戶在旅途和商務(wù)中最常見的使用場景,真正讓「邊走邊聊」的跨語言溝通成為可能。
但 L3 也并非他們設(shè)想中、AI 同傳耳機的終點?!肝覀兊哪繕耸?L4,達到高級同傳譯員的水平,」田力這樣介紹時空壺對同傳翻譯耳機場景的規(guī)劃。
在采訪中,田力還與作者分享了一個現(xiàn)實中土耳其高級譯員的故事:在一次同傳中,官員即興講了個本土笑話,譯員知道直譯國外聽眾無法理解,便在電光火石間對著麥克風(fēng)說:「現(xiàn)在,領(lǐng)導(dǎo)講了一個笑話,請大家笑一下。」全場爆笑,效果絕佳?!改憧?,這已經(jīng)超越了語言本身,是對意圖、情緒和氛圍的理解。這是 AI 目前最難做到的,需要多模態(tài)的感知,也是我們努力的方向。」
05
做同傳耳機賽道里的「大疆」
正是基于這種對專業(yè)體驗的極致追求,時空壺選擇了耳機這一產(chǎn)品形態(tài),并為其設(shè)定了 349 美元的專業(yè)級定價。面對外界關(guān)于「憑什么賣這么貴」的質(zhì)疑,田力顯得很自信,在對話中,田力將時空壺的產(chǎn)品邏輯比作大疆的無人機,而非智能音箱。
「你買大疆的無人機,不是因為它也能當風(fēng)扇,而是因為它在航拍這個專業(yè)領(lǐng)域做到了極致。我們的用戶選擇 W4,是因為它在跨語言溝通這個特定場景下,提供了遠超通用設(shè)備的卓越體驗。」
這或許也是時空壺為何并未急于像其他 AI 硬件一樣,采用訂閱制收費的原因。田力認為,在行業(yè)整體成熟度僅在「及格線」徘徊時,首要任務(wù)是把基礎(chǔ)體驗從 70 分做到 100 分,而不是過早推出一個 100 分產(chǎn)品才需要的高級商業(yè)模式。
在談及與科技巨頭的競爭時,田力認為小公司永遠有機會。「谷歌做硬件,恕我直言,一直有種『玩票性質(zhì)』,」他回憶,「我 2019 年在灣區(qū)見過他們項目的人,他們覺得這個功能很酷,就做出來了,但用戶用得好不好,不是最在意的。所以谷歌硬件總是『起個大早,趕個晚集』?!箤揞^來說,翻譯只是其龐大生態(tài)中的一項附加功能;而對于時空壺,「這是我們的『命根子』。小公司跟大公司比,本質(zhì)上比的還是認真和專注?!?/p>
為了更加直觀地展示機器翻譯的真實水平,時空壺此前曾使用自家產(chǎn)品,參與過一場「人機大戰(zhàn)」,讓其產(chǎn)品與真人同傳譯員同臺競技。這不僅是一次營銷,更是向頂級譯員學(xué)習(xí)的方式?!竿ㄟ^這種極限對比,我們能更清楚地看到自己的差距和努力的方向,」田力說。
關(guān)于 AI 硬件乃至?xí)r空壺本身的未來,田力聊到驅(qū)動著他和團隊前行的樸素愿景。他相信,人類作為社會性動物,天生渴望交流與連接,而語言的壁壘所帶來的,是真實存在的不安與孤立。
而在他看來,時空壺的使命,是要打造一把鑰匙,去開啟那扇因語言而緊鎖的溝通之門,賦予人們跨越鴻溝的勇氣——那種可以跟任何人交流,去連接的從容。這才是他們最大的成就感來源。
「人類是社會性動物,天生渴望交流和連接,」在采訪的最后,田力回歸到了創(chuàng)業(yè)的初心,「當你去到一個陌生的國家,語言不通時,那種不安全感是真實存在的。我們希望通過產(chǎn)品,賦予人們勇氣,讓他們可以很爽地去跟任何人交流,去連接,去成為朋友」
因此從某種程度上,W4 不僅僅是一款追逐 AI 浪潮的硬件。更是時空壺對這種愿景的載體,是這家公司用近十年的專注與積累,為消除人類的隔閡所獻上的最新答案。
「消除語言障礙,可能不是一百年內(nèi)能完成的事,」田力坦言,「但我們正走在這條路上。」
*頭圖來源:極客公園
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信 geekparkGO
極客一問
你如何看待 W4 AI 同傳翻譯耳機?
馬斯克:同情心是好的,但要小心武器化的同情心。
點贊關(guān)注極客公園視頻號,p>