正在阅读:

中亚小国,也开始卷AI了

扫一扫下载界面新闻APP

中亚小国,也开始卷AI了

这个曾被视为数字荒漠的国度,如今正在依托政府的支持和年轻人的实干,让人工智能版图艰难而坚定地向上生长。

文|霞光AI实验室 朱峰琳

编辑|刘景丰

帕米尔的风掠过杜尚别的老街,路边排挡腾起烤包子的热气,退休老人握着茶杯消磨午后。

这在塔吉克斯坦是十分常见的生活场景。这个与中国新疆相连的山地之国,到2025年底,人口才达到1070万,人均GDP约1700美元,仅为中国的一成左右,至今仍有许多家庭要靠赴俄务工来维持生计。

但就是这样一个整体国民仍处在传统生活底色之上的国家,偏偏诞生出一批人正在用代码开拓着新可能:

年轻的人口结构带来了相对稳定的技术供给,当地越来越多IT、AI等技术相关专业的学生选择留下,组成一个个初创团队,在格子间里敲击键盘,用算法为银行搭建着风控模型,为企业做着数据标注。

这些年轻人的努力,也契合着国家规划的脚步。2022年,塔吉克斯坦签署了《塔吉克斯坦共和国人工智能发展战略》,明确目标:到2040年,人工智能贡献国家GDP的5%。

没有庞大的资本与人才储备,也没有巨型的旗舰项目。5%,这一目标的增量究竟从何而来?

答案其实就在一个字——新。

塔吉克斯坦的AI建设实在是太“新”了,新到几乎没有需要重构的陈旧系统,但这也反而成了其优势。 竞争压力小,需求大,在一片待开垦的蓝海中,能够跳过传统的技术迭代周期,以极快的速度搭建起AI模型、打造出AI产品。

这个曾被视为数字荒漠的国度,如今正在依托政府的支持和年轻人的实干,让人工智能版图艰难而坚定地向上生长。

塔吉克,有了第一批AI人才

出生在塔吉克斯坦、长期生活在中国,今年27岁的Bonu,正置身于当下的AI创业浪潮之中。

创业的起点,源于她想为自己的母语做点事情。

塔吉克斯坦是一个以塔吉克语为母语的国家,但在大城市及官方事务中俄语更为通用,本土语言在互联网领域长期处于边缘地位, 数字生态难以规模化生长。事实上,不仅仅是塔吉克斯坦,整个中亚五国都面临着相似的局面,本土的原生互联网产品寥寥无几。

这种高度依赖的产业格局,使得主流大模型大多只基于像俄语这种高资源语言进行开发,而在面对塔吉克语这类低资源语言时,往往在长尾问题的处理上表现不佳。但如今,技术的更迭带来了新的切入点:构建垂直于小语种的AI大模型,不仅能够打破语言与数据的底层壁垒,更是孕育本土数字经济企业、逐步摆脱外部生态依赖的一次重要契机。

于是,Bonu和她的团队决定自己从零起步,专为塔吉克语打造LLM,建立起自主可控的主权AI能力。

这样的选择,注定了这条创业之路会走得格外艰难。

首先就是人才。在一个AI市场尚处萌芽的国度,团队要从0到1搭建数据与基础设施,这需要真正理解底层架构的专家。然而,塔吉克斯坦当地的AI人才供给体系仍处于早期建设阶段。2023年,首批5所塔吉克斯坦的本土高校开始设立AI专业,且核心授课的师资多数也都是刚刚通过国际合作项目完成向机器学习方向转型的老师。目前该市场上可用的AI从业者,主要也都是依赖当地机构输出的短期培训生。

其次是数据。塔吉克语属于典型的低资源语言,市场上几乎找不到现成的语料库,训练素材极度匮乏。

此外,作为初创公司,赢得公司、机构乃至政府的信任,需要漫长的时间沉淀。

尽管挑战重重,但一群年轻人聚在一起,还是创造出了可能。

第一个塔吉克语大模型,进入当地学校

人才缺口是最优先被解决的。

Bonu和斯坦福大学、牛津大学、MIT的几位校友共同组建团队,创立了zehn,并将公司总部设于迪拜。为了夯实技术底座,团队还邀请了人工智能领域博士担任技术顾问,加强模型研发能力。

目前,zehn共有10人,大多数员工分布在不同地区,通过线上协作的方式办公。

人才聚齐后,核心挑战便转向了数据。

据Epoch AI研究显示,在80%的置信区间内,现有数据资源将在2026年至2032年间的某个时点耗尽。这就意味着,届时即便大型公司也将面临训练数据不足的局面,模型幻觉与错误率或将随之攀升。

因此,数据匮乏不仅是zehn这类专注低资源场景的初创公司所需面对的难题,更是未来所有模型企业必须应对的行业共性挑战。

针对这一困境,zehn的解决方案是从相关语言进行迁移学习。

由于文化的迁移,塔吉克语与波斯语很像,语言主体基本相同,只是书写体系有所不同。团队通过检索数据来源、人工评估、多种实验,以及对中亚各语言开展多语言的对抗性测试,精准识别模型在高置信度下的潜在错误。这种严格的数据筛选机制,有效抑制了模型幻觉的产生。

2026年5月,zehn开发的塔吉克语模型SoroLLM已在塔吉克斯坦100多所学校落地,并计划于今年9月部署至全国4000多所学校,成为国家AI课程体系的重要组成部分。依托这一语言模型,师生无需再借助英语或俄语,即可直接用母语备课、提问与学习。对许多当地孩子而言,这是首次体验到AI以他们的母语作出回应。

小概率事件做出大生意

沿着攻坚低资源本土语言模型的思路,zehn还将目标进一步扩展到了其他大模型难以处理的边缘场景中。

“如今大部分模型都在通过优化更好地解决日常99%的问题,而我们就想要去专注于剩下的1%。”Bonu表示。

所谓的1%,就是那些被主流大模型忽视的罕见、关键且难以覆盖的极端边缘情况。比如在金融领域,信用模型在流动性冲击期间会崩溃;在国防领域,无人机在面对伪装目标或陌生地形时会失效......

这些场景往往具备“高风险”“偶发性”特征,尽管发生几率十分小,但模型一旦失效就会带来灾难性的后果。同时还存在着“性能瓶颈”,无论再怎么堆砌常规的历史训练数据,准确率都会陷入停滞,无法自发应对未见过的变数。

而攻克这1%的价值,就在于让模型真正具备应对未知变数的能力。不仅能保证AI在最关键的时刻依然稳定可靠,也让团队避开了与科技巨头的正面交锋,在通用大模型难以触及的盲区中,建立起自己不可替代的竞争优势。

面对这1%稀缺到近乎空白的数据环境,又该如何练出高质量的模型?

zehn给出的回答是——合成数据。

基于物理和场景进行仿真模拟,使用生成式模型来制造那些罕见场景,让它们在真实发生之前就训练模型学会如何处理。比如,在自动驾驶场景中,行人以一个不确定的角度横穿马路,这就算作是一个“异常值”。用这些异常值去做压力测试,最终实现当现实中真的有人在某个角度下横穿马路时,模型就已具备应对能力,从而降低事故风险。

这里所谓的“异常值”,是指生成现实可行的边缘案例,必须是现实有可能发生的,目的是精确找到模型在哪些地方会失败,然后针对这些情况对模型进行加固。而在此之前,更重要的一点,是要先判断哪些异常值是“智能”的、哪些不是,只把有效的数据用于模型训练,以此来保证在拉伸模型能力边界的同时,不会把模型推到超出安全极限的范围。

“数据质量比数据本身更重要。”Bonu强调,所以即使是合成数据,zehn也始终坚持使用小而干净的真实数据,而非那些庞大杂乱的数据集。

基于对极端天气与对抗性伪装数据的合成,zehn研发了面向智慧城市与国防的视觉模型Zev-1。此外,团队还与阿布扎比先进技术研究理事会达成了合作,开发出了专注金融场景的模型FalconFinance。随着这些针对低资源极端场景的模型陆续落地,zehn所走的这条路,也逐步获得了官方层面的认可。

从路线选择不难看出,与很多做模型的公司不同,zehn从一开始就避开了消费级应用,而是瞄准公共部门与基础设施。

“真正的决胜点并不在于模型本身。因为现在大家都有好的模型,所以能构建竞争力的关键于本地数据和本地关系。最终能赢得市场的,也会是那些掌握本地数据,获得当地政府、企业信任与支持的公司,而不是拥有最大模型的公司”,Bonu认为。

听起来有些反常识,毕竟现在很多模型都是做的消费市场,面向C端用户。但要知道,zehn从最一开始走的就不是寻常路,而是锚定大部分人所忽略的那1%极端情况。

AI企业不再固守本土

不过,面向B端和G端做业务并不容易。特别是在商业化阶段,要去说服更多人为“应对罕见事件”这种看不见摸不着的能力买单。

因此,Bonu在聊合作时,往往会和对方先算一笔账。

zehn的企业授权定价是5000美元,加上后续的部署、技术支持等费用,总价大概在6万美元左右。这笔费用的核心,就在于购买了其他产品不具备的“罕见事件”处理能力。

以视觉模型为例,在天气晴好的常规条件下,市面上大多数的模型表现都不错。但在极端恶劣环境中,zehn的Zev-1模型准确率要比普通模型高出约15%。这种在极端条件下的性能优势,正是zehn的核心价值所在。

因为一旦遭遇黑天鹅事件,后果往往是灾难性的:一条生命的逝去、一桩金融欺诈案、一场大面积停电。如果模型能提前预警或做好防范,避免其中任何一项损失,节省下来的成本都远超过采购价格。“客户支付的并非是像Chatbot那样直接的、可视化的功能,而是一份针对尾部风险的保障。”

有点类似于保险,平时看似一直在支出用不上,总觉得亏;但当风险真的发生时,才会意识到这份保障的价值。

而这笔账背后的价值,正在被越来越多国家的政府机构和企业所看见。公司的业务版图也已从塔吉克斯坦,迈向阿布扎比,并向着中亚及MENA地区延伸。

近期,zehn更是跨越山海走进了中国,与中国企业接洽合作。

与此同时,中国与塔吉克斯坦在人工智能上的合作也在日益加深。在2025年的第二届“中亚—中国”领导人峰会期间,中国与塔吉克斯坦还签署了《人工智能合作谅解备忘录》,其中AI合作被定位为下一阶段产业转型的突破口,尤其是在农业自动化、交通管理和政务系统优化等应用场景中。

一批中国科技企业也正加速走向塔吉克斯坦:DeepSeek长期占据当地App Store应用效率榜Top15,InShot、Chatlulu等中国出海的AI视频剪辑工具也在当地备受欢迎。

近90天,DeepSeek在塔吉克斯坦APP Store榜单排名,图源:点点数据

一边是zehn的“走进来”,一边是中国企业的“走出去”,一种新行业常态正在形成——AI企业不再固守本土,而是把业务延伸到全球,在跨境协作中共同推动技术进步。

“未来AI市场的主旋律必然是合作共赢,而非对抗竞争。”Bonu对此也充满了期待。

写在最后

回望互联网浪潮席卷全球的数十年,地处中亚的塔吉克斯坦长期置身数字浪潮边缘:本土互联网产业近乎空白,民众日常数字交流只能依附俄语、英语外来体系,本土语言与本土数据始终缺少专属数字载体。而 AI 时代的到来,为这个山地小国撕开了全新的自主赛道。

zehn深耕塔吉克语大模型,踏出了塔吉克斯坦主权AI的一步,不再被动承接外来数字逻辑,而是用本土语言、本土语境搭建属于本国的智能基座。这绝非一家初创公司的单点突破,而是全球数字格局下极具标志性的转向:主权AI早已不是大国专属命题,每一个拥有独特语言与文明的小国,都有守住自身数字话语权、书写本土数字叙事的迫切需求。

当塔吉克语终于拥有适配自身文化的原生大模型,一座文明小国的数字自主时代,已然缓缓启幕。

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

中亚小国,也开始卷AI了

这个曾被视为数字荒漠的国度,如今正在依托政府的支持和年轻人的实干,让人工智能版图艰难而坚定地向上生长。

文|霞光AI实验室 朱峰琳

编辑|刘景丰

帕米尔的风掠过杜尚别的老街,路边排挡腾起烤包子的热气,退休老人握着茶杯消磨午后。

这在塔吉克斯坦是十分常见的生活场景。这个与中国新疆相连的山地之国,到2025年底,人口才达到1070万,人均GDP约1700美元,仅为中国的一成左右,至今仍有许多家庭要靠赴俄务工来维持生计。

但就是这样一个整体国民仍处在传统生活底色之上的国家,偏偏诞生出一批人正在用代码开拓着新可能:

年轻的人口结构带来了相对稳定的技术供给,当地越来越多IT、AI等技术相关专业的学生选择留下,组成一个个初创团队,在格子间里敲击键盘,用算法为银行搭建着风控模型,为企业做着数据标注。

这些年轻人的努力,也契合着国家规划的脚步。2022年,塔吉克斯坦签署了《塔吉克斯坦共和国人工智能发展战略》,明确目标:到2040年,人工智能贡献国家GDP的5%。

没有庞大的资本与人才储备,也没有巨型的旗舰项目。5%,这一目标的增量究竟从何而来?

答案其实就在一个字——新。

塔吉克斯坦的AI建设实在是太“新”了,新到几乎没有需要重构的陈旧系统,但这也反而成了其优势。 竞争压力小,需求大,在一片待开垦的蓝海中,能够跳过传统的技术迭代周期,以极快的速度搭建起AI模型、打造出AI产品。

这个曾被视为数字荒漠的国度,如今正在依托政府的支持和年轻人的实干,让人工智能版图艰难而坚定地向上生长。

塔吉克,有了第一批AI人才

出生在塔吉克斯坦、长期生活在中国,今年27岁的Bonu,正置身于当下的AI创业浪潮之中。

创业的起点,源于她想为自己的母语做点事情。

塔吉克斯坦是一个以塔吉克语为母语的国家,但在大城市及官方事务中俄语更为通用,本土语言在互联网领域长期处于边缘地位, 数字生态难以规模化生长。事实上,不仅仅是塔吉克斯坦,整个中亚五国都面临着相似的局面,本土的原生互联网产品寥寥无几。

这种高度依赖的产业格局,使得主流大模型大多只基于像俄语这种高资源语言进行开发,而在面对塔吉克语这类低资源语言时,往往在长尾问题的处理上表现不佳。但如今,技术的更迭带来了新的切入点:构建垂直于小语种的AI大模型,不仅能够打破语言与数据的底层壁垒,更是孕育本土数字经济企业、逐步摆脱外部生态依赖的一次重要契机。

于是,Bonu和她的团队决定自己从零起步,专为塔吉克语打造LLM,建立起自主可控的主权AI能力。

这样的选择,注定了这条创业之路会走得格外艰难。

首先就是人才。在一个AI市场尚处萌芽的国度,团队要从0到1搭建数据与基础设施,这需要真正理解底层架构的专家。然而,塔吉克斯坦当地的AI人才供给体系仍处于早期建设阶段。2023年,首批5所塔吉克斯坦的本土高校开始设立AI专业,且核心授课的师资多数也都是刚刚通过国际合作项目完成向机器学习方向转型的老师。目前该市场上可用的AI从业者,主要也都是依赖当地机构输出的短期培训生。

其次是数据。塔吉克语属于典型的低资源语言,市场上几乎找不到现成的语料库,训练素材极度匮乏。

此外,作为初创公司,赢得公司、机构乃至政府的信任,需要漫长的时间沉淀。

尽管挑战重重,但一群年轻人聚在一起,还是创造出了可能。

第一个塔吉克语大模型,进入当地学校

人才缺口是最优先被解决的。

Bonu和斯坦福大学、牛津大学、MIT的几位校友共同组建团队,创立了zehn,并将公司总部设于迪拜。为了夯实技术底座,团队还邀请了人工智能领域博士担任技术顾问,加强模型研发能力。

目前,zehn共有10人,大多数员工分布在不同地区,通过线上协作的方式办公。

人才聚齐后,核心挑战便转向了数据。

据Epoch AI研究显示,在80%的置信区间内,现有数据资源将在2026年至2032年间的某个时点耗尽。这就意味着,届时即便大型公司也将面临训练数据不足的局面,模型幻觉与错误率或将随之攀升。

因此,数据匮乏不仅是zehn这类专注低资源场景的初创公司所需面对的难题,更是未来所有模型企业必须应对的行业共性挑战。

针对这一困境,zehn的解决方案是从相关语言进行迁移学习。

由于文化的迁移,塔吉克语与波斯语很像,语言主体基本相同,只是书写体系有所不同。团队通过检索数据来源、人工评估、多种实验,以及对中亚各语言开展多语言的对抗性测试,精准识别模型在高置信度下的潜在错误。这种严格的数据筛选机制,有效抑制了模型幻觉的产生。

2026年5月,zehn开发的塔吉克语模型SoroLLM已在塔吉克斯坦100多所学校落地,并计划于今年9月部署至全国4000多所学校,成为国家AI课程体系的重要组成部分。依托这一语言模型,师生无需再借助英语或俄语,即可直接用母语备课、提问与学习。对许多当地孩子而言,这是首次体验到AI以他们的母语作出回应。

小概率事件做出大生意

沿着攻坚低资源本土语言模型的思路,zehn还将目标进一步扩展到了其他大模型难以处理的边缘场景中。

“如今大部分模型都在通过优化更好地解决日常99%的问题,而我们就想要去专注于剩下的1%。”Bonu表示。

所谓的1%,就是那些被主流大模型忽视的罕见、关键且难以覆盖的极端边缘情况。比如在金融领域,信用模型在流动性冲击期间会崩溃;在国防领域,无人机在面对伪装目标或陌生地形时会失效......

这些场景往往具备“高风险”“偶发性”特征,尽管发生几率十分小,但模型一旦失效就会带来灾难性的后果。同时还存在着“性能瓶颈”,无论再怎么堆砌常规的历史训练数据,准确率都会陷入停滞,无法自发应对未见过的变数。

而攻克这1%的价值,就在于让模型真正具备应对未知变数的能力。不仅能保证AI在最关键的时刻依然稳定可靠,也让团队避开了与科技巨头的正面交锋,在通用大模型难以触及的盲区中,建立起自己不可替代的竞争优势。

面对这1%稀缺到近乎空白的数据环境,又该如何练出高质量的模型?

zehn给出的回答是——合成数据。

基于物理和场景进行仿真模拟,使用生成式模型来制造那些罕见场景,让它们在真实发生之前就训练模型学会如何处理。比如,在自动驾驶场景中,行人以一个不确定的角度横穿马路,这就算作是一个“异常值”。用这些异常值去做压力测试,最终实现当现实中真的有人在某个角度下横穿马路时,模型就已具备应对能力,从而降低事故风险。

这里所谓的“异常值”,是指生成现实可行的边缘案例,必须是现实有可能发生的,目的是精确找到模型在哪些地方会失败,然后针对这些情况对模型进行加固。而在此之前,更重要的一点,是要先判断哪些异常值是“智能”的、哪些不是,只把有效的数据用于模型训练,以此来保证在拉伸模型能力边界的同时,不会把模型推到超出安全极限的范围。

“数据质量比数据本身更重要。”Bonu强调,所以即使是合成数据,zehn也始终坚持使用小而干净的真实数据,而非那些庞大杂乱的数据集。

基于对极端天气与对抗性伪装数据的合成,zehn研发了面向智慧城市与国防的视觉模型Zev-1。此外,团队还与阿布扎比先进技术研究理事会达成了合作,开发出了专注金融场景的模型FalconFinance。随着这些针对低资源极端场景的模型陆续落地,zehn所走的这条路,也逐步获得了官方层面的认可。

从路线选择不难看出,与很多做模型的公司不同,zehn从一开始就避开了消费级应用,而是瞄准公共部门与基础设施。

“真正的决胜点并不在于模型本身。因为现在大家都有好的模型,所以能构建竞争力的关键于本地数据和本地关系。最终能赢得市场的,也会是那些掌握本地数据,获得当地政府、企业信任与支持的公司,而不是拥有最大模型的公司”,Bonu认为。

听起来有些反常识,毕竟现在很多模型都是做的消费市场,面向C端用户。但要知道,zehn从最一开始走的就不是寻常路,而是锚定大部分人所忽略的那1%极端情况。

AI企业不再固守本土

不过,面向B端和G端做业务并不容易。特别是在商业化阶段,要去说服更多人为“应对罕见事件”这种看不见摸不着的能力买单。

因此,Bonu在聊合作时,往往会和对方先算一笔账。

zehn的企业授权定价是5000美元,加上后续的部署、技术支持等费用,总价大概在6万美元左右。这笔费用的核心,就在于购买了其他产品不具备的“罕见事件”处理能力。

以视觉模型为例,在天气晴好的常规条件下,市面上大多数的模型表现都不错。但在极端恶劣环境中,zehn的Zev-1模型准确率要比普通模型高出约15%。这种在极端条件下的性能优势,正是zehn的核心价值所在。

因为一旦遭遇黑天鹅事件,后果往往是灾难性的:一条生命的逝去、一桩金融欺诈案、一场大面积停电。如果模型能提前预警或做好防范,避免其中任何一项损失,节省下来的成本都远超过采购价格。“客户支付的并非是像Chatbot那样直接的、可视化的功能,而是一份针对尾部风险的保障。”

有点类似于保险,平时看似一直在支出用不上,总觉得亏;但当风险真的发生时,才会意识到这份保障的价值。

而这笔账背后的价值,正在被越来越多国家的政府机构和企业所看见。公司的业务版图也已从塔吉克斯坦,迈向阿布扎比,并向着中亚及MENA地区延伸。

近期,zehn更是跨越山海走进了中国,与中国企业接洽合作。

与此同时,中国与塔吉克斯坦在人工智能上的合作也在日益加深。在2025年的第二届“中亚—中国”领导人峰会期间,中国与塔吉克斯坦还签署了《人工智能合作谅解备忘录》,其中AI合作被定位为下一阶段产业转型的突破口,尤其是在农业自动化、交通管理和政务系统优化等应用场景中。

一批中国科技企业也正加速走向塔吉克斯坦:DeepSeek长期占据当地App Store应用效率榜Top15,InShot、Chatlulu等中国出海的AI视频剪辑工具也在当地备受欢迎。

近90天,DeepSeek在塔吉克斯坦APP Store榜单排名,图源:点点数据

一边是zehn的“走进来”,一边是中国企业的“走出去”,一种新行业常态正在形成——AI企业不再固守本土,而是把业务延伸到全球,在跨境协作中共同推动技术进步。

“未来AI市场的主旋律必然是合作共赢,而非对抗竞争。”Bonu对此也充满了期待。

写在最后

回望互联网浪潮席卷全球的数十年,地处中亚的塔吉克斯坦长期置身数字浪潮边缘:本土互联网产业近乎空白,民众日常数字交流只能依附俄语、英语外来体系,本土语言与本土数据始终缺少专属数字载体。而 AI 时代的到来,为这个山地小国撕开了全新的自主赛道。

zehn深耕塔吉克语大模型,踏出了塔吉克斯坦主权AI的一步,不再被动承接外来数字逻辑,而是用本土语言、本土语境搭建属于本国的智能基座。这绝非一家初创公司的单点突破,而是全球数字格局下极具标志性的转向:主权AI早已不是大国专属命题,每一个拥有独特语言与文明的小国,都有守住自身数字话语权、书写本土数字叙事的迫切需求。

当塔吉克语终于拥有适配自身文化的原生大模型,一座文明小国的数字自主时代,已然缓缓启幕。

本文为转载内容,授权事宜请联系原著作权人。