吹泡泡逻辑首发原文链接
【资料图】
好久没写汉王了,上一次写还是5月初那次,公司发的机构调研纪要里提到他要做小模型。为啥突然想到他了呢,其实人民网走强我就想到他了。
这里还是要从英博数科说起,鸿博过去的印刷业务,也不是没有留下什么,鸿博有保密印刷国家秘密载体印制甲级资质,印刷过的东西不能泄密,也不能出售,但是可以训练模型啊。叠加最近人民网的走势犀利,除了舆情监测方面的“人民审校”,卖方不是也在推“主旋律”语料嘛?360的发布会也提到了“刷题”,也就是说常规的语料不稀缺,稀缺的语料原始素材可能都是在那些央企国企的“库房里”。
于是我联想到了前面写汉王的时候,看到过他帮助国家图书馆、档案馆、博物院、检察院、法院、医院等行业客户做数字化,从数据提取、结构化处理、加以学习和训练,输出有价值的数据给客户。
前不久也看到新闻他们推出了AI+档案的“仓颉智能档案数据化平台”。这个不知道是收服务费还是卖硬件还是搞平台共同运营数据资源。
前些天不是老出门嘛,就告诉别人查查汉王这些数据是不是可以销售或使用,结果也没人关心,今天早上只能自己打了个电话咨询下。
接电话的小姐姐很耐心给我讲解,有的公司打电话可能几分钟就给你打发了,汉王这方面也是很好的。可能我以前对汉王有一些了解,加上最近对大模型、训练语料多了些了解,很快就跳过常规讲解,给了调研级别的反馈了。
其实我关心的点很简单,汉王的OCR技术也是其领先的核心技术之一,(Optical Character Recognition,光学字符识别)广泛应用于汉王名片通、汉王摄像头、以及身份证识别、人脸识别领域,他帮那些领域做数据提取、结构化处理、甚至学习和训练,能不能卖?能不能联合客户一起卖?或者说能不能帮助其它大模型过来训练?
小姐姐好像以为我是同行了,或者说起码感受到我是了解汉王,进行无害咨询或建议,就跟我说,汉王内部有这些讨论和探索,因为都在行业内,大家都明白这些数据的价值。她们目前就是收取服务费嘛,也在做客户的说服教育工作,数字化的同时还能把一些不涉密的内容进行销售不好吗?不过我前面央企国企那篇提过,这些单位的反应会比市场慢,可能层层审批,观望好久,我就问那能不能找个规模小点的类似性质的客户,你们免费帮他们数字化,然后一起销售分成啊?她笑了笑没说啥。
最后我问了下“假如客户不同意销售,汉王把数据提取、进行结构化的过程,是不是也训练到了汉王的小模型,而其它大模型公司如果买不到相关语料,是不是可以接入汉王的小模型训练?”
答案是肯定的,就好比一本书不能卖,只能看,那么我可以看完了,把书中的知识、故事、经验用我的方式讲给你听。
这个电话打了25分钟,不到9点打的,感谢一下小姐姐耐心解答我的疑问。得到的初步结论是汉王拥有上述领域的数字化内容,公司也在探索和客户共同开发上述内容,同时汉王的垂直小模型理论上用这些数据集训练过,可以帮助其它大模型公司一起训练。
吹泡泡逻辑首发原文链接
$汉王科技(SZ002362)$
标签: