最近这AI圈子真是热闹,隔三差五就冒出个新东西。今天就跟大家唠唠我捣鼓那个叫Reka的玩意儿的经历。
我也是在网上瞎逛,看到有人提Reka,说是啥新一代的多模态模型,吹得挺厉害。现在这种模型太多了,有点看不过来。 什么Core、Flash、Edge,好几个名字,听得我有点云里雾里。我这人就爱折腾,看着宣传说它能处理文字、图片、视频、音频,就有点好奇了,想看看是不是真有那么神。
上手试试
光听别人说没用,得自己动手试试。我就去找了找,看怎么能用上。过程嘛还算顺利,找到了他们的平台或者说是入口。注册、登录,这些常规操作就不细说了。
刚开始,我就是试试水。
- 先丢了点纯文本的问题,看看它回答得怎么样。感觉反应还行,速度挺快,回答的内容嘛中规中矩,跟现在市面上一些主流的差不多。
- 然后我就开始上难度了,毕竟人家主打的是“多模态”。我传了张图片,让它描述一下图片内容。这个它处理得还不错,能抓住重点,描述得也比较清楚。
- 接着又试了试短视频。我截了一小段风景视频,问它视频里大概是这个感觉就有点考验它了,有时候能说对,有时候就有点含糊。可能跟视频复杂度也有关系。
- 音频我也简单试了下,比如问问一段录音里说了准确率也还可以。
捣鼓过程中的感觉
整个用下来,感觉这个Reka确实有点东西。它那个“多模态”不是瞎吹的,确实能把不同类型的信息揉在一起处理。比如我试过给它一张图加一段文字描述,让它基于这些信息创作个小故事,它也能编出来,虽然有时候逻辑有点跳脱,但这个方向是对的。
我主要用了用他们提到的那个 Reka Core 和 Reka Flash。感觉上,那个Core版本好像确实要强一点,处理复杂任务,比如需要深度理解和推理的时候,表现更那个Flash版本,速度是真快,适合搞一些要求快速响应的活儿。
也不是没碰到问题。有时候给它的指令复杂了,或者信息比较模糊,它也会犯迷糊,给出的结果就不那么靠谱了。还有就是,虽然支持的语言不少,但我主要还是用中文跟它互动,感觉在中文的理解和生成上,还有提升空间,偶尔会有点生硬或者奇怪的表达。
一些想法
这回捣鼓Reka的过程还是挺有意思的。它展现了现在AI模型发展的方向,就是越来越能像人一样,看、听、说都能来一点。这玩意儿潜力不小,以后用在什么智能客服、内容分析、或者帮着做做图文视频处理的辅助工作,应该都挺有前景。
不过技术这东西,更新太快了。今天觉得Reka挺新奇,明天可能又出来个更厉害的。反正我是觉得,保持好奇心,多动手试试新东西,总没坏处。这回实践也就是简单体验了一下,后面有机会再深入玩玩看,到时候再跟大家分享。
还没有评论,来说两句吧...