未来AI写作评测会加入哪些新维度?

2 人参与

前两天在群里跟几个做内容的朋友瞎聊,说到现在AI写的东西真是越来越“真假难辨”了。我们就在那儿互相甩链接猜:“这篇是人写的还是AI写的?”猜对的概率,说实话,跟抛硬币差不多。

这让我突然想起以前评测AI写作,无非就是看它“通不通顺”、“有没有错”、“听不听话”。可现在呢?光凭这些老标准,就像拿一把生锈的卷尺去量纳米级的芯片——完全不够用了。我琢磨着,未来的AI写作评测,恐怕得钻进一些更“刁钻”的角落。

“人味儿”怎么量化?情感曲线与叙事陷阱

现在的AI能轻易避开事实错误,结构也能搭得像模像样。但读起来,总感觉少了点“气口”。就像听一个播音员念稿子,字正腔圆,可你就是没法跟他共情。

未来的评测,我猜会引入类似“情感曲线分析”的东西。比如,一篇好的个人经历分享,情绪得有起伏吧?开头可能有点小困惑或期待(建立张力),中间遇到困难或转折(情绪低谷或波动),最后解决或感悟(释放与共鸣)。AI生成的内容,情感线常常是一条毫无波澜的直线,或者是一些标签化的情绪词堆砌,比如“我感到非常开心和激动”。

更绝的是“叙事陷阱”测试。人类写作里,常常有些无伤大雅的小瑕疵、下意识的跑题、或者前后略带矛盾的“真实感”,比如回忆一件事时,细节可能有些微模糊。而AI为了追求“准确”和“一致”,往往把故事编织得过于完美和逻辑严密,反而显得假。评测时,可能故意给一个带点模糊或矛盾要素的叙事框架,看AI是会把它打磨成一个“完美但虚假”的故事,还是能保留一丝人类的“毛边感”。

“知识缝合”能力 vs. “观点冒泡”现象

现在的模型,知识面广得吓人,堪称超级缝合怪。你让它写“宋代美学与极简主义的关系”,它能给你引经据典,把两个领域的知识点漂亮地缝在一起。但这只是第一步。

下一步的评测维度,我觉着会是“观点冒泡”。这不是让它凭空捏造观点,而是在整合、分析现有信息后,能否产生一点点新的、合理的“推断”、“倾向”或“质疑”。哪怕这个观点很微小。比如,在比较了A和B两种方法后,AI能否基于它“学习”到的案例成功率,稍微倾向于推荐A,并给出一个“虽然数据差距不大,但A在X场景下容错率似乎更高”这样的理由?这不再是简单的信息罗列,而是一点初级“思辨”的影子。

评测方法可能像“辩论种子”测试:给AI两套看似都有道理但略微矛盾的数据或论述,看它的输出是单纯地并列展示(当和事佬),还是能尝试提出一个整合性的、稍有侧重的理解框架。

“风格隐身术”与“跨平台人格分裂”

让AI模仿某种写作风格,现在已经不稀奇了。但未来的高段位评测,可能是测试它的“风格隐身术”——也就是写出一篇没有明显风格标签、但读起来极其自然流畅的文章。不文艺、不学术、不网感、不官方,就是纯粹的好读。这很难,因为缺乏特征往往意味着平庸,但真正的“无风格”其实是最高级的风格,需要对语言节奏有精妙的把握。

另一个好玩的角度是“跨平台人格分裂”测试。同一个品牌,在小红书、公众号、知乎、B站脚本上说话方式肯定不同。未来的评测可能会设定一个核心“人设”(比如:一个专业但不忘自嘲的数码博主),然后让AI为不同平台创作内容。评测者要看的,是它能否在保持核心人设统一的前提下,自如地切换平台语态,而不是简单地在文案里加几个“绝绝子”或“如图”了事。这考验的是对平台文化和受众心理的深度理解。

长程记忆与“写作习惯”养成

最后,还有一个维度我觉得一定会出现,就是“长程协作”评测。不是单次生成,而是模拟一个长达数周或数月的创作项目,比如连载一个专栏,或者撰写一本电子书的小样。

评测重点在于:AI能否在多次交互中记住并延续之前建立的“写作习惯”?比如,我在第三章引入了一个自定义的比喻“知识就像乐高”,AI在第十章提到相关概念时,是会笨拙地重复这个比喻,还是能巧妙地变奏或呼应?它能否记住主角的眼睛是“琥珀色”的,而不是在后续章节里突然变成“湛蓝”?

更进一步,它能否从我们之前的修改历史中学习“偏好”?我每次都把它写的“综上所述”删掉,把“首先、其次、最后”改成更自然的衔接,那么在第十次交互时,它生成初稿的“AI味”会不会淡一些?这评测的不是一次性的智商,而是长期的、可养成的“写作伴侣”情商。

聊了这么多,其实核心就一点:当AI把写作的“技术活”干得越来越溜,我们对它的期待,就不可避免地滑向了那些更属于“人”的领域——情感、个性、观点、记忆。评测的尺子,也得跟着换。下次再评测AI写作,我可能真得带上心率仪和情绪识别软件,边读边测自己的生理反应了。想想也挺魔幻的。

参与讨论

2 条评论