今天下午三点多老张突然在微信上甩我个txt文件,说甲方要求所有技术文档删除英文符号。我打开一看头就大了——里面全是括号箭头这类乱七八糟的符号,还有十几处代码注释顶着三个斜杠。
初试牛刀
我先琢磨着用文档工具自带的替换功能。吭哧吭哧把中括号大括号都替换成空,结果引号也跟着消失了。整段话变成"今天我们更新了版本客户说体验很棒"这种鬼样子,逗号句号全粘在文字上。
- 四点十分试了符号过滤脚本,满屏的"undefined variable"报错在跳街舞
- 四点半抓着头皮改了三轮正则表达式,中文冒号还是被误杀
转折时刻
正摔键盘突然想起抽屉里有本《中文信息处理实验手册》。翻到第57页看到段话:当符号剥离遭遇语义捆绑时,应该采用迭代筛除法。就是让我别总想着一次搞定。
我重新建了个空白文档开始手动搬运:
- 五点半先保住了所有中文标点
- 六点盯着屏幕逐行删除//注释
- 七点零五发现代码段里的中文引号像牛皮糖似的扒拉在文字上
土办法决胜
实在没招了,把文档粘进记事本再另存为编码格式。来回折腾了四次,终于在UTF-8无签名模式下看到理想效果。那些顽固的井号百分号像退潮似的全消失了。
后来才想明白这事的关键:老张文件里混了三种字库类型。根本不能用常规替换工具处理。虽然笨办法花了两小时十七分钟,但比写自动化脚本省了三个钟头。发给老张的版本连个英文小数点都没剩下,纯中文汉字带着中文标点安安分分躺着。
现在凌晨两点突然惊醒:该给文档标题也去掉标点符号的!摸黑开电脑发现标题栏里那行破折号还在嘲笑我。
还没有评论,来说两句吧...