none
[suggestion] 对未来版本的一个建议-3 RRS feed

  • 常规讨论

  • 最近在折腾自制微软拼音的词库,因为自造词导入功能有次数上线限制,所以就只好自己做拼音词库文件了。

    但是在制作的过程中我发现,原来微软词库文件也有不足的地方,而最大的问题就是词库文件里面一个词语的长度的限制!

    我直接用搜狗细胞词库转换成txt,然后再用excel模板做词库的,但是当一个词组长度超过8个以后,就会被自动默认成错误词组!

    我希望新的版本的词典,除了能兼容老版本的词典意外,还应该适当增加一个词组的字数的限制,因为现在好多语句都不是靠2~4个字的词组拼凑起来的了!

    如果词典里面能放下一定字数的短句的话,应该也能增加输入法的准确度的。

    比方说“你什么时候能出来玩呢?”这句话,如果用词组的话就要分成好几个部分;如果用短句分割的话就可以变成“你什么时候能”,“出来玩呢”

    这样子的关联起来就比较方便了,中途也不会因为某个词的改变而从那个地方重新再输入过!

    2011年2月21日 14:52

全部回复

  • 感谢您的建议。这个长度限制对您的词库制作过程有很大影响么?您有很多超过8个字的词么?


    xi
    2011年2月22日 6:17
    版主
  • 大多数情况下是没有任何问题,但是遇到类似于“中国古诗词”那类的名句的话,可能就会有一点影响,毕竟那些用词用现在的联想错误很多,所以只能以“,”为分段录入词库里面,才能保证比较好的准确率,还有一些比较长的歇后语的前半部分也是有一点问题…… 另外,那个不能怪我~我只是从搜狗那个地方偷词库转换成无拼音的txt,再倒入到词库模板里面…… 不过搜狗的词库里面有很多大于8个字的词组……当然也有很多错别词,另外就是居然还有简体繁体混合的词组(4个字里面1、2、4是简体,第3个居然是繁体)……果然是有够混乱的!
    2011年2月22日 16:18