文本统计没有一个放之四海皆准的数字。你要先弄清楚限制的是字数、词数、字符数,还是字节数。
这些指标分别是什么?
| 指标 | 关注点 | 常见用途 |
|---|---|---|
| 字数 | 中文语境下的文字数量 | 作文、标题、简介限制 |
| 词数 | 英文等以空格分词的单词数量 | 英文文章、摘要、SEO 内容 |
| 字符数 | 包含字母、数字、标点、空格等字符 | 输入框长度限制 |
| 字节数 | 文本编码后占用的存储大小 | 数据库、接口、短信或文件限制 |
| 行数 | 换行分隔后的行数量 | 日志、歌词、字幕和配置检查 |
为什么中文和英文统计不一样?
英文通常用空格分词,所以词数比较直观。中文没有天然空格分隔,很多场景会更关注字数或字符数,而不是英文意义上的 word count。
字节数为什么会更大?
在 UTF-8 编码里,英文字母通常占 1 个字节,常见中文字符通常占 3 个字节,Emoji 可能占 4 个或更多字节。接口限制如果写的是 bytes,就不能只看字符数。
什么时候看哪个数字?
- 公众号标题、简介、表单提示:优先看字数或字符数。
- 英文文章、SEO 摘要:优先看词数和字符数。
- 接口字段、数据库字段、文件大小:一定要看字节数。
- 字幕、歌词、日志:同时看行数和每行长度。
- 包含 Emoji 的文本:不要只按肉眼看到的符号数量估算。
总结
写作场景多看字数和词数,产品输入限制多看字符数,技术接口和存储限制一定要看字节数。