【问题1】
Q:CHILDES中有些PhonBank数据不清楚是否需要?
-》
Corpora in PhonBank的部分:
要不要?
比如其中第一个是:
另外从这里:
还有两个相关页面:
A:要,最好也下载下来吧
除了太小的:
- 1;8 and 2;4
- 1;1-1;11
- 0;6-1;0
之外,都下载
- 4 British SLI children and their normal siblings:SLI是有语言障碍的,不要
- cha文件
- 【可能有】音频文件
- 【可能有】视频文件
先都爬取下来
后续去处理
“*MOT: wanna try ? ▶
1058 %mor: mod:aux|wanna v|try ?
1059 %gra: 1|2|AUX 2|0|ROOT 3|2|PUNCT”
保留:MOT=Mother=母亲 说的话
去掉:%mor,%gra等的标注
“*INT: do you like this story ?
13 %mor: mod|do pro:per|you v|like pro:dem|this n|story ?
14 %gra: 1|3|AUX 2|3|SUBJ 3|0|ROOT 4|5|DET 5|3|OBJ 6|3|PUNCT
15 *STU: yeah .”
TODO:
查INT和STU的全称
“*SAR: mm [= nice] .
29 %mor: co|mm .
30 %gra: 1|0|INCROOT 2|1|PUNCT
31 *LIL: you like spaghetti .
32 %mor: pro:per|you v|like n|spaghetti .
33 %gra: 1|2|SUBJ 2|0|ROOT 3|2|OBJ 4|2|PUNCT
34 %err: <3w> /spAgEti/ = /p6skEti/ $PHO”
TODO:
查 SAR LIL的全称
后记:
去掉所有的标注后,输出的内容,就本身就只有对话内容了:
内容和作者的简介
-》
在线浏览,可以下载的文本+音频+视频 的资源
中只下载:
Singapore这个:
转载请注明:在路上 » 【整理】下载或爬取CHILDES 资料