最新消息:20210816 当前crifan.com域名已被污染,为防止失联,请关注(页面右下角的)公众号

【整理】下载或爬取CHILDES 资料

下载 crifan 1104浏览 0评论
【问题1】
Q:CHILDES中有些PhonBank数据不清楚是否需要?
Eng-NA Corpora
-》
Corpora in PhonBank的部分:
要不要?
English – NA
比如其中第一个是:
Compton & Pater Corpus
另外从这里:
English – NA
还有两个相关页面:
English-UK Corpora
PhonBank Bilingual Corpora
A:要,最好也下载下来吧

Eng-NA Corpora
除了太小的:
  • 1;8 and 2;4
  • 1;1-1;11
  • 0;6-1;0
之外,都下载
Eng Corpora
  • 4 British SLI children and their normal siblings:SLI是有语言障碍的,不要
CHILDES Transcript Browser
Eng-NA/ | CHILDES Transcript Browser
Eng-NA/Brent/ | CHILDES Transcript Browser
Eng-NA/Brent/m2/ | CHILDES Transcript Browser
  • cha文件
  • 【可能有】音频文件
  • 【可能有】视频文件
先都爬取下来
后续去处理
Eng-NA/Brent/m2/000928.cha | CHILDES Transcript Browser
“*MOT:     wanna try ?       ▶
1058     %mor:     mod:aux|wanna v|try ?
1059     %gra:     1|2|AUX 2|0|ROOT 3|2|PUNCT”
保留:MOT=Mother=母亲 说的话
去掉:%mor,%gra等的标注
Eng-NA/Gopnik/sf01111.cha | CHILDES Transcript Browser
“*INT:     do you like this story ?
13     %mor:     mod|do pro:per|you v|like pro:dem|this n|story ?
14     %gra:     1|3|AUX 2|3|SUBJ 3|0|ROOT 4|5|DET 5|3|OBJ 6|3|PUNCT
15     *STU:     yeah .”
TODO:
查INT和STU的全称
Eng-NA/Gathercole/10.cha | CHILDES Transcript Browser
“*SAR:     mm [= nice] .
29     %mor:     co|mm .
30     %gra:     1|0|INCROOT 2|1|PUNCT
31     *LIL:     you like spaghetti .
32     %mor:     pro:per|you v|like n|spaghetti .
33     %gra:     1|2|SUBJ 2|0|ROOT 3|2|OBJ 4|2|PUNCT
34     %err:     <3w> /spAgEti/ = /p6skEti/ $PHO”
TODO:
查 SAR LIL的全称
后记:
去掉所有的标注后,输出的内容,就本身就只有对话内容了:
Eng-NA/Gathercole/12.cha | CHILDES Transcript Browser
Eng-NA Corpora
内容和作者的简介
-》
Eng-NA/ | CHILDES Transcript Browser
在线浏览,可以下载的文本+音频+视频 的资源
Bilingual Corpora
中只下载:
Singapore这个:
Singapore Bilingual Corpus

转载请注明:在路上 » 【整理】下载或爬取CHILDES 资料

发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
80 queries in 0.178 seconds, using 22.02MB memory