dongge 2007-10-23 19:31
New York Times 不定期连载。
New York Times 不定期连载。
iSiloX 4.0制作,没有图片,只有文字,保留了原文的排版。按照我自己的要求,排版还没有达到“完美”的标准。最后希望达到的目的是只保留有价值的信息,除此以外的内容,全部不要。
每次的文章来自于链接:[url=http://www.nytimes.com/pages/todayspaper/index.html]http://www.nytimes.com/pages/todayspaper/index.html[/url]
简单说一下制作过程:
1. 从上面的索引页中,提取有效的链接,处理后,重新制作本地的索引文件。
2. 利用本地的索引文件,使用下载软件(我用的是免费软件Free Download Manager)下载NY times当日的文章。每天约有100~200篇。
3. 为下载到本地的文章(html格式),制作index.html索引文件。
4. 利用从index.html,用iSiloX制作pdb文件。
上面的1、3步,如果利用正则表达式脚本,可以大幅提高效率。
原来用python学习正则表达式时,写过一个脚本,可以自动处理以上1~3步骤。后来,硬盘失败,导致下载了一年的文章丢失,有点灰心,就没有继续了。现在,NY Times改版,不再坚持原来的收费政策,原来为了绕过这些限制的很多代码,现在都成了累赘。
但是,暂时没有心情重新写脚本,就用了上面这种“刀耕火种”的手工操作。按照我的经验,这种纯粹手工劳动很是折磨人的身心,所以,将本贴命名为“不定期”连载。
另外,说两句对英语学习方法的体会:少背单词,多阅读。
[[i] 本帖最后由 dongge 于 2007-10-23 19:59 编辑 [/i]]