Adding new translators from Frank.

2010-03-29 15:01:08 +00:00 · 2010-03-29 15:01:08 +00:00 · 88d987c6ff
commit 88d987c6ff
parent ba381943e1
2 changed files with 281 additions and 0 deletions
--- a/translators/Japan
+++ b/translators/Japan
@ -0,0 +1,160 @@
 {
 	"translatorID":"b56d756e-934e-4b46-bc58-d61dccc9f32f",
 	"translatorType":4,
 	"label":"Japan Times Online",
 	"creator":"Frank Bennett",
 	"target":"^http://(?:www|search)\\.japantimes\\.co\\.jp/(?:cgi-bin|gsearch|features|entertainment|sports|life|news)",
 	"minVersion":"2.0b7",
 	"maxVersion":"",
 	"priority":100,
 	"inRepository":true,
 	"lastUpdated":"2009-01-23 02:17:09"
 }
 // #################################
 // #### Local utility functions ####
 // #################################
 var itemRe = new RegExp('^http://search\.japantimes\.co\.jp/cgi-bin/[a-z]{2}[0-9]{8}[a-z0-9]{2}\.html');
 var getResolver = function (doc) {
 	var namespace, resolver;
 	namespace = doc.documentElement.namespaceURI;
 	if (namespace) {
 		resolver = function(prefix) {
 			if (prefix == 'x') {
 				return namespace;
 			} else {
 				return null;
 			}
 		};
 	} else {
 		resolver = null;
 	}
 	return resolver;
 };
 var getTagContent = function (txt, attribute, value) {
 	var ret, m, rex;
 	ret = false;
 	rex = RegExp("<[^>]*" + attribute + "=\"" + value + "\"[^>]*>([^<]*)<");
 	m = rex.exec(txt);
 	if (m) {
 		ret = m[1];
 	}
 	return ret;
 }
 var getTagsWithAttributeAndContent = function (txt, tag, attribute) {
 	var ret, pos, len, lst, m, tagsrex, attribrex;
 	ret = {};
 	tagsrex = RegExp("(<" + tag + "(?: [^>]*>|>)|</" + tag+ ">)");
 	attribrex = RegExp(' ' + attribute + '="([^"]+)"');
 	lst = txt.split(tagsrex);
 	if (lst.length > 1) {
 		len = lst.length;
 		for (pos=1; pos < len; pos += 4) {
 			if (pos < (len - 2) &&  lst[pos + 2] == ("</" + tag + ">")) {
 				m = lst[pos].match(attribrex);
 				if (m) {
 					if (!itemRe.exec(m[1])) {
 						continue;
 					}
 					var title = lst[pos + 1];
 					title = title.replace(/\|.*/, "").replace(/<[^>]+>/g, "");;
 					ret[m[1]] = Zotero.Utilities.unescapeHTML(title);
 				}
 			}
 		}
 	}
 	return ret;
 }
 // #########################
 // ##### API functions #####
 // #########################
 var detectWeb = function (doc, url) {
 	if (itemRe.test(doc.location.href)) {
 		return "newspaperArticle";
 	} else {
 		return "multiple";
 	}
 }
 var doWeb = function (doc, url) {
 	var type, nsResolver, availableItems, xpath, found, nodes, headline, pos, myurl, m, items;
 	nsResolver = getResolver(doc);
 	type = detectWeb(doc, url);
 	if (type === "multiple") {
 		availableItems = {};
 		if (url.match(/\/gsearch\//)) {
 			//
 			// For Google SafeSearch.  Thanks, guys, it was an entertaining afternoon.
 			//
 			xpath = '//iframe[@name="googleSearchFrame"]';
 			var iframe = doc.evaluate(xpath, doc, nsResolver, XPathResult.ANY_TYPE, null).iterateNext();
 			var address = iframe.src;
 			var page = Zotero.Utilities.retrieveSource(address);
 			availableItems = getTagsWithAttributeAndContent(page, "a", "href");
 		} else {
 			xpath = '//a[contains(@href, "cgi-bin")]';
 			nodes = doc.evaluate(xpath, doc, nsResolver, XPathResult.ANY_TYPE, null);
 			found = nodes.iterateNext();
 			while (found) {
 				if (!itemRe.test(found)) {
 					found = nodes.iterateNext();
 					continue;
 				}
 				headline = found.text;
 				//
 				// Some headlines have a weird structure that yields two
 				// entries, the second of which is blank.  Nothing is lost
 				// by this construct.
 				//
 				if (!headline.replace("\n", "")) {
 					found = nodes.iterateNext();
 					continue;
 				}
 				headline = headline.replace("\u00a0", " ", "g").replace("\n", " ", "g");
 				headline = headline.replace(/^\s+/, "").replace(/\s+$/, "").replace(/\s+/g, " ");
 				availableItems[found.href] = headline;
 				found = nodes.iterateNext();
 			}
 		}
 		if (availableItems.__count__) {
 			items = Zotero.selectItems(availableItems);
 			for (myurl in items) {
 				if (items.hasOwnProperty(myurl)) {
 					scrapeAndParse(myurl);
 				}
 			}
 		}
 	} else if (type === "newspaperArticle") {
 		scrapeAndParse(url);
 	}
 };
 // ############################
 // ##### Scraper function #####
 // ############################
 var scrapeAndParse = function (url) {
 	var item, mytxt, m, val;
 	item = new Zotero.Item("newspaperArticle");
 	mytxt = Zotero.Utilities.retrieveSource(url);
 	item.publicationTitle = "Japan Times Online";
 	item.url = url;
 	val = getTagContent(mytxt, "id", "date");
 	if (val) {
 		item.date = val;
 	}
 	val = getTagContent(mytxt, "id", "headline");
 	if (val) {
 		item.title = val;
 	}
 	item.attachments.push({title:"Japan Times Online snapshot", mimeType:"text/html", url:url});
 	item.complete();
 };
--- a/translators/Mainichi
+++ b/translators/Mainichi
@ -0,0 +1,121 @@
 {
 	"translatorID":"b56f856e-934e-4b46-bc58-d61dccc9f32f",
 	"translatorType":4,
 	"label":"Mainichi Daily News",
 	"creator":"Frank Bennett",
 	"target":"^http://(?:search\\.)*mdn\\.mainichi\\.jp/(?:$|result\?|mdnnews/|perspectives/|features/|arts/|travel/)",
 	"minVersion":"2.0b7",
 	"maxVersion":"",
 	"priority":100,
 	"inRepository":true,
 	"lastUpdated":"2009-01-23 02:17:09"
 }
 // #################################
 // #### Local utility functions ####
 // #################################
 var itemRe = new RegExp('.*/([0-9]{8})[a-z]{1}[0-9]{1}[a-z]{1}[0-9]{2}[a-z]{1}[0-9]{1}[a-z]{2}[0-9]{6}c\.html');
 var getResolver = function (doc) {
 	var namespace, resolver;
 	namespace = doc.documentElement.namespaceURI;
 	if (namespace) {
 		resolver = function(prefix) {
 			if (prefix == 'x') {
 				return namespace;
 			} else {
 				return null;
 			}
 		};
 	} else {
 		resolver = null;
 	}
 	return resolver;
 };
 var cleanUp = function (str) {
 	var ret;
 	ret = str.replace("\u00a0", " ", "g").replace("\n", " ", "g");
 	ret = ret.replace(/^\s+/, "").replace(/\s+$/, "").replace(/\s+/g, " ");
 	ret = ret.replace(/\|.*/, "").replace(/<[^>]+>/g, "");;
 	ret = Zotero.Utilities.unescapeHTML(ret);
 	return ret;
 }
 // #########################
 // ##### API functions #####
 // #########################
 var detectWeb = function (doc, url) {
 	if (itemRe.test(doc.location.href)) {
 		return "newspaperArticle";
 	} else {
 		return "multiple";
 	}
 }
 var doWeb = function (doc, url) {
 	var type, nsResolver, availableItems, xpath, found, nodes, headline, pos, myurl, m, items, title;
 	nsResolver = getResolver(doc);
 	type = detectWeb(doc, url);
 	if (type === "multiple") {
 		availableItems = {};
 		if (url.match(/^http:\/\/search\.mdn\.mainichi\.jp\/result\?/)){
 			xpath = '//div[@class="ResultTitle"]/a[contains(@href, "mdn.mainichi.jp")]';
 		} else {
 			xpath = '//h2[@class="NewsTitle"]/a[@href]|//ul[@class="Mark"]/li/a[@href]';
 		}
 		nodes = doc.evaluate(xpath, doc, nsResolver, XPathResult.ANY_TYPE, null);
 		found = nodes.iterateNext();
 		while (found) {
 			if (!itemRe.test(found.href)) {
 				found = nodes.iterateNext();
 				continue;
 			}
 			headline = found.textContent;
 			headline = cleanUp(headline);
 			availableItems[found.href] = headline;
 			found = nodes.iterateNext();
 		}
 		if (availableItems.__count__) {
 			items = Zotero.selectItems(availableItems);
 			for (myurl in items) {
 				if (items.hasOwnProperty(myurl)) {
 					scrapeAndParse(myurl, availableItems[myurl]);
 				}
 			}
 		}
 	} else if (type === "newspaperArticle") {
 		xpath = '//h2[@class="NewsTitle"]';
 		nodes = doc.evaluate(xpath, doc, nsResolver, XPathResult.ANY_TYPE, null);
 		title = nodes.iterateNext();
 		if (title) {
 			title = cleanUp(title.textContent);
 			scrapeAndParse(url, title);
 		}
 	}
 };
 // ############################
 // ##### Scraper function #####
 // ############################
 var scrapeAndParse = function (url, title) {
 	var item, mytxt, m, val;
 	item = new Zotero.Item("newspaperArticle");
 	item.title = title;
 	item.publicationTitle = "Mainichi Daily News";
 	item.edition = "online edition";
 	item.url = url;
 	m = itemRe.exec(url);
 	if (m) {
 		var year = m[1].slice(0,4);
 		var month = m[1].slice(4,6);
 		var day = m[1].slice(6,8);
 		item.date = [year, month, day].join("-");
 	}
 	item.attachments.push({title:"Mainichi Daily News snapshot", mimeType:"text/html", url:url});
 	item.complete();
 };